CN114330512B

CN114330512B - 数据处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114330512B
Application number: CN202111521534.5A
Authority: CN
Inventors: 弓静
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2024-04-26
Anticipated expiration: 2041-12-13
Also published as: CN114330512A

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备及计算机可读存储介质，涉及人工智能、自然语言处理、云技术以及区块链技术领域。该方法包括：基于初始神经网络模型的过滤层对训练样本集进行过滤处理，得到训练样本集包括的各个样本文本对的遮挡文本片段对应的遮挡向量。根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段分别对应的预测结果。根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定训练样本集的损失。基于训练样本集的损失对初始神经网络模型进行训练，以得到训练后的文本处理模型。通过该方法，减少了训练过程中的计算量，提高了数据处理效率，加快了模型训练速度。

Description

数据处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能、自然语言处理、云技术以及区块链技术领域，具体而言，本申请涉及一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

近年来，越来越多的领域都需要对文本进行处理，在对文本进行处理的过程中，通常会用到不同的文本处理模型。

由于文本的复杂程度，相关技术在进行文本处理模型的训练过程中，需要耗费很多时间，训练速度较慢，不能够满足实用需求。

发明内容

本申请实施例提供了一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，该方法减少了训练过程中的计算量，提高了数据处理效率，加快了模型训练速度。

根据本申请实施例的一个方面，提供了一种数据处理的方法，该方法应用于文本处理模型的训练过程中，包括：

将训练样本集输入至初始神经网络模型，该训练样本集包括多个样本文本对及对应的标注标签，每个样本文本对包括遮挡文本片段；

基于初始神经网络模型的过滤层对该训练样本集进行过滤处理，得到各个样本文本对的遮挡文本片段对应的遮挡向量；

根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段分别对应的预测结果；

根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定该训练样本集的损失，其中，标注标签表征相应的样本文本对包括的遮挡文本片段的真实文本片段；

基于训练样本集的损失对初始神经网络模型进行训练，以得到训练后的文本处理模型。

根据本申请实施例的又一个方面，提供了一种数据处理方法，该方法包括：

获取待识别文本对，该待识别文本对中包括待识别文本片段；

基于训练好的文本处理模型，得到该待识别文本片段对应的文本信息，其中，文本处理模型是基于上述方法训练得到的。

根据本申请实施例的再一个方面，提供了一种数据处理装置，该装置应用于文本处理模型的训练过程中，包括：

输入模块，用于将训练样本集输入至初始神经网络模型，其中，训练样本集包括多个样本文本对及对应的标注标签，每个样本文本对包括遮挡文本片段；

处理模块，用于基于初始神经网络模型的过滤层对训练样本集进行过滤处理，得到各个样本文本对的遮挡文本片段对应的遮挡向量；

根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定训练样本集的损失，其中，标注标签表征相应的样本文本对包括的遮挡文本片段的真实文本片段；

可选地，遮挡向量用于指示相应的样本文本对中遮挡文本片段在样本文本对中的位置信息以及上下文信息，处理模块在根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段对应的预测结果时，具体用于：

基于初始神经网络模型的卷积层，对遮挡向量与预设的词典表对应的向量进行卷积操作；

根据卷积结果，确定各个样本文本对的遮挡文本片段对应的预测结果。

可选地，处理模块在根据卷积结果，确定各个样本文本对的遮挡文本片段对应的预测结果时，具体用于：

针对每个遮挡文本片段，确定卷积结果的矩阵中与该遮挡文本片段对应的关联位置以及在关联位置中具有最大概率的目标位置，并将目标位置在词典表中对应的目标文本片段确定为该遮挡文本片段对应的预测结果。

可选地，处理模块在根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定训练样本集的损失时，具体用于：

根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的真实文本片段，确定各遮挡文本片段的损失；

根据各遮挡文本片段的损失，确定训练样本集的损失。

可选地，该装置还包括向量表确定模块，该向量表确定模块用于根据至少两个优化参数以及相应的参数值，确定优化向量表，其中，优化参数是对初始神经网络的模型参数进行调整的依据；

处理模块在基于训练样本集的损失对初始神经网络模型进行训练时，具体用于：

确定优化向量表中与训练样本集的损失对应的目标参数值；

将初始神经网络模型的模型参数的参数值调整至目标参数值。

可选地，优化参数包括至少一个初始神经网络模型的模型参数，处理模块在确定优化向量表中与训练样本集的损失对应的目标参数值，包括：

确定训练样本集的损失对应的梯度值，并依据预定的梯度优化参数关系，确定与梯度值匹配的优化参数的参数值；

基于优化参数的参数值，在优化向量表中确定与训练样本集的损失对应的目标参数值。

可选地，该装置还包括预处理模块，其中，该预处理模块用于：

在将训练样本集输入至初始神经网络模型之前，根据训练样本集中各个样本文本对的最大字符长度，对训练样本集中的各个样本文本对进行字符长度对齐预处理，得到预处理后的训练样本集，其中，预处理后的训练样本集中每个样本文本对的长度一致，且与最大字符长度匹配；

输入模块在将训练样本集输入至初始神经网络模型时，具体用于：

将预处理后的训练样本集输入至初始神经网络模型。

根据本申请实施例的再一个方面，提供了一种数据处理装置，该装置包括：

获取模块，用于获取待识别文本对，该待识别文本对中包括待识别文本片段；

识别模块，用于基于训练好的文本处理模型，得到该待识别文本片段对应的文本信息，其中，文本处理模型是基于上述装置训练得到的。

根据本申请实施例的再一个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行计算机程序以实现上述方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供了一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及人工智能、自然语言处理、云技术以及区块链技术领域。在该数据处理方法中，由于训练样本集中的各个样本文本对的非遮挡文本片段在训练过程中并没有发生任何改变，因此，在该数据处理方法中，在确定标注标签时，可以只确定相应的样本文本对包括的遮挡文本片段的真实文本片段，不需要确认相应的样本文本对包括的非遮挡文本片段，减少了确定标注标签的过程中所需的计算量，提高了该过程的数据处理效率。

在将训练样本集输入至初始神经网络后，基于初始神经网络模型的过滤层对该训练样本集进行过滤处理，可以过滤掉该训练文本集包括的各个样本文本对的非遮挡文本片段，得到各个样本文本对的遮挡文本片段对应的遮挡向量。在确定训练样本集的预测结果时，直接根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段分别对应的预测结果，并将各个样本文本对的遮挡文本片段分别对应的预测结果确定为训练样本集的预测结果，减少了确定训练样本集的预测结果的过程中所需的计算量，提高了该过程的数据处理效率。

同理，可以直接根据各个样本文本对的遮挡片段分别对应的预测结果和各个样本文本对分别对应的标注标签，也减少了确定训练样本集的损失的过程中所需的计算量，提高了该过程中的数据处理效率。

结合上述确定标注标签、确定各个样本文本对的遮挡文本片段分别对应的预测结果、以及确定训练样本集的损失的方式，无论训练样本集中的各样本文本对中的样本文本是长文本还是短文本，该数据处理方法在进行模型训练时，基于训练样本集的损失对初始神经网络模型进行训练，以得到训练后的文本处理模型时，都减少了训练过程的计算量，提高了数据处理效率，加快了模型训练速度，能够更好地满足实用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例的一种数据处理方法的示意图；

图2示出了unilm finetune模型的部分训练过程的示意图；

图3a示出了本申请实施例中的一个训练样本集的示意图；

图3b示出了图3a所示的训练样本集对应的遮挡向量的示意图；

图4a示出了本申请实施例的一个训练集中的所有训练样本集对应的最大文本长度的示意图；

图4b示出了分别为图4a示出的训练集中各训练样本集确定预设长度的示意图；

图5示出了本申请实施例中获取卷积结果的示意图；

图6示出了本申请实施例的优化向量表的示意图；

图7示出本申请实施例提供的数据处理方法的流程图；

图8示出了本申请实施例的数据处理系统的结构示意图；

图9示出了该应用场景下的数据处理系统执行数据处理方法的流程图；

图10示出了本申请实施例的一种数据处理装置的示意图；

图11示出本申请实施例提供的数据处理装置的示意图；

图12示出了本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

相关技术中，通常会采用activation checkpoint(激活检查点)的手段增加待训练模型可以支持的batch size(每次训练过程中，一个训练样本集中样本文本对的大小)的方式，或者利用待训练模型的并行性，通过对待训练模型进行切分，同时对待训练模型的不同部分进行训练的方式来提高模型训练的速度。

本申请创造性的发现，虽然在训练样本集中各样本文本对中的样本文本的长度较小时，可以通过上述方式提高模型训练的速度，但在训练样本集中各样本文本对中的样本文本的长度较长时，由于在上述方式中，无论是在模型训练过程中的哪一步，都需要训练样本集中的所有样本文本对参与，导致上述方式仍然面临需要很多计算量，处理效率很低，在进行模型训练时所耗费的时间也很长等技术问题，不能够满足实用需求。

针对上述创造性发现的相关技术中所存在的上述至少一个技术问题或需要改善的地方，本申请提供了一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，该方法设置标注标签为相应的样本文本对包括的遮挡文本片段的真实文本片段，在将训练样本集输入至初始神经网络模型后，基于初始神经网络模型的过滤层对训练样本集进行过滤处理，得到训练样本集包括的各个样本文本对的遮挡文本片段对应的遮挡向量。根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段分别对应的预测结果。根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定训练样本集的损失。基于训练样本集的损失对初始神经网络模型进行训练，以得到训练后的文本处理模型。通过该方法，减少了训练过程中的计算量，提高了数据处理效率，加快了模型训练速度。

可选的，本申请实施例提供的数据处理方法，可以基于人工智能(ArtificialIntelligence，AI)技术实现。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步，人工智能技术已经在多个领域广泛展开研究和应用，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

可选的，本申请实施例提供的数据处理方法，可以基于自然语言处理(NatureLanguage processing，NLP)的技术实现。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

可选的，本申请实施例提供的数据处理方法可以基于云技术(Cloud technology)实现，比如，在对深度学习模型进行更新训练的过程中所涉及的数据计算可以采用云计算(Cloud computing)方式。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

可选的，本申请实施例提供的数据处理方法还可以基于区块链技术实现。具体的，可以将该数据处理方法中所用到的数据，例如训练样本集、标注标签、预设的词典表等，保存于区块链上。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1示出了本申请实施例的一种数据处理方法的示意图，该方法应用于文本处理模型的训练过程中，该数据处理方法的执行主体可以是数据处理装置。其中，该数据处理装置可以包括但不限于终端设备或服务器，可选的，该服务器可以是云服务器。其中，终端设备可以是用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备或者可穿戴设备等。其中，该数据处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

可选的，该数据处理方法可以由用户终端执行，比如用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR(Virtual Reality，虚拟现实)/VR(Augmented Reality，增强现实)设备等。

在实际应用中，该方法可以适用于任何需要进行文本处理的场景中，用于对文本处理模型的，用于对文本处理模型进行训练。其中，该需要进行文本处理的场景包括但不限于用于进行NLP(natural language processing，自然语言处理)、NLI(natural languageinference，自然语言推断，NLI)、NLG(natural language generation，自然语言生成)、NLU(natural language understanding，自然语言理解)等场景。可以理解的是，该文本处理模型可以包括但不限于bert(bidirectional encoder representation fromtransformers，基于语义理解的深度双向预训练转换器)类模型(即基于bert的模型)。

以该方法应用于unilm finetune(unified language model finetune，统一的预训练模型精调)模型结构的训练过程中为例，对该方法的具体应用场景进行说明。unilmfinetune模型采用了bert的模型，将对三种任务进行预测mask(遮挡物，此处为遮挡文本片段)作为预训练目标，从而使得模型可以应用于NLG，同时在NLU中获得和bert一样的效果。具体地，该模型所使用的三种mask任务包括：unidirectional prediction(单向预测任务)、bidirectional prediction(双向预测任务)、sequence-to-sequence prediction(序列到序列预测任务)。具体通过对unidirectional LM(单向语言模型)进行训练，以实现unidirectional prediction，通过对bidirectional LM(双向语言模型)进行训练，以实现bidirectional prediction，通过对sequence-to-sequence LM(序列到序列语言模型，简写为Seq2Seq LM)进行训练，以实现sequence-to-sequence prediction。

图2示出了unilm finetune模型的部分训练过程的示意图，在图2中空白的方格表示允许使用的token(字符)，灰色的方格表示不允许使用地token。如图2所示，在unidirectional LM训练时，对于mask(遮挡物，此处为遮挡文本片段)的预测，只能使用mask所在位置以及mask所在的位置的一侧的位置对应的文本信息和位置信息。其中，mask所在的位置的一侧可以为mask所在的位置的左侧，也可以为mask所在的位置的右侧。以一个文本为例，该文本中包括[mask]，具体为：token₁token₂[mask]token₄，在mask进行预测时，只能使用token₁所在的位置、token₂所在的位置以及[mask]所在的位置对应的文本信息和位置信息，或者，只能使用token₄所在的位置以及[mask]所在的位置对应的文本信息和位置信息。如图2中所示的，左至右单向语言模型中，只能允许使用mask所在的位置的左侧各token的语义。

在bidirectional LM训练时，对于mask的预测，可以使用所有位置对应的文本信息和位置信息。

在Seq2Seq LM训练时，一个序列(即，样本文本对)可以由[SOS]S_1[EOS]S_2[EOS]组成，其中，S1是source segments(源部分)，S2是target segments(目标部分)。随机mask(遮挡，此处为做遮挡处理)两个segment中的token，如果masked(被遮挡的，此处为被遮挡的词)是source segment中的词的话，则它可以attend to(使用)所有的source segment的tokens，如果masked(被遮挡的，此处为被遮挡的词)的是target segment，则模型只能attend to(使用)所有的source tokens以及target segment中当前词(包含)和该词左边的所有tokens。基于此，在Seq2Seq LM训练时，可以隐形地学习到一个双向的encoder(编码器)和单向decoder(译码器)，即Seq2Seq LM类似transformer。

基于上文的描述，由于在unidirectional LM的训练过程中，只能使用mask所在位置以及mask所在的位置的一侧的位置对应的文本信息和位置信息，因此，无论所使用的训练文本是长文本(长度较长的文本)还是短文本(长度较短的文本)，其计算量相对较小。在unidirectional LM以及Seq2Seq LM的训练过程中，需要使用到文本中所有位置对应的文本信息和位置信息，其计算量相对较大，尤其在训练文本是长文本时，会面临需要很多计算量，处理效率很低，在进行模型训练时所耗费的时间也很长等技术问题。因此，可以将本申请实施例所提供的数据处理方法应用于unidirectional LM以及Seq2Seq LM的训练过程，以加快训练速度。当然，为了加快训练速度，本申请该实施例所提供的数据处理方法也可以应用于unidirectional LM的训练过程中，本申请对此不做限制。

如图1所示，该方法包括以下步骤S10至步骤S50。

步骤S10：将训练样本集输入至初始神经网络模型，该训练样本集包括多个样本文本对及对应的标注标签，每个样本文本对包括遮挡文本片段。

步骤S20：基于初始神经网络模型的过滤层对该训练样本集进行过滤处理，得到各个样本文本对的遮挡文本片段对应的遮挡向量。

步骤S30：根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段分别对应的预测结果。

步骤S40：根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定该训练样本集的损失，其中，标注标签表征相应的样本文本对包括的遮挡文本片段的真实文本片段。

步骤S50：基于训练样本集的损失对初始神经网络模型进行训练，以得到训练后的文本处理模型。

在该数据处理方法中，由于训练样本集中的各个样本文本对的非遮挡文本片段在训练过程中并没有发生任何改变，因此，在该数据处理方法中，在确定标注标签时，可以只确定相应的样本文本对包括的遮挡文本片段的真实文本片段，不需要确认相应的样本文本对包括的非遮挡文本片段，减少了确定标注标签的过程中所需的计算量，提高了该过程的数据处理效率。

在将训练样本集输入至初始神经网络后，基于初始神经网络模型的过滤层对该训练样本集进行过滤处理，可以过滤掉该训练文本集包括的各个样本文本对的非遮挡文本片段，得到各个样本文本对的遮挡文本片段对应的遮挡向量，实现训练样本集的稀疏化。在确定训练样本集的预测结果时，直接根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段分别对应的预测结果，并将各个样本文本对的遮挡文本片段分别对应的预测结果确定为训练样本集的预测结果，减少了确定训练样本集的预测结果的过程中所需的计算量，提高了该过程的数据处理效率。

以下对该方法进行具体介绍：

在该方法中，一个训练样本集可以为在进行文本处理模型的训练过程中，包括多个样本文本对的一个batch。本申请对每个训练样本集中的样本文本对的个数不做限制，可以根据实际需求确定每个训练样本集中的样本文本对的个数。

可以理解的是，在实际进行文本处理模型的训练时，可以基于多个训练样本集对初始神经网络模型进行训练，即，可以通过获取包括多个训练样本集的训练集对初始神经网络模型进行训练。本申请仅以其中一个训练样本集为例，说明该方法在利用一个训练样本集进行初始神经网络模型的训练时的应用过程。

针对一个训练样本集，结合上文对Seq2Seq LM进行训练的过程，该训练样本集中的各个样本文本对可以是存在关联关系的样本文本对。在该实现方式中，样本文本对可以用“[SOS]S_1[EOS]S_2[EOS]”表示，其中，S_1、S_2分别用来表示该样本文本对中的两个文本，[SOS]用于指示该样本文本对的起始位置，[EOS]用于指示该样本文本对中的两个文本的分隔符以及该样本文本对的结束位置，其中，[SOS]以及[EOS]在样本文本对中所占的字符位置均为1个字符。

可选地，样本文本对可以是根据对获取到的文本对进行遮挡处理得到的。本申请对文本对的获取方式不做限制，例如，所获取到的文本对可以为日常对话中所用到的文本对，也可以为从任意一个文档中获取到的存在关联关系的文本对等。作为一个示例，所获到的文本对为从日常对话中获取到存在问答关系的文本对：“[SOS]今天天气怎么样[EOS]今天天气很好[EOS]”。以一个字符的长度为1为例，则在该文本对的长度为16。

在对样本文本对进行遮挡处理时，对进行遮挡处理的位置和被遮挡的文本片段(也即，文本片段可以为字符或字符段)的大小不做限制。也即，遮挡文本片段在样本文本对中的位置和大小不做限制。例如，该遮挡文本片段的位置可以为该样本文本对的起始位置，可以为该样本文本对的结束位置，也可以为该样本文本对的任意位置。该遮挡文本片段的大小可以为该样本文本对中的一个或多个字符。

可选地，可以将获取到的文本对中的部分文本片段设置为特殊字符，其他部分的文本片段的字符保持不变，实现对获取到的文本对的遮挡处理，得到样本文本对，其中，进行遮挡处理的部分文本片段即本申请实施例中的遮挡文本片段。例如，可以将该获取到的文本对的部分文本片段设置为“0”字符，其他部分的文本片段的字符保持不变，实现对获取到的文本进行遮挡处理。以上文所获取到的文本对(“今天天气怎么样”以及“今天天气很好”)为例，对该文本对进行遮挡处理之后，所得到的样本文本对可以为：“[SOS]今天00怎么样[EOS]0天天气0好S_2[EOS]”。

由于训练样本集中的各个样本文本对的非遮挡文本片段在训练过程中并没有发生任何改变，因此，为了提高数据处理效率，减少计算量，可以将一个样本文本对对应的标注标签设置为该样本文本对包括的遮挡文本片段的真实文本片段。以上文中的样本文本对为例，该样本文本对的标注标签为“天气今很”。对应的，一个训练样本集的标注标签即为该训练样本集中包括的多个样本文本对中所有遮挡文本片段对应的标注标签。

在该实现方式中，初始神经网络模型的过滤层可以通过任意一个过滤器实现，只要通过该过滤器能够筛选出训练样本集中各个样本文本对的遮挡文本片段即可。

在一种可选的实施方式中，在对获取到的文本对进行遮挡处理后，可以为遮挡文本片段和非遮挡文本片段设置不同的标识，从而在基于初始神经网络模型的过滤层对训练样本集进行过滤处理时，可以依据所设置的遮挡文本片段的标识和非遮挡文本片段的标识，筛选出训练样本集中各个样本文本对的遮挡文本片段。

当然，如果在对获取到的文本对进行遮挡处理以得到样本文本对时，是通过为遮挡文本片段设置特殊字符的方式实现的，在基于初始神经网络模型的过滤层对训练样本集进行过滤处理时，也可以根据筛选特殊字符的方式，筛选出训练样本集中各个样本文本对的遮挡文本片段。如上文中的示例，在对获取到的文本对进行遮挡处理以得到样本文本对时，可以将该获取到的文本对的部分文本片段设置为“0”字符，其他部分的文本片段的字符保持不变，实现对获取到的文本进行遮挡处理，则在基于初始神经网络模型的过滤层对训练样本集进行过滤处理时，可以依据进行遮挡处理时所设置的“0”字符，将训练样本集中各个样本文本对中的“0”字符进行筛选，得到该训练样本集中各个样本文本对中的遮挡文本片段。

其中，该过滤层优选为不仅可以筛选出训练样本集中各个样本文本对的遮挡文本片段，还可以将筛选得到的各个样本文本对的遮挡文本片段形成向量(也即，遮挡向量)的过滤器。作为一个示例，该过滤层可以基于索引的用于提取遮挡位置的滤波器(maskedposition index filter)，通过该过滤层，可以得到该训练样本集中各个样本文本对的遮挡文本片段对应的遮挡向量。其中，所获取的遮挡向量中的每个元素用于指示每个遮挡文本片段。

图3a示出了本申请实施例中的一个训练样本集的示意图。图3b示出了图3a所示的训练样本集对应的遮挡向量的示意图。如图3a所示，该训练样本集中包括7个样本文本对，每个样本文本对的长度为6，是通过对获取到的各文本对的部分文本片段设置为“0”字符，实现遮挡处理以得到该训练样本集中的样本文本对的。如图3b所示，在通过上述maskedposition index filter对图3a所示的训练样本集进行过滤处理后，可以得到该训练样本集中各个样本文本对的遮挡文本片段(即所有“0”字符对应的文本片段)所形成的遮挡向量。

在本申请实施例中，预设的词典表为包括多个预设字符的表，通过该预设的词典表，可以获取到所有字符。基于对遮挡向量与该预设的词典表的处理，可以获取到训练样本集中各个样本文本对的遮挡片段分别对应的字符或字符组合(也即，各个样本文本对的遮挡文本片段分别对应的预测结果)。

训练样本集的损失是指训练样本集的预测结果与训练样本集的标注标签之间的损失值。在本申请实施例中，该训练样本集的损失，可以指该训练样本集中各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签之间的损失。可选地，可以通过包括但不限于以下任意一种的损失函数确定训练样本集的损失：crossentropy loss function(交叉熵损失函数)、softmax(归一化)损失，cosface(cosine lossfor deep face，深度面部余弦损失)，arcface(arcsine loss for deep face，深度面部反正弦损失)，center loss(中心损失)等，本申请对此不做限制。

可以理解的是，在通过获取的训练集中的所有训练样本集进行文本处理模型的训练时，若当前训练样本集的损失满足预设的训练结束条件，可以不对初始神经网络模型进行处理，并利用下一个训练样本集继续对该初始神经网络模型进行训练。若当前训练样本集的损失不满足预设的训练结束条件，则需要基于训练样本集的损失对该初始神经网络模型进行训练，直至当前训练样本集的损失满足预设的训练结束条件。在获取的训练集中的所有训练样本集的损失都满足预设的训练结束条件时，结束训练，得到训练好的文本处理模型。

其中，预设的训练结束条件可以根据需求配置，可以包括但不限于损失函数收敛、损失小于设定值或者训练次数达到设定次数。其中，该设定值越小，所得到的文本处理模型的精确度越高。

由于在一个训练样本集中，各个样本文本对的长度可能不一致，各个样本文本对的长度分布差距很大，为了提高数据处理效率，在将训练样本集输入至初始神经网络模型，对初始神经网络模型进行训练之前，通常会对各个样本文本对长度进行对齐预处理，在各个样本文本对中的进行文本的嵌入，使得各个样本文本对的长度保持一致。

相关技术中，通常会将所有的训练样本集中各个样本文本对的长度都调整至最大的字符长度2048。然而，在当前训练样本集中各个样本文本对的长度都很小的情况下，若将该训练样本集中各个样本文本对的长度都调整至最大的字符长度2048，必然会导致预处理的过程耗时较长、所需计算量也很大。自然地，在根据预处理后的较大长度的训练样本集对初始神经网络模型进行训练时，也会使得模型训练过程存在导致整个模型训练过程耗时长、计算量大、数据处理效率低、速度慢等技术问题。针对于此，本申请还提供了以下可选的实施方式：

在该可选的实施方式中，在将训练样本集输入至初始神经网络模型之前，该方法还包括：

根据训练样本集中各个样本文本对的最大字符长度，对训练样本集中的各个样本文本对进行字符长度对齐预处理，得到预处理后的训练样本集，其中，预处理后的训练样本集中每个样本文本对的长度一致，且与最大字符长度匹配；

将训练样本集输入至初始神经网络模型，包括：

将预处理后的训练样本集输入至初始神经网络模型。

其中，可以将训练样本集中各个样本文本对的字符长度中的最大值，确定为训练样本集中各个样本文本对的最大字符长度(以下也简称为训练样本集对应的最大字符长度、最大字符长度)。

针对每个训练样本集，对该训练数据集中的各个样本文本对进行字符长度对齐预处理，即将该训练数据集中的各个样本文本对的长度都调整至相同的长度。其中，可以通过文本嵌入(padding)的方式实现对齐预处理，即，可以在训练数据集中的各个样本文本对中，加入不影响文本处理的字符，使得处理后的训练数据集中的各个样本文本对的长度保持一致。

可选地，针对每个训练样本集，在确定出最大字符长度后，可以通过以下任意一种方式确定预处理后的训练样本集中每个样本文本对的长度(以下也简称为预处理后的长度)：

将该最大字符长度确定为预处理后的训练样本集中每个样本文本对的长度；

将该最大字符长度与多个预设长度进行比对，确定出多个预设长度中与该最大字符长度最接近、且大于该最大字符长度的目标预设长度，将该目标预设长度确定为预处理后的训练样本集中每个样本文本对的长度。

由于目前计算技术中广泛采用的数制为二进制，因此，为了提高方便后续数据的处理，可以根据多个2ⁿ对应的数值设置为上述多个预设长度，例如，64、128、512、1024、2048等。

通过上述确定预处理后的训练样本集中每个样本文本对的长度的方式，可以根据每个训练样本集对应的最大字符长度，确定出对应于每个训练样本集的预处理后的长度。相比于将每个训练样本集的长度都设置为最大长度2048，不仅减少了预处理过程的时长及计算量，提高了预处理过程的数据处理效率。相应地，在根据预处理后的训练样本集进行模型训练过程中，也减少了所需的时长，加快了模型训练的速度，减少了模型训练所需的计算量，提高了模型训练过程的数据处理效率。

图4a示出了本申请实施例的一个训练集中的所有训练样本集对应的最大文本长度的示意图。图4b示出了分别为图4a示出的训练集中各训练样本集确定预设长度的示意图。如图4a所示，在该训练集中，包括8个训练样本集，q1、q2、q3、q4、q5、q6、q7、q8，每个训练样本集中的最大文本长度不一致，各个训练样本集对应的最大文本长度分布差距很大。如图4b所示，每个“桶状”表示了不同的预设长度，不同的预设长度分别为len1(长度1)、len2(长度2)、len3(长度3)，通过上述对训练集中所有训练样本集进行对齐预处理的方式，可以根据不同的训练样本集对应的最大文本长度，确定与各样本文本集中的最大文本长度相匹配的预设长度，在图4b中，训练样本集q1、q4、q5对应的预设长度为len1，训练样本集q2、q6、q7、q8对应的预设长度为len2，训练样本集q3对应的预设长度为len3，在运用各训练样本集进行上述文本处理模型的训练时，可以将各训练样本集中的各样本文本对的长度设置为对应的预设长度。例如，在训练样本集q3中各样本文本对的文本长度中，最大文本长度为120的情况下，可以确定该训练样本集q3对应的预设长度为128，则在根据该训练样本集q3进行上述文本处理模型的训练之前时，可以对该训练样本集中各样本文本对进行文本嵌入，以实现对齐预处理，使得对齐预处理后的训练样本集中各样本文本对的长度都为128。

可选地，遮挡向量用于指示相应的样本文本对中遮挡文本片段在样本文本对中的位置信息以及上下文信息，根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段对应的预测结果，包括：

在该实现方式中，在对训练样本集进行过滤处理之前，可以先获取训练样本集中各个遮挡文本片段对应的上下文信息，从而在对训练样本集进行过滤处理之后，使得所得到遮挡向量能够指示相应的样本文本对中遮挡文本片段的上下文信息。其中，对于一个遮挡文本片段的上下文信息，是指该遮挡文本片段在其所在的样本文本对中的上下文信息。本申请对具体获取上下文信息的方式不做限制。

其中，在对训练样本集进行过滤处理的同时，还可以获取该训练样本集中各个样本文本对中遮挡文本片段在样本文本对中的位置信息。其中，对于一个遮挡文本片段，该遮挡文本片段在样本文本对中的位置信息可以为该遮挡文本片段对应于该训练样本集中各个样本文本对的位置。

可以理解的是，为了可以更精准的获取遮挡文本片段在样本文本对中的位置信息，可以将每个字符所在位置确定为一个遮挡文本片段。以上文中的样本文本对(“[SOS]今天00怎么样[EOS]0天天气0好S_2[EOS]”)为一个具体的示例，假设该样本文本对属于当前训练样本集中的第3个样本文本对，则对于该样本文本对中第一个遮挡文本片段的位置信息可以为[3,4]，即该位置信息表示遮挡文本片段为当前训练样本集中的第3个样本文本对中第4个字符。

在该实现方式中，预设的词典表对应的向量可以根据该预设词典表中各个字符形成的向量或一阶矩阵，例如，在该预设的词典表中包括a，b，c，d，e，f这6个字符的情况下，该预设的词典表对应的向量可以为[a，b，c，d，e，f]，其中，a，b，c，d，e，f分别表示该预设的词典表对应的向量中的各个元素。

在对遮挡向量与预设的词典表对应的向量进行卷积操作时，可以包括根据遮挡向量中每个元素对应的语义信息与预设的词典表对应的向量中的每个元素进行卷积，得到卷积结果。该卷积结果的表示形式可以为矩阵。在该卷积结果的矩阵中，每个遮挡文本片段可以对应于该卷积结果的矩阵中的一行元素或者一列元素。需要注意的是，在进行卷积操作时，应保证卷积后的矩阵的行数或列数与遮挡向量中遮挡文本片段的个数一致，以保证可以根据卷积的矩阵确定出各个样本对的遮挡文本片段对应的结果。

在一种可能的实现方式中，在基于初始神经网络模型的卷积层，对遮挡向量与预设的词典表对应的向量进行卷积操作时，可以将获取到的遮挡向量设置为列数为1的一阶矩阵，将预设的词典表对应的向量设置为行数1的一阶矩阵，从而将该遮挡向量对应的一阶矩阵与该预设的词典表对应的一阶矩阵进行卷积，得到卷积结果的矩阵。

当然，在基于初始神经网络模型的卷积层，对遮挡向量与预设的词典表对应的向量进行卷积操作时，若获取到的遮挡向量与预设的词典表对应的向量均为列数为1的一阶矩阵，或者获取到的遮挡向量与预设的词典表对应的向量均为行数为1的一阶矩阵的情况下，可以对遮挡向量与预设的词典表对应的向量中的其中一个进行转置，再根据该转置后的一阶矩阵与另外一个未进行转置的一阶矩阵进行卷积操作，以得到卷积后的矩阵。

对于该卷积结果的矩阵中的每个元素的值，可以用来指示每个遮挡文本片段对应于预设的词典表中每个字符的概率。

图5示出了本申请实施例中获取卷积结果的示意图。如图3b和图5所示，在得到图3b示出的遮挡向量(行数为1的一阶矩阵)之后，可以对图3b所得到的遮挡向量对应的一阶矩阵进行转置，得到图5示出的转置后的一阶矩阵(即图5中的所有元素所在的位置均为“0”字符的矩阵)。并根据该转置后的一阶矩阵与预设的词典表对应的一阶矩阵(即图5中的各元素分别为“a，b，c，d，e，f”的矩阵)进行卷积操作，得到卷积后的矩阵(即图5中的各元素分别为斜线的矩阵)。

在该实现方式中，可以根据每个遮挡文本片段对应于预设的词典表中每个字符的概率确定每个遮挡文本片段对应的预测结果。例如，针对每个遮挡文本片段，可以将该遮挡文本片段对应于预设的词典表中每个字符的概率中的最大值，确定为该遮挡文本片段对应的预测结果。

基于上述，在基于初始神经网络模型的卷积层，对遮挡向量与预设的词典表对应的向量进行卷积操作后，可以根据卷积结果确定出各个样本文本对的遮挡文本片段对应的预测结果。

可选地，根据卷积结果，确定各个样本文本对的遮挡文本片段对应的预测结果，包括：

如上文所记载的，每个遮挡文本片段可以对应于该卷积结果的矩阵中的一行元素或者一列元素，则针对每个遮挡文本片段，该遮挡文本片段对应于卷积结果的矩阵中的一行元素或者一列元素在矩阵中的位置，即为卷积结果的矩阵中与该遮挡文本片段对应的关联位置。具体的，针对每个遮挡文本片段，可以根据在进行卷积操作时，具体用到的遮挡向量和预设的词典表向量的实现形式确定卷积结果的矩阵中与该遮挡文本片段对应的关联位置。

以图5示出的对遮挡向量对应的一阶矩阵进行转置后，所得到的转置后的一阶矩阵中第三个元素为例，则在图5示出的卷积后的矩阵中，第3行中所有元素I_3，a至I_3，f所在的位置即为卷积结果的矩阵中与该遮挡文本片段3对应的关联位置。如上文所记载的，由于卷积结果的矩阵中的每个元素的值，可以用来指示每个遮挡文本片段对应于预设的词典表中每个字符的概率，则I_3，a至I_3，f中的最大值所在的位置，就是该遮挡文本片段3的关联位置中具有最大概率的目标位置。以I_3，a至I_3，f中的最大值是I_3，c为例，则I_3，c对应于词典表中的字符c，就是指该遮挡文本片段3对应的预测结果。

通过确定卷积结果的矩阵中与每个遮挡文本片段对应的关联位置，并确定各遮挡文本片段对应的关联位置中具有最大概率的目标位置，将目标位置在词典表中对应的目标文本片段确定为该遮挡文本片段对应的预测结果，可以精确确定出训练样本集中各个样本文本对的遮挡文本片段对应地预测结果。

在确定出训练样本集中各遮挡文本片段的预测结果之后，可以直接根据预设的损失函数，根据该训练样本集中各个样本文本对分别对应的标注标签确定出该训练样本集的损失。为了进一步提高所确定的训练样本集的损失的精确度，可以在确定出训练样本集中各遮挡文本片段对应的预测结果之后，先确定各遮挡文本片段的损失，再根据预设的损失函数，确定出训练样本集的损失。针对于此，本申请实施例还提供了以下的具体实施方式：

可选地，根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定训练样本集的损失，包括：

根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对的遮挡文本片段分别对应的真实文本片段，确定各遮挡文本片段的损失；

根据各遮挡文本片段的损失，确定训练样本集的损失。

在该实现方式中，每个遮挡文本片段的损失，是指该遮挡文本片段的对应的预测结果和该遮挡文本片段对应的真实文本片段之间的损失值。

在计算训练样本集的损失时，通过先确定该训练样本集中各个样本文本对包括的各遮挡文本片段的损失，再根据各遮挡文本片段的损失确定训练样本集的损失，能够更精确地确定出训练样本集的损失，以便更好地根据训练样本集的损失对初始神经网络模型进行调整，最终获得训练好的文本处理模型。

由于在根据训练样本集的损失对初始神经网络模型进行调整时(也即，本技术领域中的反向计算过程中)，需要对该初始神经网络模型的多个模型参数进行调整，而在具体确定各个需要调整的模型参数的参数值时，通常会用到多个中间参数。一般情况下，需要根据所确定的损失，分别获取多个中间参数的参数值，再根据所获取的多个中间参数的参数值共同确定需要调整的模型参数的参数值。显然，在初始神经网络模型比较复杂、需要调整的模型参数较多的情况下，根据该方式，无法快速确定需要调整的模型参数的参数值(也即，目标参数值)，导致训练过程中需要大量的计算量、数据处理效率较低、训练速度很慢，针对于此，在本申请实施例中，提供了以下确定模型参数的目标参数值的方式：

可选地，该方法还包括：

根据至少两个优化参数以及相应的参数值，确定优化向量表，该优化参数是对初始神经网络的模型参数进行调整的依据；

基于训练样本集的损失对初始神经网络模型进行训练，包括：

确定优化向量表中与训练样本集的损失对应的目标参数值；

在该实现方式中，通过预先确定与初始神经网络模型的模型参数有关的至少两个优化参数(也即，上文中的中间参数)，针对每个优化参数，将该优化参数对应的多个参数值存储至该优化参数对应的列表中，其中，至少两个优化参数中可以包括模型参数。根据各个优化参数与训练样本集的损失、模型参数之间的关系，将各个优化参数对应的列表进行合并，形成优化向量表。

在确定训练样本集的损失之后，可以直接根据该训练样本集的损失，从优化向量表中快速确定出与该训练样本集的损失对应的目标参数值，将初始神经网络模型的模型参数的参数值调整至该目标参数值，而不需要从各个优化参数对应的列表中分别确定各个优化参数的参数值，大大减少了训练过程中的计算量，提高了数据处理效率，加快了模型训练速度。

可选地，上述优化参数包括至少一个初始神经网络模型的模型参数，上述确定优化向量表中与训练样本集的损失对应的目标参数值，包括：

在该实现方式中，若需要调整该初始神经网络模型的权重w，则可以结合adma(Adaptive moment estimation，自适应矩估计)优化器的公式(也即，上述预定的梯度优化参数关系)进行权重w的确定，即：在确定训练样本集的损失之后，根据该训练样本集的损失确定在反向计算过程中的梯度g的值，再根据梯度g的值确定优化参数的值，例如一阶动量m的值以及二阶动量v的值，再结合adma优化器的公式确定出需要调整的权重w的值。

其中，adma优化器的公式可以为：

其中，在本申请实施例中，t表示训练样本集在训练集中的序号，β₁、β₂、ε和η表示超参数，其中，η表示步长或学习率，β₁∈[0，1)，β₂∈[0，1)，β₁和β₂表示矩估计的指数衰减率，可以根据实际情况确定β₁、β₂、ε和η的具体取值，本申请对此不做限制，一般设置β₁＝0.9，β₂＝0.999，ε＝10*e^-8，η＝0.001。m_t＝β₁m_t-1+(1-β₁)g_t，v_t＝β₂v_t-1+(1-β₂)g_t ²。

图6示出了本申请实施例的优化向量表的示意图。如图6所示，结合本申请实施例中确定模型参数的目标参数值的方式，可以将分别确定g对应的列表(g1至g8)、m对应的列表(m1至m8)、v对应的列表(v1至v8)、w对应的列表(w1至w8)，并分别根据g与m、v、w之间的对应关系，确定与g对应的列表中的每个g值对应的m值、v值、w值。假设g1、m1、v1、w1相对应，针对每个g值，可以将与该g值、与该g值对应的m值、与该g值对应的v值、与该g值对应的w值作为优化向量表中的一个元素(例如，图6所示的g1，m1，v1，w1)，在确定出每个g值对应的元素之后，就可以确定出优化向量表。在确定出上述训练样本集的损失之后，就可以根据该损失确定出梯度g，从而快速地在优化向量表中确定出该g值对应的w值。

可以理解的是，在该实现方式中，优化向量表中也可以仅包括与初始神经网络模型的模型参数的关联关系最接近的参数以及该初始神经网络模型的模型参数，以及与每个参数对应的参数值。基于上例，优化向量表中可以仅包括参数m、参数w、参数m对应的各参数值、以及参数w对应的各参数值，即优化向量表中的一个元素可以为m1，w1。

通过根据训练样本集的损失对应的梯度值，并依据预定的梯度优化参数关系，确定与梯度值匹配的优化参数的参数值，从而基于优化参数的参数值，可以在优化向量表中快速确定出与训练样本集的损失对应的目标参数值。

本申请实施例还提供了一种数据处理方法。图7示出本申请实施例提供的数据处理方法的流程图。如图7所示，该方法包括步骤S21至步骤S22。

步骤S21：获取待识别文本对，该待识别文本对中包括待识别文本片段；

步骤S22：基于训练好的文本处理模型，得到该待识别文本片段对应的文本信息，其中，文本处理模型是基于上述方法训练得到的。

可选地，待识别文本片段对应的文本信息包括待识别文本片段本身对应的一个或多个字符、待识别文本片段对应的语义信息等，本申请对此不做限制。

在该数据处理方法中，通过基于训练好的文本处理模型，可以快速获取到待识别文本对中的待识别文本片段对应的文本信息。

以该数据处理方法应用于问答任务中为例，可以根据该数据处理方法，响应于询问语句确定与该询问语句对应的答复语句，或者在询问语句中缺少部分字符的情况下，先根据该数据处理方法对询问语句中缺少的字符进行补充，再根据补充后的询问语句，确定与该补充后的询问语句对应的答复语句等。

为便于理解本申请实施例提供的数据处理方法的应用价值，下面先结合一个具体应用场景实施例对该数据处理方法进行说明。图8示出了本申请实施例的数据处理系统的结构示意图，如图8所示，该系统包括终端设备10、网络20、应用服务器30以及训练服务器40，终端设备10可以通过网络20与应用服务器30进行通信，应用服务器30和训练服务器40之间可以实现交互，例如，应用服务器30可以接收到训练服务器40发送的问答任务模型。

在该数据处理系统中，终端设备10可以通过向应用服务器30发起问答任务请求，应用服务器30可以在与训练服务器40进行交互的过程中，将该问答任务请求发送至训练服务器40，以触发训练服务器40响应于该问答任务请求，结合本申请实施例中所提供的数据方法，根据获取到的训练集中的各训练样本集对初始神经网络模型进行快速训练，得到训练好的问答服务模型，并将该问答服务模型发送至应用服务器30，从而使得应用服务器30在接收到终端设备10发送的询问语句之后，可以响应于该询问语句(对应于，待识别文本对中，答复语句即为待识别文本片段)，将对应的答复语句发送至终端设备10中，以通过该终端设备10的显示器显示该答复语句或者通过语音播报等形式播放该答复语句对应的音频等。其中，该终端设备10中可以设置有进行问答服务的应用程序，或者在该终端设备10中的某一应用程序中设置有用于进行数据处理的插件或小程序、或者网页等，通过该应用程序、小程序、插件、网页等均可以进行询问语句的发出。其中，该数据处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

其中，终端设备10可以是用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备或者可穿戴设备等。

下面结合图8所示的数据处理系统，对该数据处理系统执行本申请实施例的数据处理方法进行说明。图9示出了该应用场景下的数据处理系统执行数据处理方法的流程图。如图9所示，该方法，可以包括如下步骤S110至步骤S120。

步骤S110：终端设备10通过网络20、应用服务器30将问答任务请求发送至训练服务器40。

步骤S120：训练服务器40响应于该问答任务请求，结合本申请实施例中所提供的数据方法，根据获取到的训练集中的各训练样本集对初始神经网络模型进行快速训练，得到训练好的问答服务模型，并通过将该问答服务模型发送至应用服务器30，以使该应用服务器30接收到终端设备10发送的询问语句之后，可以响应于该询问语句，将对应的答复语句发送至终端设备10。

图10示出了本申请实施例的一种数据处理装置的示意图，该装置应用于文本处理模型的训练过程中。如图10所示，该装置60包括输入模块601、处理模块602。其中，

输入模块601，用于将训练样本集输入至初始神经网络模型，其中，训练样本集包括多个样本文本对及对应的标注标签，每个样本文本对包括遮挡文本片段；

处理模块602，用于基于初始神经网络模型的过滤层对训练样本集进行过滤处理，得到各个样本文本对的遮挡文本片段对应的遮挡向量；

可选地，遮挡向量用于指示相应的样本文本对中遮挡文本片段在样本文本对中的位置信息以及上下文信息，处理模块602在根据遮挡向量与预设的词典表，确定各个样本文本对的遮挡文本片段对应的预测结果时，具体用于：

可选地，处理模块602在根据卷积结果，确定各个样本文本对的遮挡文本片段对应的预测结果时，具体用于：

可选地，处理模块602在根据各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定训练样本集的损失时，具体用于：

根据各遮挡文本片段的损失，确定训练样本集的损失。

处理模块602在基于训练样本集的损失对初始神经网络模型进行训练时，具体用于：

确定优化向量表中与训练样本集的损失对应的目标参数值；

可选地，优化参数包括至少一个初始神经网络模型的模型参数，处理模块602在确定优化向量表中与训练样本集的损失对应的目标参数值，包括：

可选地，该装置还包括预处理模块，在将训练样本集输入至初始神经网络模型之前，

预处理模块，用于根据训练样本集中各个样本文本对的最大字符长度，对训练样本集中的各个样本文本对进行字符长度对齐预处理，得到预处理后的训练样本集，其中，预处理后的训练样本集中每个样本文本对的长度一致，且与最大字符长度匹配；

输入模块601在将训练样本集输入至初始神经网络模型时，具体用于：

将预处理后的训练样本集输入至初始神经网络模型。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例还提供了一种数据处理装置。图11示出本申请实施例提供的数据处理装置的示意图。如图11所示，该装置70包括：

获取模块701，用于获取待识别文本对，该待识别文本对中包括待识别文本片段；

识别模块702，用于基于训练好的文本处理模型，得到该待识别文本片段对应的文本信息，其中，文本处理模型是基于上述装置训练得到的。

基于与本申请实施例提供的数据处理方法及装置相同的原理，本申请实施例中还提供了一种电子设备(如服务器)，该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

可选地，图12示出了本申请实施例所适用的一种电子设备的结构示意图，如图12所示，图12所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于文本处理模型的训练过程中，包括：

将训练样本集输入至初始神经网络模型，所述训练样本集包括多个样本文本对及对应的标注标签，每个样本文本对包括遮挡文本片段；

基于所述初始神经网络模型的过滤层对所述训练样本集进行过滤处理，得到各个样本文本对的遮挡文本片段对应的遮挡向量；所述遮挡向量用于指示：所述遮挡文本片段在所述遮挡文本片段对应的样本文本对中的位置信息以及上下文信息；

基于所述初始神经网络模型的卷积层，对所述遮挡向量与预设的词典表对应的向量进行卷积操作，得到卷积结果；所述卷积结果的矩阵中的每个元素的值用于指示：每个所述遮挡文本片段对应于所述预设的词典表中每个字符的概率；

根据每个所述遮挡文本片段对应于所述预设的词典表中每个字符的概率，确定每个所述遮挡文本片段对应的预测结果；

根据所述各个样本文本对的遮挡文本片段分别对应的预测结果和各个样本文本对分别对应的标注标签，确定所述训练样本集的损失，所述标注标签表征相应的样本文本对包括的遮挡文本片段的真实文本片段；

基于所述训练样本集的损失对所述初始神经网络模型进行训练，以得到训练后的文本处理模型。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述遮挡文本片段对应于预设的词典表中每个字符的概率，确定每个所述遮挡文本片段对应的预测结果，包括：

针对每个所述遮挡文本片段，确定所述卷积结果的矩阵中与该遮挡文本片段对应的关联位置以及在所述关联位置中具有最大概率的目标位置，并将所述目标位置在所述词典表中对应的目标文本片段确定为该遮挡文本片段对应的预测结果。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据至少两个优化参数以及相应的参数值，确定优化向量表，所述优化参数是对所述初始神经网络的模型参数进行调整的依据；

所述基于所述训练样本集的损失对所述初始神经网络模型进行训练，包括：

确定所述优化向量表中与所述训练样本集的损失对应的目标参数值；

将所述初始神经网络模型的模型参数的参数值调整至所述目标参数值。

4.根据权利要求3所述的方法，其特征在于，所述优化参数包括至少一个所述初始神经网络模型的模型参数，所述确定所述优化向量表中与所述训练样本集的损失对应的目标参数值，包括：

确定所述训练样本集的损失对应的梯度值，并依据预定的梯度优化参数关系，确定与所述梯度值匹配的优化参数的参数值；

基于所述优化参数的参数值，在所述优化向量表中确定与所述训练样本集的损失对应的目标参数值。

5.根据权利要求1所述的方法，其特征在于，在将训练样本集输入至初始神经网络模型之前，所述方法还包括：

根据所述训练样本集中各个样本文本对的最大字符长度，对所述训练样本集中的各个样本文本对进行字符长度对齐预处理，得到预处理后的训练样本集，所述预处理后的训练样本集中每个样本文本对的长度一致，且与最大字符长度匹配；

所述将训练样本集输入至初始神经网络模型，包括：

将所述预处理后的训练样本集输入至所述初始神经网络模型。

6.一种数据处理方法，其特征在于，包括：

获取待识别文本对，所述待识别文本对中包括待识别文本片段；

基于训练好的文本处理模型，得到所述待识别文本片段对应的文本信息，其中，所述文本处理模型是基于权利要求1-4中任一项所述的方法训练得到的。

7.一种数据处理装置，其特征在于，所述装置应用于文本处理模型的训练过程中，包括：

输入模块，用于将训练样本集输入至初始神经网络模型，所述训练样本集包括多个样本文本对及对应的标注标签，每个样本文本对包括遮挡文本片段；

处理模块，用于基于所述初始神经网络模型的过滤层对所述训练样本集进行过滤处理，得到各个样本文本对的遮挡文本片段对应的遮挡向量；所述遮挡向量用于指示：所述遮挡文本片段在所述遮挡文本片段对应的样本文本对中的位置信息以及上下文信息；

8.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-5任一项所述方法的步骤、或者实现权利要求6中所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法的步骤、或者实现权利要求6中所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述方法的步骤、或者实现权利要求6中所述的方法的步骤。