CN113220553B

CN113220553B - 一种文本预测模型性能的评估方法和装置

Info

Publication number: CN113220553B
Application number: CN202110521528.3A
Authority: CN
Inventors: 简葳玙; 杨舟
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-06-17
Anticipated expiration: 2041-05-13
Also published as: CN113220553A

Abstract

说明书披露一种文本预测模型性能的评估方法和装置。一种文本预测模型性能的评估方法，包括：获取待评估的文本预测模型的若干原始测试文本；将所述原始测试文本输入已训练的生成对抗神经网络，得到所述原始测试文本对应的变种测试文本；其中，所述生成对抗神经网络包括生成子网络和分类子网络，所述生成子网络用于为所述原始测试文本生成对应的变种测试文本，所述变种测试文本的真实类别与所述原始测试文本的类别相同，所述分类子网络对所述原始测试文本和所述变种测试文本的分类结果不同；基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估。

Description

一种文本预测模型性能的评估方法和装置

技术领域

本说明书涉及人工智能领域，特别涉及一种文本预测模型性能的评估方法和装置。

背景技术

随着技术的不断发展，基于人工智能产生的各类模型已融入了生活的方方面面，例如在文本处理领域，可以通过文本预测模型进行违规文本、敏感文本的预测，但出于文本自身的灵活多变性，实际情况下的文本可能是各式各样、个性化的，这就对文本预测模型的性能提出了较高要求。在这一背景下，如何对文本预测模型的性能进行评估，成为业内关注的重点。

发明内容

有鉴于此，本说明书提供一种文本预测模型性能的评估方法和装置。

具体地，本说明书是通过如下技术方案实现的：

一种文本预测模型性能的评估方法，包括：

获取待评估的文本预测模型的若干原始测试文本；

将所述原始测试文本输入已训练的生成对抗神经网络，得到所述原始测试文本对应的变种测试文本；

其中，所述生成对抗神经网络包括生成子网络和分类子网络，所述生成子网络用于为所述原始测试文本生成对应的变种测试文本，所述变种测试文本的真实类别与所述原始测试文本的类别相同，所述分类子网络对所述原始测试文本和所述变种测试文本的分类结果不同；

基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估。

一种文本预测模型性能的评估装置，包括：

获取单元，获取待评估的文本预测模型的若干原始测试文本；

输入单元，将所述原始测试文本输入已训练的生成对抗神经网络，得到所述原始测试文本对应的变种测试文本；

评估单元，基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估。

一种文本预测模型性能的评估装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与文本预测模型性能的评估逻辑对应的机器可执行指令，所述处理器被促使：

获取待评估的文本预测模型的若干原始测试文本；

本说明书一个实施例实现了，可以获取待评估的文本预测模型的若干原始测试文本，将所述原始测试文本输入已训练的生成对抗神经网络，得到原始测试文本对应的变种测试文本，并利用该变种测试文本对待评估的文本预测模型的性能进行预测。

采用上述方法，可以基于原始测试文本构造出与其较为相像的变种测试文本，可以将这些变种测试文本输入待评估的文本预测模型，并分析该模型预测的准确度，以此评估该模型在预测这些具备欺骗性、易混淆的变种测试文本时的性能。

附图说明

图1是本说明书一示例性实施例示出的一种文本预测模型性能的评估方法的流程示意图；

图2是本说明书一示例性实施例示出的一种生成子网络的训练方法的流程示意图；

图3是本说明书一示例性实施例示出的一种生成对抗神经网络的结构示意图；

图4是本说明书一示例性实施例示出的另一种文本预测模型性能的评估方法的流程示意图；

图5是本说明书一示例性实施例示出的一种文本预测模型性能的评估装置所在服务器的一种硬件结构示意图；

图6是本说明书一示例性实施例示出的一种文本预测模型性能的评估装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着技术的不断发展，基于人工智能产生的各类模型已融入了生活的方方面面。例如在文本处理领域，可以通过文本预测模型进行违规文本、敏感文本的预测，如预测出包含推销信息、诈骗信息的文本。

实际情况中，不法分子会精心构造各种各样的违规文本以绕过文本预测模型。例如，可以改变一些字的偏旁、将一些字改为同音字、将一些字用符号代替等，如将“请加微信咨询股票购买方式”改为“请加V信咨询gu飘购买方式”，虽然人们在阅读这些违规文本时能够很轻松地理解其语意，但文本预测模型却难以分辨这些文本是否为违规文本，这对文本预测模型的性能提出了较高要求。在这一背景下，如何对文本预测模型的性能进行评估，以衡量该文本预测模型预测违规文本的准确度、辅助文本预测模型提高性能，成为业内关注的重点。

基于此，本说明书提供了一种文本预测模型性能的评估方法，可以对文本预测模型的性能进行准确、有效的评估。

值得说明的是，上述利用文本预测模型预测违规文本仅仅是本说明书提供的一种示例性例子，本说明书所述文本预测模型也可以用于其他领域、预测其他类型文本。举例来说，在风险预测场景中，也可以利用该文本预测模型预测收款方、付款方的名称或标识，或者收货地址等是否落入黑名单，以此识别风险，本说明书在此不一一举例。

请参见图1，图1是本说明书一示例性实施例示出的一种文本预测模型性能的评估方法的流程示意图，所述方法可以应用于具有存储器、处理器的电子设备上，例如服务器或服务器集群。所述方法可以包括以下步骤：

步骤102，获取待评估的文本预测模型的若干原始测试文本；

步骤104，将所述若干原始测试文本输入已训练的生成对抗神经网络，得到所述原始测试文本对应的若干变种测试文本；

步骤106，基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估。

下面对上述步骤进行详细说明。

本实施例中，待评估的文本预测模型可以用于预测违规文本，如包含推销内容、诈骗内容的文本，也可以用于预测其他类型文本。可以是在该模型训练完毕、还未上线使用时对该模型进行性能评估，也可以是对已经上线使用的模型进行性能评估，对此不作特殊限制。

本实施例中，可以获取待评估的文本预测模型的若干原始测试文本，这些原始测试文本可以是待评估的文本预测模型在训练时使用的训练样本，当然也可以是其他文本，本实施例对原始测试文本的内容、格式等不作特殊限制。

可以将原始测试文本输入已训练的生成对抗神经网络(Generative AdversarialNetworks，GAN)中，生成对抗网络中包括生成子网络(Generator)和分类子网络(Discriminator)，生成子网络可以将输入的文本转换为变种文本，分类子网络可以对原始文本和变种文本进行分类，比如分类结果可以是：违规文本、非违规文本。

本实施例中，将原始测试文本输入生成对抗神经网络后，分类子网络可以基于原始测试文本生成对应的变种测试文本，该变种测试文本的真实类别与原始测试文本的类别相同，但分类子网络对原始测试文本和变种测试文本的分类结果不同。

举例来说，原始测试文本的类别为“违规文本”，变种测试文本的真实类别也为“违规文本”，而分类子网络能够正确地预测出原始测试文本为“违规文本”，但却会错误地将变种测试文本预测为“非违规文本”，即生成子网络可以生成能够让分类子网络分类错误的变种测试文本，该变种测试文本可以混淆机器学习模型的预测。其中，生成子网络的训练方法将会在后面的实施例中详细说明。

本实施例中，得到变种测试文本后，可以利用该变种测试文本对待评估的文本预测模型的性能进行评估。比如，可以将变种测试文本输入待评估的文本预测模型，以判断该文本预测模型能否正确地预测出变种测试文本的真实类别，若不能，则说明该文本预测模型的性能较差；若能，则说明该文本预测模型的性能较好。

由以上描述可以看出，在本说明书的一个实施例中，可以获取待评估的文本预测模型的若干原始测试文本，将所述原始测试文本输入已训练的生成对抗神经网络，得到原始测试文本对应的变种测试文本，并利用该变种测试文本对待评估的文本预测模型的性能进行预测。

采用上述方法，可以基于原始测试文本构造出与其较为相像的变种测试文本，例如改变了某个字的偏旁、将某个字改为同音字等，这些差异并不会导致变种测试样本的真实类别发生变化，但却会使分类子网络分类错误。可以将这些变种测试文本输入待评估的文本预测模型，并分析该模型预测的准确度，以此评估该模型在预测这些具备欺骗性、易混淆的违规文本时的性能。

下面对本说明书提供的生成对抗神经网络中生成子网络的训练方法实施例进行说明。

本实施例中，在开始训练前，生成对抗神经网络中可以包括未训练的生成子网络和已训练的分类子网络，这两个子网络都可以是神经网络模型，也可以是其他模型。其中，分类子网络可以是常规的具备违规文本识别能力的网络，生成子网络可以是LSTM(LongShort-Term Memory，长短期记忆人工神经网络)。

生成子网络可以根据输入数据(原始训练文本)生成仿造的数据(变种训练文本)，该变种训练文本可以与原始训练文本存在细微差异，比如以文本为例，可能是改变了原始文本中某个字的偏旁、将某个字改变为同音字、或者改变为符号等，当然这仅仅是便于理解的说明，实际情况下具体发生何种改变是生成子网络计算得到的，也可能这种改变不具备直观的业务含义。

分类子网络是已训练完毕的，具备分类能力，其可以对原始训练文本和变种训练文本进行分类，比如分类结果可以是：违规文本、非违规文本。本实施例的训练目标是，使得生成子网络生成的变种训练文本能够让分类子网络分类错误。

比如，假设原始训练文本为黑样本，则生成子网络生成的变种训练文本实际也为黑样本，但分类子网络却会将该变种训练文本识别为白样本。当然，这并不是由于分类子网络自身的分类效果差，而是由于变种训练文本的“欺骗性”足够好，本实施例的目的就是构造出“欺骗性”足够好的变种训练文本，以用该文本来评估模型性能。

下面对生成子网络的训练方法进行说明。请参见图2，图2是本说明书一示例性实施例示出的一种生成子网络的训练方法的流程示意图，所述方法可以应用于具有存储器、处理器的电子设备上，例如服务器或服务器集群。

本实施例中，可以采用以下步骤对生成子网络进行迭代训练：

步骤202，将原始训练文本输入生成对抗神经网络中的生成子网络，得到所述原始训练文本对应的变种训练文本。

本实施例中，可以将原始训练文本输入生成子网络，该生成子网络可以是LSTM，LSTM可以包括编码器和解码器，编码器可以是双向LSTM，用于对原始训练文本进行编码，解码器可以是单向LSTM，用于对编码器得到的编码结果进行解码，然后可基于解码结果得到变种训练文本。其中，编码、解码以及基于解码结果得到变种训练文本的过程可以参照相关技术，本实施例在此不一一说明。

其中，原始训练文本可以是白样本(比如非违规文本)，也可以是黑样本(比如违规文本)，对此不作特殊限制。对于白样本而言，生成的变种训练文本实际也为白样本，训练目标是使得分类子网络将该白样本分类为黑样本。对于黑样本而言，生成的变种训练文本也为黑样本，训练目标是使得分类子网络将该黑样本分类为白样本。

步骤204，将所述原始训练文本和所述变种训练文本输入分类子网络，得到所述原始训练文本对应的第一分类结果和所述变种训练文本对应的第二分类结果。

步骤206，计算所述第一分类结果和所述第二分类结果的差异，基于所述差异计算生成子网络在本次迭代中的损失。

步骤208，基于所述损失判断生成子网络是否迭代完成。若否，则执行步骤210。

步骤212，基于所述第一分类结果、所述第二分类结果和上一次迭代中所述生成子网络的参数，确定本次迭代中生成子网络的参数并更新。

本实施例中，可以将原始训练文本输入分类子网络，得到第一分类结果；将变种训练文本输入分类子网络，得到第二分类结果。然后可以根据第一分类结果、第二分类结果计算两者的差异，比如当第一分类结果和第二分类结果为分值时，可以计算两者的差值。

然后根据第一分类结果与第二分类结果之间的差异、上一次迭代中生成子网络的参数以及生成子网络的损失函数，确定生成子网络在本次迭代中的损失。其中，损失函数可以与所述差异负相关，即第一分类结果和第二分类结果差异越大，损失越小。当然，此处的负相关指的是在损失函数中其他变量不变的前提下，若差异程度变化了，且其他变量也变化了，则此时的损失就不一定与差异程度负相关了。

然后判断该损失是否小于损失阈值，若小于，则确定生成子网络迭代完成；若大于，则确定生成子网络未迭代完成，则可以基于第一分类结果、第二分类结果和上一次迭代中生成子网络的参数，确定本次迭代中生成子网络的参数，并利用该参数更新生成子网络，然后重新对生成子网络进行下一次的迭代训练。其中，可以对损失函数求偏导，得到梯度计算公式，然后根据梯度计算公式得到本次迭代中生成子网络的梯度，并基于梯度得到本次迭代中生成子网络的参数，具体方法可以参照相关技术，本实施例在此不一一说明。

当然，除了可以基于损失是否小于损失阈值来判断生成子网络是否训练完成外，也可以根据其他方法来判断生成子网络是否训练完成，比如可以判断迭代训练的次数是否达到次数阈值，若达到，则确定生成子网络训练完成。本实施例对此不作特殊限制。

在其他实施例中，生成子网络除了可以生成变种训练文本外，还可以生成原始训练文本的第一语意特征和变种训练文本的第二语意特征。可参见图3，图3为本说明书一示例性实施例示出的一种生成对抗神经网络的结构示意图。

图3中，生成子网络仍为LSTM，双向LSTM编码器可以对原始训练文本进行编码，得到编码向量，可以将该编码向量作为原始训练文本的第一语意特征。单向LSTM解码器可以对编码向量进行解码，得到解码向量，可以将解码向量作为变种训练文本的第二语意特征。可以根据第一语意特征和第二语意特征之间的相似度来衡量原始训练文本和变种训练文本的语意相似度，比如可以通过余弦定理计算两者的相似度。

然后可以基于所述相似度，以及第一分类结果与第二分类结果之间的差异，计算生成子网络在本次迭代中的损失，该损失与所述相似度正相关，即第一语意特征与第二语意特征越相似，损失越小。类似的，此处的正相关指的是在损失函数中其他变量不变的前提下，若相似度变化了，且其他变量也变化了，则此时的损失就不一定与相似度正相关了。

例如，损失函数可以为：

loss＝λ|Score(X)-Score(X′)|+(1-λ)Cos(X_vec，X′_vec)

其中，loss为损失值，λ为生成子网络的参数(该参数用λ表示为示例性的说明，当生成子网络为LSTM时，其参数具体可以是隐藏层状态的维数等)，X为原始训练文本，X’为变种训练文本，Score(X)为第一分类结果，Score(X’)为第二分类结果，X_vec为第一语意特征，X′_vec为第二语意特征。

当然，上述损失函数仅仅为示例性的说明，在实际情况中也可以采用其他损失函数。

采用上述方法，可以保证原始训练文本和变种训练文本的语意接近，避免生成子网络将原始训练文本生成语意与其完全不同的变种训练文本，使得变种训练文本与原始训练文本的差距不会过大，保证两者的真实类别一致。

由以上描述可以看出，在本说明书的一个实施例中，可以在待训练的生成对抗神经网络中包括未训练的生成子网络和已训练的分类子网络，通过对生成子网络的训练，使得其生成的变种训练文本能够让分类子网络分类错误，从而得到可用于评估模型性能的变种训练文本。并且，还可以在生成子网络训练的过程中计算原始训练文本和变种训练文本的语意相似度，通过损失函数控制两者的语意接近，使得生成子网络生成的变种训练文本与原始训练文本语意尽可能接近，可以得到更优质、更具有“欺骗性”的变种训练文本，从而更准确、有效地评估模型性能。

下面对本说明书提供的另一种文本预测模型性能的评估方法的实施例进行说明。

请参见图4，图4是本说明书一示例性实施例示出的另一种文本预测模型性能的评估方法的流程示意图，所述方法可以应用于具有存储器、处理器的电子设备上，例如服务器或服务器集群。所述方法可以包括以下步骤：

步骤402，获取待评估的文本预测模型的若干原始测试文本。

步骤404，将所述若干原始测试文本输入已训练的生成对抗神经网络，得到所述原始测试文本对应的若干变种测试文本。

本实施例中，步骤402-404的具体内容可参照前述实施例，在此不再赘述。

步骤406，对所述若干变种测试文本进行筛选。

本实施例中，可以将原始测试文本输入生成对抗神经网络中的生成子网络，以得到变种测试文本。并且还可以对变种测试文本进行筛选。

比如，可以将变种测试文本输入生成对抗神经网络中的分类子网络，若分类子网络对变种测试文本和原始测试文本的分类结果不一致，说明变种测试文本的“欺骗性”不够好，可以将这些变种测试文本过滤，而保留下分类结果与原始测试文本一致的变种测试文本。

再比如，也可以获取生成子网络生成的原始测试文本的第一语意特征、变种测试文本的第二语意特征，然后计算这两个语意特征之间的相似度，若相似度过低，说明变种测试文本与原始测试文本的语意差异过大，与实际情况下恶意构造出的违规文本差距较大，评估价值低，则可以过滤掉相似度较低的变种测试文本。

当然，也可以采用其他方法对变种测试文本进行过滤，比如过滤掉语意不通顺的变种测试文本，再比如也可以结合上述多种方法进行过滤，在此不一一举例。

步骤408，基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估。

本实施例中，可以将变种测试文本输入待评估的文本预测模型，然后根据该模型对变种测试文本的识别准确度，对其性能进行评估。

比如，可以采用指定数量的变种测试文本(黑样本)、原始测试文本(黑样本)以及非违规文本(白样本)对该文本预测模型进行评估，然后统计该文本预测模型对上述不同文本的识别准确率，若识别准确率高，则说明该模型的性能较好；反之，说明该模型的性能较差。

可参见下表1，下表1示例性地示出了对若干待评估的文本预测模型性能进行评估的结果。

表1

由上表1可知，模型A无论对变种测试文本(黑样本)、原始测试文本(黑样本)还是非违规文本(白样本)的识别准确率均较高，说明该模型A的性能较好。而模型B仅对原始测试文本(黑样本)和非违规文本(白样本)的识别准确率较高，而对变种测试文本(黑样本)的识别准确率较低，说明该模型B的鲁棒性较差，无法覆盖变种后的测试文本，其性能较差。而模型C无论是对变种测试文本(黑样本)、原始测试文本(黑样本)还是非违规文本(白样本)的识别准确率均较低，说明模型C的性能较差。

当然，上表1涉及的测试文本数量、识别准确度都仅仅为示例性的说明，并不用于限制本说明书。

本实施例中，若评估得到文本预测模型的性能不够好，则还可以利用变种测试样本对该文本预测模型进行再训练，以提高该模型的性能。

由以上描述可以看出，在本说明书的一个实施例中，将原始测试文本输入生成对抗神经网络中的生成子网络，得到变种测试文本后，还可以对变种测试文本进行筛选，以筛选出“欺骗性”更好的变种测试文本，从而可以对待评估的文本预测模型进行更有效、准确的评估。

与前述文本预测模型的性能评估方法的实施例相对应，本说明书还提供了文本预测模型的性能评估装置的实施例。

本说明书文本预测模型的性能评估装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本说明书文本预测模型的性能评估装置所在服务器的一种硬件结构示意图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图6，所述文本预测模型性能的评估装置可以应用在前述图5所示的服务器中，包括有：获取单元610、输入单元620和评估单元630。

其中，获取单元610，获取待评估的文本预测模型的若干原始测试文本；

输入单元620，将所述原始测试文本输入已训练的生成对抗神经网络，得到所述原始测试文本对应的变种测试文本；

评估单元630，基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估。

可选的，所述生成子网络的训练过程，包括：

采用以下步骤对生成子网络进行迭代训练：

将原始训练文本输入待训练的生成子网络，得到所述原始训练文本对应的变种训练文本；

将所述原始训练文本和所述变种训练文本分别输入分类子网络，得到所述原始训练文本对应的第一分类结果和所述变种训练文本对应的第二分类结果；

计算所述第一分类结果和所述第二分类结果的差异；

基于所述差异计算所述生成子网络在本次迭代中的损失，所述损失与所述差异负相关；

基于所述损失判断所述生成子网络是否迭代完成；

若否，则基于所述第一分类结果、所述第二分类结果和上一次迭代中所述生成子网络的参数，确定本次迭代中生成子网络的参数。

可选的，在对所述生成子网络训练的过程中，所述生成子网络还用于生成原始训练文本的第一语意特征和变种训练文本的第二语意特征，

所述基于所述差异计算所述生成子网络在本次迭代中的损失，包括：

计算所述第一语意特征和所述第二语意特征之间的相似度；

基于所述差异和所述相似度计算所述生成子网络在本次迭代中的损失，所述损失与所述相似度正相关。

可选的，所述生成子网络为长短期记忆人工神经网络LSTM。

可选的，所述评估单元630：

将所述若干变种测试文本输入待评估的文本预测模型；

基于所述待评估的文本预测模型对所述变种测试文本的识别准确率，对所述文本预测模型的性能进行评估。

可选的，所述待评估的文本预测模型用于识别违规文本。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述文本预测模型的性能评估方法的实施例相对应，本说明书还提供一种文本预测模型的性能评估装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与文本预测模型的性能评估逻辑对应的机器可执行指令，所述处理器被促使：

获取待评估的文本预测模型的若干原始测试文本；

可选的，所述生成子网络的训练过程，所述处理器被促使：

采用以下步骤对生成子网络进行迭代训练：

计算所述第一分类结果和所述第二分类结果的差异；

基于所述损失判断所述生成子网络是否迭代完成；

可选的，在对所述生成子网络训练的过程中，生成子网络还用于生成原始训练文本的第一语意特征和变种训练文本的第二语意特征，

在基于所述差异计算所述生成子网络在本次迭代中的损失时，所述处理器被促使：

计算所述第一语意特征和所述第二语意特征之间的相似度；

可选的，所述生成子网络为长短期记忆人工神经网络LSTM。

可选的，在基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估时，所述处理器被促使：

将所述若干变种测试文本输入待评估的文本预测模型；

可选的，所述待评估的文本预测模型用于识别违规文本。

与前述文本预测模型的性能评估方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待评估的文本预测模型的若干原始测试文本；

可选的，所述生成子网络的训练过程，包括：

采用以下步骤对生成子网络进行迭代训练：

计算所述第一分类结果和所述第二分类结果的差异；

基于所述损失判断所述生成子网络是否迭代完成；

计算所述第一语意特征和所述第二语意特征之间的相似度；

可选的，所述生成子网络为长短期记忆人工神经网络LSTM。

可选的，所述基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估，包括：

将所述若干变种测试文本输入待评估的文本预测模型；

可选的，所述待评估的文本预测模型用于识别违规文本。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种文本预测模型性能的评估方法，包括：

获取待评估的文本预测模型的若干原始测试文本；

基于若干变种测试文本，对所述待评估的文本预测模型的性能进行评估；

所述生成子网络的训练过程，包括：

采用以下步骤对生成子网络进行迭代训练：

计算所述第一分类结果和所述第二分类结果的差异；

基于所述损失判断所述生成子网络是否迭代完成；

2.根据权利要求1所述方法，在对所述生成子网络训练的过程中，所述生成子网络还用于生成原始训练文本的第一语意特征和变种训练文本的第二语意特征，

计算所述第一语意特征和所述第二语意特征之间的相似度；

3.根据权利要求1-2任一项所述方法，所述生成子网络为长短期记忆人工神经网络LSTM。

4.根据权利要求1所述方法，所述基于所述若干变种测试文本，对所述待评估的文本预测模型的性能进行评估，包括：

将所述若干变种测试文本输入待评估的文本预测模型；

5.根据权利要求1所述方法，所述待评估的文本预测模型用于识别违规文本。

6.一种文本预测模型性能的评估装置，包括：

评估单元，基于若干变种测试文本，对所述待评估的文本预测模型的性能进行评估；

所述生成子网络的训练过程，包括：

采用以下步骤对生成子网络进行迭代训练：

计算所述第一分类结果和所述第二分类结果的差异；

基于所述损失判断所述生成子网络是否迭代完成；

7.根据权利要求6所述装置，在对所述生成子网络训练的过程中，所述生成子网络还用于生成原始训练文本的第一语意特征和变种训练文本的第二语意特征，

计算所述第一语意特征和所述第二语意特征之间的相似度；

8.根据权利要求6-7任一项所述装置，所述生成子网络为长短期记忆人工神经网络LSTM。

9.根据权利要求6所述装置，所述评估单元：

将所述若干变种测试文本输入待评估的文本预测模型；

10.根据权利要求6所述装置，所述待评估的文本预测模型用于识别违规文本。

11.一种文本预测模型性能的评估装置，包括：

处理器；

用于存储机器可执行指令的存储器；

获取待评估的文本预测模型的若干原始测试文本；

所述生成子网络的训练过程，包括：

采用以下步骤对生成子网络进行迭代训练：

计算所述第一分类结果和所述第二分类结果的差异；

基于所述损失判断所述生成子网络是否迭代完成；