CN114239589A

CN114239589A - 语义理解模型的鲁棒性评估方法、装置及计算机设备

Info

Publication number: CN114239589A
Application number: CN202111406437.1A
Authority: CN
Inventors: 徐义通; 杨洋; 李锋; 张琛; 万化
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-25

Abstract

本申请涉及一种语义理解模型的鲁棒性评估方法、装置及计算机设备。方法包括：基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集；基于每种预设方式对应的增强测试集对语义理解模型进行测试，得到每种预设方式对应的测试结果，基于原始测试集对语义理解模型进行测试，得到原始测试集对应的测试结果；基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性。由于在生成增强数据时，可通过维持语义一致性以贴合口语化信息的特征，从而使得生成的增强数据不会改变语义，进而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。

Description

语义理解模型的鲁棒性评估方法、装置及计算机设备

技术领域

本申请涉及机器学习应用技术领域，特别是涉及一种语义理解模型的鲁棒性评估方法、装置及计算机设备。

背景技术

目前面向任务的对话系统吸引了越来越多的人来研究，其中理解用户话语是对话系统成功的关键前置过程。现实生活中充满了各种噪声，包括背景噪声、拼写错误和语法错误等，这就对模型的稳健性存在一定的考验。在相关技术中，主要是通过对测试样本进行变形，如随机替换字词或删除字词，再对比语义理解模型使用变形前的测试样本时的语义理解准确率与使用变形后的测试样本时的语义理解准确率，评估语义理解模型的鲁棒性。由于上述变形方式均会一定程度影响语义，这对语义理解会造成较大影响，从而按照上述方式，会造成模型鲁棒性的评估结果不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种语义理解模型的鲁棒性评估方法、装置及计算机设备。

第一方面，本申请一种语义理解模型的鲁棒性评估方法，该方法包括：

基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集，原始测试集是由样本句子文本所构成的；

基于每种预设方式对应的增强测试集对语义理解模型进行测试，得到每种预设方式对应的测试结果，基于原始测试集对语义理解模型进行测试，得到原始测试集对应的测试结果；

基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性。

在其中一个实施例中，至少一种预设方式包括语序调整方式、字词增加方式及字词替换方式。

在其中一个实施例中，至少一种预设方式包括语序调整方式；基于至少一种预设方式，对原始测试集作语义一致变换，包括：

根据原始测试集中每一样本句子文本的句长，划分句长取值区间；其中，句长指的是样本句子文本中句子成分的总数量，划分得到的句长取值区间之间互不重叠；

根据每一样本句子文本的句长所落入的句长取值区间，确定每一样本句子文本中相邻句子成分的置换次数；

根据每一样本句子文本中相邻句子成分的置换次数，对每一样本句子文本中的相邻句子成分进行置换。

在其中一个实施例中，至少一种预设方式包括字词增加方式；基于至少一种预设方式，对原始测试集作语义一致变换，包括：

根据原始测试集中每一样本句子文本的字词总数量，划分字词数量取值区间；其中，划分得到的字词数量取值区间之间互不重叠；

根据每一样本句子文本的字词总数量所落入的字词数量取值区间，确定每一样本句子文本的字词增加次数；

根据每一样本句子文本的字词增加次数，在每一样本句子文本中增加字词。

在其中一个实施例中，至少一种预设方式包括字词替换方式；基于至少一种预设方式，对原始测试集作语义一致变换，包括：

根据每一样本句子文本的字词总数量所落入的字词数量取值区间，确定每一样本句子文本的字词替换次数；

根据每一样本句子文本的字词替换次数，在每一样本句子文本中替换字词。

在其中一个实施例中，测试结果为测试准确率；基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性，包括：

计算每种预设方式对应的测试准确率与原始测试集对应的测试准确率之间的差值，对每种预设方式对应的差值进行加权求和，得到第一求和结果；

基于至少一种预设方式，对原始训练集作语义一致变换，得到每种预设方式对应的增强训练集；基于原始训练集及每种预设方式对应的增强训练集，对语义理解模型进行混合训练，得到混合训练后的语义理解模型；

基于每种预设方式对应的增强测试集对混合训练后的语义理解模型进行测试，得到每种预设方式对应的混合训练后测试准确率；计算每种预设方式对应的混合训练后测试准确率与原始测试集对应的测试准确率之间的差值并进行加权求和，得到第二求和结果；

根据第一求和结果及第二求和结果，评估语义理解模型的鲁棒性。

第二方面，本申请还提供了一种语义理解模型的鲁棒性评估装置，该装置包括：

变换模块，用于基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集，原始测试集是由样本句子文本所构成的；

第一测试模块，用于基于每种预设方式对应的增强测试集对语义理解模型进行测试，得到每种预设方式对应的测试结果；

第二测试模块，用于基于原始测试集对语义理解模型进行测试，得到原始测试集对应的测试结果；

评估模块，用于基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性。

第三方面，本申请还提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述语义理解模型的鲁棒性评估方法、装置及计算机设备，由于在生成增强数据时，可通过维持语义一致性以贴合口语化信息的特征，从而使得生成的增强数据不会改变语义，进而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。

附图说明

图1为一个实施例中语义理解模型的鲁棒性评估方法的流程示意图；

图2为一个实施例中样本句子文本的语义一致变换方法的流程示意图；

图3为一个实施例中不同的语义一致变换方式的示意图；

图4为一个实施例中语义理解模型的鲁棒性评估装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词，但除非特别说明，这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说，在不脱离本申请的范围的情况下，第三预设阈值与第四预设阈值可以相同可以不同。

目前面向任务的对话系统吸引了越来越多的人来研究，其中理解用户话语是对话系统成功的关键前置过程。现实生活中充满了各种噪声，包括背景噪声、拼写错误和语法错误等，这就对模型的稳健性存在一定的考验。对此在相关技术中，对于语义理解模型的鲁棒性评估有如下建树，主要是使用数据扩增的方式对模型的鲁棒性进行评估，有如下几种数据扩增的方式：

第一种方式是词扰动，主要是在字与词层面上做数据增强。具体地，主要是随机地插入、删除或交换一些词语，以及基于字典或者词向量相似度作同义词替换。其中，随机插入、删除以及交换词语所测试的是模型对抗噪声扰动的能力；而同义词替换所测试的是模型对语言多样性的适应能力。其中，NLP(自然语言处理，Natural Language Processing)中词向量相似度常见的embeding方式有bert、word2vec及tf-idf等等，可选择词向量余弦夹角中最相近的几个词进行替换。

第二种方式是同义复述，也即将一句话用不同的表达方式进行改写。具体地，可以使用模型提取一句话的语义标签，再使用该语义标签生成意义相同的另一种表达，由此可以测试模型关于语言多样性相关的鲁棒性。

第三种方式是添加噪声，也即可以随机加入一些错别字词，加入一些短链接及@用户等无关信息进行干扰。实际实施过程中，可以基于句法级别的改写生成句法树，然后利用句法树规则进行替换。

上述提及的关于评估模型鲁棒性的相关方式，大多是针对书面语言的NLP任务，或是只使用了少量的数据变形方法，且缺乏系统性的工具集合。可以理解的是，由于用户口语化信息不同于书面信息，从而针对对话系统的用户口语化信息的处理方式应当有很大不同。

首先，对话系统中用户的输入都是经过ASR自动语音识别技术(Automatic SpeechRecognition)转义过来的口语化文本，其说话方式不同于书面表达，有着其独有的特点。书面语言往往有各种错综复杂的句子和从句组成，而口语可能包含大量重复，打断，更正或者噪声干扰。其次，目前使用的一些数据扩增方法，如上述内容所提及的随机替换词，近义词替换，翻译互转及增删词等，都会一定程度影响语义，对意图识别的结果造成很大的影响。一些与意图相关的核心词被替换掉，如查余额及忘记密码等，若替换成其它词，就会对语义产生极大影响。综上，使用上述数据扩增方式扩增得到的数据，对语义理解模型进行鲁棒性评估，会造成评估结果不准确。

在一些实施例中，参见图1，提供了一种语义理解模型的鲁棒性评估方法。以该方法应用于服务器为例进行说明，包括以下步骤：

102、基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集，原始测试集是由样本句子文本所构成的。

其中，样本句子文本可以是由用户说话，再通过自动语音识别技术所转化得到的文本。实际实施过程中，可以将转化得到的所有样本句子文本中80％的样本句子文本作为原始训练集，而将剩下20％的样本句子文本作为原始测试集。而语义一致变换指的是不改变样本句子文本对应语义前提下，对样本句子文本进行数据增强。

104、基于每种预设方式对应的增强测试集对语义理解模型进行测试，得到每种预设方式对应的测试结果，基于原始测试集对语义理解模型进行测试，得到原始测试集对应的测试结果。

具体地，在进行测试之前，可以先通过人工标注的方式，标注每一样本句子文本的语义理解标签，测试结果主要是用于反映语义理解模型的理解准确率。由此，对于某种预设方式对应的增强测试集，将该增强测试集中每一样本句子文本输入至语义理解模型，可以得到每一样本句子文本的语义理解预测结果。将每一样本句子文本的语义理解预测结果与每一样本句子文本的语义理解标签进行比对，即可得到每种预设方式对应的增强测试集，在对语义理解模型进行测试时语义理解模型的理解准确率。同理，还可以得到原始测试集在对语义理解模型进行测试时语义理解模型的理解准确率，也即原始测试集对应的测试结果。

106、基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性。

具体地，对于某种预设方式对应的测试结果，由于测试结果可以反映该种预设方式对应的增强测试集下语义理解模型的理解准确率，从而将该种预设方式对应的测试结果与原始测试集对应的测试结果进行比较，即可确定该种预设方式下语义理解模型的理解准确率下降了多少，即为该种方式下语义理解模型的鲁棒性。其中，对样本句子文本作语义一致变换，变换后样本句子文本的内容会区别于原始内容。可以理解的是，变换后的样本句子文本增加了语义理解模型进行理解的难度。由此，无论哪种预设方式下，相较于原始测试集，语义理解模型的理解准确率通常是下降的。另外，由于每种预设方式均是在某一方面对语义理解模型产生干扰，从而对于某种预设方式下语义理解模型的鲁棒性，可以理解为语义理解模型在应对该种预设方式所产生的干扰时，应对该项干扰能力的鲁棒性。

本申请实施例提供的方法，由于在生成增强数据时，可通过维持语义一致性以贴合口语化信息的特征，从而使得生成的增强数据不会改变语义，进而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。

在一些实施例中，至少一种预设方式包括语序调整方式、字词增加方式及字词替换方式。

其中，语序调整方式主要是对样本句子文本中句子成分的顺序进行调整，且尽量保持语义一致性。例如，句子通常是由若干个分句构成，可以对该若干个分句进行位置置换，也即改变彼此间的顺序。可以立即的是，在一个句子中，改变其中若干个分句之间的顺序，并不会影响句子所表达的含义。

字词增加方式主要是在样本句子文本中增加字词，且尽量保持语义一致性，如在句子中增加句子中已出现的字词，也即增加重复性字词。例如，以句子中部分内容为“可以有效地提高鲁棒性”，在其中增加重复性字词“地”，变为“可以有效地地提高鲁棒性”，可以保持语义一致性。

字词替换方式主要是对样本句子文本中的字词进行替换，且尽量保持语义一致性。例如，若句子中出现“一”，则将其替换为数字1，并不会造成句子语义改变。再例如一些近音替换，即使替换后引入了错别字，在存在上下文语境的前提下，语义通常也不会改变。

本申请实施例提供的方法，由于通过语序调整方式、字词增加方式及字词替换方式，可以保证生成增强数据时的语义一致性，从而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。另外，针对人机对话系统中的数据，通过上述三种预设方式对应的策略可以自动化生成增强数据，从而可以提高语义理解模型鲁棒性的评估效率。

在一些实施例中，参见图2，提供了一种样本句子文本的语义一致变换方法。以该方法应用于服务器为例进行说明，包括以下步骤：

202、根据原始测试集中每一样本句子文本的句长，划分句长取值区间；其中，句长指的是样本句子文本中句子成分的总数量，划分得到的句长取值区间之间互不重叠。

其中，句子成分可以为字或者分词或者分句，本申请实施例不对句子成分的类型作具体限定。可以理解的是，调整字、分词或者分句的语序，通常并不会造成句子语义的改变，也即可以维持语义一致性。以句子成分为字为例，句长即为句子中字的总数量。

本申请实施例不对根据原始测试集中每一样本句子文本的句长，划分句长取值区间的方式作具体限定，包括但不限于：根据原始测试集中每一样本句子文本的句长，确定句长上限值及句长下限值；根据句长上限值及句长下限值，划分句长取值区间。例如，若原始测试集中样本句子文本的句长下限值为4，而句长上限值为30，则可以按照预设区间跨度对4至30形成的区间进行等分，从而得到句长取值区间。

当然，除了上述方式之外，还可以采用其它方式划分得到句长取值区间，包括但不限于：根据原始测试集中每一样本句子文本的句长，确定原始测试集中所有样本句子文本的平均句长；根据平均句长，确定划分区间总数；根据划分区间总数、原始测试集中句长上限值及句长下限值，划分句长取值区间。

例如，以句长上限值为25，句长下限值为5及平均句长为20为例，可以先根据平均句长，确定划分区间总数。实际实施过程中，可以将平均句长与第一除数作比值，将比值作为划分区间总数。可以理解的是，只有当句子足够长，句子携带的信息多，某些相邻句子成分发生置换才不会影响到句子原本语义。由此，在保证语义一致性的前提下，越长的句子能容忍更多次数的相邻句子成分置换，越短的句子能容忍更少次数的相邻句子成分置换。由此，实际实施过程中句长取值区间的划分，可以尽量使得句长较短的句子不进行相邻句子成分置换，而尽量提高句长较长的句子进行相邻句子成分置换的发生次数。由于第一除数决定了句长取值区间的划分，从而实际实施过程中，可以上述需求作为参考设置第一除数，如设置为5，本申请实施例对此不作具体限定。

以第一除数为5为例，划分区间总数对应为20/5＝4。需要说明的是，由于平均句长不一定能被第一除数所整除，从而实际实施过程中可以对比值结果向下取整。需要说明的是，以第一除数为5为例，原始测试集中的平均句长不会小于5，从而通常不会出现比值结果向下取整为0的情形。

204、根据每一样本句子文本的句长所落入的句长取值区间，确定每一样本句子文本中相邻句子成分的置换次数。

在执行本过程之前，可以先为每一句长取值区间配置置换次数。例如，句长取值区间[6，10]对应的置换次数可以为1次，句长取值区间[11，15]对应的置换次数可以为2次，句长取值区间[16，20]对应的置换次数可以为3次，句长取值区间[21，25]对应的置换次数可以为4次。可以理解的是，上述配置方式是每一句长取值区间配置一种置换次数。实际实施过程，对于某些句长取值区间，可以为其配置多种置换次数，且对于为其配置的多种置换次数，还可以同时为每种置换次数配置发生概率。其中，具体配置方式可以基于置换不影响一致性的前提进行设置，本申请实施例对此不作具体限定。

例如，句长取值区间[6，10]对应的置换次数可以为1次，且发生概率为100％。句长取值区间[11，15]对应的置换次数可以为1次或者2次，其中，置换1次的发生概率为50％，置换2次的发生概率也为50％。句长取值区间[11，15]对应的置换次数可以为1次、2次或者3次，其中，置换1次的发生概率为1/3，置换2次的发生概率为1/3，置换3次的发生概率也为1/3。

由于每一句长取值区间对应的置换次数可以提前配置，从而在本步骤中，对于某一样本句子文本，可以直接根据该样本句子文本的句长所落入的句长取值区间，确定该句长取值区间对应的置换次数；或者，确定该句长取值区间对应的置换次数以及置换次数的发生概率，并由此作为该样本句子文本中相邻句子成分的置换次数。

需要说明的是，实际实施过程中，原始测试集可以对应一个最大置换次数。本申请实施例不对确定最大置换次数的方式作具体限定，包括但不限于：根据原始测试集中每一样本句子文本的句长，确定原始测试集中所有样本句子文本的平均句长；计算平均句长与第二除数之间的比值，作为最大置换次数。其中，第二除数与第一除数的取值可以相同，也可以不同，本申请实施例对此不作具体限定。例如，以第二除数为5，平均句长为20为例，则最大置换次数则为20/5＝4。上述提及的各个句长取值区间，其对应的置换次数均不大于最大置换次数。

206、根据每一样本句子文本中相邻句子成分的置换次数，对每一样本句子文本中的相邻句子成分进行置换。

由上述过程可知，句子成分可以为字、分词或者分句。由此，对于某一样本句子文本，句子成分的类型不同，也会对应不同的置换方式。对于句子成分为字，则在对某一样本句子文本中的相邻字进行1次置换时，可以随机选择一个字，再选择该字的前面相邻一个字或者后面相邻一个字，进行位置互换。可以理解的是，若是向前置换，则在随机选择字时，可以不选择为首的字。若是向后置换，则在随机选择字时，可以不选择末尾的字。

对于句子成分为分词，则在对某一样本句子文本中的相邻分词进行1次置换时，可以随机选择一个分词，再选择该分词前面相邻的一个分词或者后面相邻的一个分词，进行位置互换。同理，若是向前置换，则在随机选择分词时，可以不选择为首的分词。若是向后置换，则在随机选择分词时，可以不选择末尾的分词。

对于句子成分为分句，则在对某一样本句子文本中的相邻分句进行1次置换时，可以随机选择一个分句，再选择该分词前面相邻的一个分句或者后面相邻的一个分句，进行位置互换。同理，若是向前置换，则在随机选择分句时，可以不选择第一个的分句。若是向后置换，则在随机选择分句时，可以不选择最后一个的分句。样本句子文本通常是完整的且以句号为结尾，而对于样本句子文本中的分句，可以指的是通过预设符号所分隔的短句，预设符号可以为逗号或分号等标点符号，本申请实施例对此不作具体限定。

需要说明的是，句子成分的类型不同，可以对应不同的置换过程。为使得原始测试集经过数据增强后具有更丰富的数据多样性，实际实施过程中，可以从原始测试集中为每种类型的句子成分配比部分样本句子文本。例如，可以选择原始测试集中30％的样本句子文本进行相邻字置换，选择原始测试集中30％的样本句子文本进行相邻分词置换，选择原始测试集中40％的样本句子文本进行相邻分句置换。其中，配比比例可以根据需求进行设置，本申请实施例对此不作具体限定。

还需要说明的是，若某一样本句子文本需要经过多次相邻句子成分置换，则每次被置换的句子成分可以不重复，也即已经被置换过的句子成分后续可不再对其进行置换。

本申请实施例提供的方法，由于通过语序调整方式，可以保证生成增强数据时的语义一致性，从而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。另外，由于在句子成分置换过程中，基于句子成分类型、置换次数及发生概率设置了多种不同的置换策略，从而能够在保证语义一致性的前提下，尽量丰富增强测试集中数据的多样性，以使得后续对语义理解模型鲁棒性进行评估时更加客观。

在一些实施例中，至少一种预设方式包括字词增加方式；本申请实施例不对基于至少一种预设方式，对原始测试集作语义一致变换的方式作具体限定，包括但不限于：根据原始测试集中每一样本句子文本的字词总数量，划分字词数量取值区间；其中，划分得到的字词数量取值区间之间互不重叠；根据每一样本句子文本的字词总数量所落入的字词数量取值区间，确定每一样本句子文本的字词增加次数；根据每一样本句子文本的字词增加次数，在每一样本句子文本中增加字词。

具体地，在本过程中可以选择增加字，也可以选择增加分词，也即可以有增加对象类型的区分。实际实施过程中，可结合上述实施例的说明，同样进行配比。具体地，可以从原始测试集中选取部分样本句子文本增加字，剩下的样本句子文本增加分词。

以在样本句子文本中增加字为例，可以先根据每一样本句子文本的字总数量，划分字数量取值区间。在划分字数量取值区间后，可确定每一样本句子文本的字增加次数。其中，划分过程及确定字增加次数的过程可结合上述实施例的内容，此处不再赘述。例如，字总数量落入至某些字数量取值区间的样本句子文本，可以为其配置多种字增加次数，并为每种字增加次数配置发生概率，此处不再赘述。

其中，在向样本句子文本增加字时，可以增加重复性的字。例如，可以从样本句子文本中随机选择一个字，将该字增加在该字的前面或者后面。除此之外，还可以选择增加停顿字，如可以加入表示语气的语气词，如“额”、“嗯”或“呃”等。可以理解的是，加入上述类型的字，可以保证语义的一致性，向样本句子文本中增加分词亦是同理。与此同时，口语中通常会存在许多不流畅的现象，比如说话时可能会产生停顿，可能会重复上一个词或者犹豫一下再说，还可能会改口。因此，上述增加字或者分词的方式也贴合口语表达场景。

需要说明的是，若某一样本句子文本需要多次增加字词，则每次增加的字词可以不重复，也即已经增加过的字词后续可不再作为增加对象。

本申请实施例提供的方法，由于通过字词增加方式，可以保证生成增强数据时的语义一致性，从而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。另外，由于在增加字词过程中，基于字词类型、增加次数及发生概率设置了多种不同的增加策略，从而能够在保证语义一致性的前提下，尽量丰富增强测试集中数据的多样性。最后，字词增加的方式也能贴合口语表达场景。综上，可使得后续对语义理解模型鲁棒性进行评估时更加客观。

在一些实施例中，至少一种预设方式包括字词替换方式；本申请实施例不对基于至少一种预设方式，对原始测试集作语义一致变换的方式作具体限定，包括但不限于：根据原始测试集中每一样本句子文本的字词总数量，划分字词数量取值区间；其中，划分得到的字词数量取值区间之间互不重叠；根据每一样本句子文本的字词总数量所落入的字词数量取值区间，确定每一样本句子文本的字词替换次数；根据每一样本句子文本的字词替换次数，在每一样本句子文本中替换字词。

具体地，在本过程中可以选择替换字，也可以选择替换分词，也即也可以有替换对象类型的区分。实际实施过程中，可结合上述实施例的说明，同样进行配比。具体地，可以从原始测试集中选取部分样本句子文本替换字，剩下的样本句子文本替换分词。

以在样本句子文本中替换字为例，可以先根据每一样本句子文本的字总数量，划分字数量取值区间。在划分字数量取值区间后，可确定每一样本句子文本的字替换次数。其中，划分过程及确定字替换次数的过程可结合上述实施例的内容，此处不再赘述。例如，字总数量落入至某些字数量取值区间的样本句子文本，可以为其配置多种字替换次数，并为每种字替换次数配置发生概率，此处不再赘述。

其中，在向样本句子文本替换字时，可以替换等价字。例如，数字“1”与汉字“一”、汉字“壹”及标号“①”是等价的，数字“2”与汉字“二”、汉字“贰”及标号“②”是等价的。除此之外，还可以选择替换同音字或者近音字。例如，“平”与“乒”是同音字，“音”与“银”是同音字。可以理解的是，替换上述类型的字，可以保证语义的一致性。需要说明的是，若某一样本句子文本需要多次替换字词，则每次替换的字词可以不重复，也即已经替换过的字词后续可不再作为替换对象。结合上述实施例提及的内容，上述三种预设方式下不同的语义一致变换方式可参考图3。

本申请实施例提供的方法，由于通过字词替换方式，可以保证生成增强数据时的语义一致性，从而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。另外，由于在替换字词过程中，基于字词类型、替换次数及发生概率设置了多种不同的增加策略，从而能够在保证语义一致性的前提下，尽量丰富增强测试集中数据的多样性。

在一些实施例中，测试结果为测试准确率；本申请实施例不对基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性的方式作具体限定，包括但不限于：

计算每种预设方式对应的测试准确率与原始测试集对应的测试准确率之间的差值，对每种预设方式对应的差值进行加权求和，得到第一求和结果；基于至少一种预设方式，对原始训练集作语义一致变换，得到每种预设方式对应的增强训练集；

基于原始训练集及每种预设方式对应的增强训练集，对语义理解模型进行混合训练，得到混合训练后的语义理解模型；

基于每种预设方式对应的增强测试集对混合训练后的语义理解模型进行测试，得到每种预设方式对应的混合训练后测试准确率；

计算每种预设方式对应的混合训练后测试准确率与原始测试集对应的测试准确率之间的差值并进行加权求和，得到第二求和结果；根据第一求和结果及第二求和结果，评估语义理解模型的鲁棒性。

具体地，以预设方式为三种为例。第一种预设方式对应的测试准确率记为S11，第二种预设方式对应的测试准确率记为S12，第三种预设方式对应的测试准确率记为S13，原始测试集对应的测试准确率记为S10。由此，可以分别计算S11、S12及S13与S10之间的差值，分别记为d11、d12及d13。对d11、d12及d13进行加权求和，可以得到第一求和结果。

其中，加权求和使用的权重可以通过变异系数法计算得到。变异系数可以通过CV进行表示，变异系数是通过计算指标xi的标准差与指标xi的均值所得到的。变异系数越大，则说明其该指标携带的信息也越大，从而该指标对应的权重也会越大。

而在经过原始训练集及每种预设方式对应的增强训练集对语义理解模型进行混合训练后，第一种预设方式对应的混合训练后测试准确率可记为S21，第二种预设方式对应的混合训练后测试准确率可记为S22，第三种预设方式对应的混合训练后测试准确率可记为S23。由此，可以分别计算S21、S22及S13与S20之间的差值，分别记为d21、d22及d33。对d21、d22及d23进行加权求和，可以得到第二求和结果。其中，加权求和使用的权重也可以通过变异系数法计算得到，此处不再赘述。

实际实施过程中，可以将第二求和结果与第一求和结果之间的差值，作为语义理解模型鲁棒性的评估结果。其中，该差值越大，则表明模型的鲁棒性越好。反之，则越差。

除了采用上述过程提供的方式评估语义理解模型鲁棒性之外，还可以采用如下方式评估：计算每种预设方式对应的测试准确率与原始测试集对应的测试准确率之间的差值；计算每种预设方式对应的差值与原始测试集对应的测试准确率之间的比值，将每种预设方式对应的比值作为每种预设方式下语义理解模型鲁棒性的评估结果。可以理解的是，该过程主要是在不同能力方面评估语义理解模型的鲁棒性。

除此之外，还可以采用如下方式评估：计算每种预设方式对应的测试准确率与原始测试集对应的测试准确率之间的差值；计算每种预设方式对应的差值与原始测试集对应的测试准确率之间的比值，对每种预设方式对应的比值进行加权求和，将加权求和结果作为语义理解模型鲁棒性的评估结果。其中，该过程加权求和使用的权重也可以通过变异系数法计算得到，此处不再赘述。

本申请实施例提供的方法，由于在评估语义理解模型鲁棒性时，采用的是基于信息量权重法的加权鲁棒性评价指标，这会使得不同能力的指标得分可有对应适配的权重，而不是简单的加权求和，波动性越大的指标，对鲁棒性评估结果影响也越大，从而能够提高语义理解模型鲁棒性评估结果的准确性。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语义理解模型的鲁棒性评估方法的语义理解模型的鲁棒性评估装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语义理解模型的鲁棒性评估装置实施例中的具体限定可以参见上文中对于语义理解模型的鲁棒性评估方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种语义理解模型的鲁棒性评估装置，包括：变换模块402、第一测试模块404、第二测试模块406及评估模块408，其中：

变换模块402，用于基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集，原始测试集是由样本句子文本所构成的；

第一测试模块404，用于基于每种预设方式对应的增强测试集对语义理解模型进行测试，得到每种预设方式对应的测试结果；

第二测试模块406，用于基于原始测试集对语义理解模型进行测试，得到原始测试集对应的测试结果；

评估模块408，用于基于原始测试集对应的测试结果及每种预设方式对应的测试结果，评估语义理解模型的鲁棒性。

在一些实施例中，至少一种预设方式包括语序调整方式；变换模块402，用于根据原始测试集中每一样本句子文本的句长，划分句长取值区间；其中，句长指的是样本句子文本中句子成分的总数量，划分得到的句长取值区间之间互不重叠；根据每一样本句子文本的句长所落入的句长取值区间，确定每一样本句子文本中相邻句子成分的置换次数；根据每一样本句子文本中相邻句子成分的置换次数，对每一样本句子文本中的相邻句子成分进行置换。

在一些实施例中，至少一种预设方式包括字词增加方式；变换模块402，用于根据原始测试集中每一样本句子文本的字词总数量，划分字词数量取值区间；其中，划分得到的字词数量取值区间之间互不重叠；根据每一样本句子文本的字词总数量所落入的字词数量取值区间，确定每一样本句子文本的字词增加次数；根据每一样本句子文本的字词增加次数，在每一样本句子文本中增加字词。

在一些实施例中，至少一种预设方式包括字词替换方式；变换模块402，用于根据原始测试集中每一样本句子文本的字词总数量，划分字词数量取值区间；其中，划分得到的字词数量取值区间之间互不重叠；根据每一样本句子文本的字词总数量所落入的字词数量取值区间，确定每一样本句子文本的字词替换次数；根据每一样本句子文本的字词替换次数，在每一样本句子文本中替换字词。

在一些实施例中，评估模块408，用于计算每种预设方式对应的测试准确率与原始测试集对应的测试准确率之间的差值，对每种预设方式对应的差值进行加权求和，得到第一求和结果；基于至少一种预设方式，对原始训练集作语义一致变换，得到每种预设方式对应的增强训练集；基于原始训练集及每种预设方式对应的增强训练集，对语义理解模型进行混合训练，得到混合训练后的语义理解模型；基于每种预设方式对应的增强测试集对混合训练后的语义理解模型进行测试，得到每种预设方式对应的混合训练后测试准确率；计算每种预设方式对应的混合训练后测试准确率与原始测试集对应的测试准确率之间的差值并进行加权求和，得到第二求和结果；根据第一求和结果及第二求和结果，评估语义理解模型的鲁棒性。

本发明实施例提供的装置，由于在生成增强数据时，可通过维持语义一致性以贴合口语化信息的特征，从而使得生成的增强数据不会改变语义，进而不会影响到对语义理解模型的鲁棒性评估。因此，可以保证语义理解模型鲁棒性评估结果的准确性。

关于语义理解模型的鲁棒性评估装置的具体限定可以参见上文中对于语义理解模型的鲁棒性评估方法的限定，在此不再赘述。上述语义理解模型的鲁棒性评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储变量数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语义理解模型的鲁棒性评估方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时，至少一种预设方式包括语序调整方式、字词增加方式及字词替换方式。

在一个实施例中，至少一种预设方式包括语序调整方式；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，至少一种预设方式包括字词增加方式；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，至少一种预设方式包括字词替换方式；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，测试结果为测试准确率；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时，至少一种预设方式包括语序调整方式、字词增加方式及字词替换方式。

在一个实施例中，至少一种预设方式包括语序调整方式；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，至少一种预设方式包括字词增加方式；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，至少一种预设方式包括字词替换方式；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，测试结果为测试准确率；计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语义理解模型的鲁棒性评估方法，其特征在于，所述方法包括：

基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集，所述原始测试集是由样本句子文本所构成的；

基于每种预设方式对应的增强测试集对语义理解模型进行测试，得到每种预设方式对应的测试结果，基于所述原始测试集对所述语义理解模型进行测试，得到所述原始测试集对应的测试结果；

基于所述原始测试集对应的测试结果及每种预设方式对应的测试结果，评估所述语义理解模型的鲁棒性。

2.根据权利要求1所述的方法，其特征在于，所述至少一种预设方式包括语序调整方式、字词增加方式及字词替换方式。

3.根据权利要求2所述的方法，其特征在于，所述至少一种预设方式包括语序调整方式；所述基于至少一种预设方式，对所述原始测试集作语义一致变换，包括：

根据所述原始测试集中每一样本句子文本的句长，划分句长取值区间；其中，句长指的是样本句子文本中句子成分的总数量，划分得到的句长取值区间之间互不重叠；

4.根据权利要求2所述的方法，其特征在于，所述至少一种预设方式包括字词增加方式；所述基于至少一种预设方式，对所述原始测试集作语义一致变换，包括：

根据所述原始测试集中每一样本句子文本的字词总数量，划分字词数量取值区间；其中，划分得到的字词数量取值区间之间互不重叠；

5.根据权利要求2所述的方法，其特征在于，所述至少一种预设方式包括字词替换方式；所述基于至少一种预设方式，对所述原始测试集作语义一致变换，包括：

6.根据权利要求1所述的方法，其特征在于，测试结果为测试准确率；所述基于所述原始测试集对应的测试结果及每种预设方式对应的测试结果，评估所述语义理解模型的鲁棒性，包括：

计算每种预设方式对应的测试准确率与所述原始测试集对应的测试准确率之间的差值，对每种预设方式对应的差值进行加权求和，得到第一求和结果；

基于至少一种预设方式，对所述原始训练集作语义一致变换，得到每种预设方式对应的增强训练集；基于所述原始训练集及每种预设方式对应的增强训练集，对所述语义理解模型进行混合训练，得到混合训练后的语义理解模型；

基于每种预设方式对应的增强测试集对混合训练后的语义理解模型进行测试，得到每种预设方式对应的混合训练后测试准确率；计算每种预设方式对应的混合训练后测试准确率与所述原始测试集对应的测试准确率之间的差值并进行加权求和，得到第二求和结果；

根据所述第一求和结果及所述第二求和结果，评估所述语义理解模型的鲁棒性。

7.一种语义理解模型的鲁棒性评估装置，其特征在于，所述装置包括：

变换模块，用于基于至少一种预设方式，对原始测试集作语义一致变换，得到每种预设方式对应的增强测试集，所述原始测试集是由样本句子文本所构成的；

第二测试模块，用于基于所述原始测试集对所述语义理解模型进行测试，得到所述原始测试集对应的测试结果；

评估模块，用于基于所述原始测试集对应的测试结果及每种预设方式对应的测试结果，评估所述语义理解模型的鲁棒性。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。