CN116992830B

CN116992830B - 文本数据处理方法、相关装置及计算设备

Info

Publication number: CN116992830B
Application number: CN202310707427.4A
Authority: CN
Inventors: 彭立彪; 郑叔亮; 李文珏
Original assignee: Beijing Lingxin Intelligent Technology Co ltd
Current assignee: Beijing Lingxin Intelligent Technology Co ltd
Priority date: 2022-06-17
Filing date: 2023-06-14
Publication date: 2024-03-26
Anticipated expiration: 2043-06-14
Also published as: CN115048927A; CN116992830A

Abstract

本发明公开一种文本数据处理方法、相关装置及存储设备，该方法包括：获取候选训练文本；获取当前轮次候选字符数和候选语句；确定候选语句的第一语义置信度，不满足第一预设阈值则更新候选语句；若在当前轮次的候选字符数下的全部候选语句的第一语义置信度均不满足第一预设阈值，则更新候选字符数，直至更新后的候选语句的第一语义置信度满足第一预设阈值；替换候选训练文本中的目标语句，得到目标训练文本。本申请按照不同的候选字符数，获取候包含不同字数的候选语句，并判断候选语句是否为目标语句，确定后对其替换，目标语句是按照不同的字数根据第一语义置信度获取的，能够精准确定文本中偏差语句，实现对文本内容进行点对点的偏差降低。

Description

文本数据处理方法、相关装置及计算设备

技术领域

本发明涉及文本处理领域，特别涉及一种文本数据处理方法、相关装置及计算设备。

背景技术

文本分类是通过人工智能对待分类的文本，依据其中的关键词进行语义分类的技术。

其中，文本分类模型需要事先进行训练，利用训练后的文本分类模型，对待分类文本进行分类。但是，在训练过程中，一些训练文本中所包含的一些罕见语义的关键词会对分类模型造成偏差，比如“诸事不顺，我今天要去找个最高的楼，离开这个世界，实在是太欺负人了”，其中“离开这个世界”即为具有罕见语义的关键词，由于该文本中存在“离开这个世界”这个具有罕见语义的关键词，故而会导致文本分类模型错误的将“诸事不顺”、“我今天要去找个最高的楼”、“实在是太欺负人了”也分类为与“离开这个世界”相同的类别，此种由具有罕见语义的关键词造成的偏差，会导致文本分类模型向错误的方向训练。

目前现有技术中，消除训练文本中偏差的方法，通常采用调整关键词相应的语义或识别参数来减小识别偏差，进而利用消除偏差后的文本训练文本分类模型，以提高分类结果的准确性。但是，在实际应用中，由于文本数据之间的内容差异程度较大，不同的文本数据之间可能存在相同字符的关键词字样，因此调整关键词语义以及识别参数的方式会对文本数据中全部的内容造成影响，无法对训练文本的全部内容进行点对点的偏差降低。

发明内容

本发明的主要目的是提出一种文本数据处理方法、相关装置及计算设备，旨在解决背景技术中提到的无法对训练文本的全部内容进行点对点的降低偏差的问题。

为实现上述目的，本发明提出一种文本数据处理方法，包括：

获取候选训练文本；所述候选训练文本包括多个自然语句，且至少一个自然语句的语义为目标语义，所述目标语义为日常对话语句中的罕见语义；

获取当前轮次的候选字符数，基于所述当前轮次的候选字符数，从所述候选训练文本中获取候选语句；所述当前轮次的候选字符数代表当前轮次的候选语句的文字个数；所述候选语句包括所述候选训练文本中文字顺序连续的字；

确定所述候选语句的第一语义置信度，若所述第一语义置信度不满足第一预设阈值，则更新所述候选语句；若在所述当前轮次的候选字符数下的全部候选语句的第一语义置信度均不满足所述第一预设阈值，则更新所述候选字符数，并基于更新后的候选字符数获取更新后的候选语句，直至更新后的候选语句的第一语义置信度满足所述第一预设阈值；所述第一语义置信度标识所述候选语句的语义被识别为目标语义的置信度；

替换所述候选训练文本中的目标语句，得到目标训练文本；所述目标语句为第一语义置信度满足所述第一预设阈值的候选语句。

在本申请实施例中，所述候选字符数的初始值为1；当前轮次的候选字符数比上一轮次的候选字符数多一个。

在本申请实施例中，所述替换所述候选训练文本中的目标语句，得到目标训练文本，包括：

基于所述目标语句以及所述候选训练文本，得到掩码文本，所述掩码文本中的预设掩码区域包括掩码，所述预设掩码区域基于所述目标语句在所述候选训练文本中的位置确定，所述掩码文本的预设掩码区域的上下文信息与所述候选训练文本中的目标语句的上下文信息相同；

基于所述掩码文本，进行预设掩码区域的文本补全，并将补全后的掩码文本作为所述目标训练文本。

在本申请实施例中，所述基于所述掩码文本，进行预设掩码区域的文本补全，包括：

基于所述预设掩码区域的上文信息，对所述预设掩码区域进行文本补全；或者

基于所述预设掩码区域的下文信息，对所述预设掩码区域进行文本补全；或者

基于所述预设掩码区域的上下文信息，对所述预设掩码区域进行文本补全。

在本申请实施例中，在基于所述掩码文本，进行预设掩码区域的文本补全后，所述方法还包括：

确定补全后的掩码文本与目标语句的语义差异度；

选择语义差异度满足预设值的补全后的掩码文本作为所述目标训练文本。

将所述掩码文本输入预设语言模型，进行掩码区域的文本补全，得到补全后的掩码文本；

所述预设语言模型基于预设数据集训练得到，所述预设数据集包括的任一语句的语义，被识别为目标语义的置信度低于第二预设阈值。

在本申请实施例中，在确定所述目标语句后，所述方法还包括：

基于所述候选训练文本，从所述目标语句的下文中，获取距离所述目标语句最近的动词短语；

将所述目标语句和所述动词短语组成目标意图文本；

确定所述目标意图文本的第二语义置信度，所述第二语义置信度标识所述目标意图文本被识别为目标语义的置信度；

基于所述第二语义置信度，修正所述目标语句的第一语义置信度。

本申请还提出一种文本处理模型的训练方法，包括：

基于上述任一项所述的文本数据处理方法获取目标训练文本；

采用所述目标训练文本训练文本处理模型，得到目标模型。

本申请还提出一种文本数据处理装置，包括：

获取模块，用于获取候选训练文本；所述候选训练文本包括多个自然语句，且至少一个自然语句的语义为目标语义，所述目标语义为日常对话语句中的罕见语义；

处理模块，用于获取当前轮次的候选字符数，基于所述当前轮次的候选字符数，从所述候选训练文本中获取候选语句；所述当前轮次的候选字符数代表当前轮次的候选语句的文字个数；所述候选语句包括所述候选训练文本中文字顺序连续的字；

在本申请实施例中，所述候选字符数的初始值为1；所述处理模块还被配置为：

将当前轮次的候选字符数更新为比上一轮次的候选字符数多一个。

在本申请实施例中，所述处理模块被配置为：

在本申请实施例中，所述处理模块还被配置为：

在本申请实施例中，在基于所述掩码文本，进行预设掩码区域的文本补全后，所述处理模块还被配置为：

确定补全后的掩码文本与目标语句的语义差异度；

在本申请实施例中，所述处理模块还被配置为：

将所述掩码文本输入预设语言模型，进行掩码区域的文本补全，得到补全后的掩码文本；所述预设语言模型基于预设数据集训练得到，所述预设数据集包括的任一语句的语义，被识别为目标语义的置信度低于第二预设阈值。

在本申请实施例中，在确定所述目标语句后，所述处理模块还被配置为：

将所述目标语句和所述动词短语组成目标意图文本；

本申请还提出一种文本分类模型的训练装置，包括：

获取单元，被配置为基于上述任一项所述的文本数据处理方法获取目标训练文本；

训练单元，被配置为基于所述目标训练文本对目标模型进行训练。

本申请还提出一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法。

本申请还提出一种计算设备，其特征在于，所述计算设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述任一项所述的方法。

本申请实施例按照不同的候选字符数，获取候包含不同字数的候选语句，并判断候选语句是否为目标语句，确定了候选训练文本中的目标语句后对其进行替换。由于目标语句是按照不同的字数，从候选训练文本中获取候选语句，并根据第一语义置信度进行筛选得到的，故而能够精准的确定候选训练文本中的具有罕见语义的语句，即与候选训练文本中上下文语义偏差较大的语句，由此，在采用不具有罕见语义的语句对目标语句进行替换之后，可以实现对候选训练文本内容进行点对点的偏差降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本申请一实施例的文本数据处理方法的步骤图；

图2为本申请另一实施例的文本数据处理方法的步骤图；

图3为本申请又一实施例的文本数据处理方法的步骤图；

图4为本申请再一实施例的文本数据处理方法的步骤图；

图5为本申请一实施例的文本数据处理装置的模块图；

图6为本申请一实施例的介质的模块图；

图7为本申请一实施例的计算设备的模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种文本数据处理方法、相关装置及计算设备。

示例性方法

请结合参照图1所示，本示例性实施方式提供一种文本数据处理方法，包括如下步骤S100-S400：

步骤S100：获取候选训练文本；所述候选训练文本包括多个自然语句，且至少一个自然语句的语义为目标语义，所述目标语义为日常对话语句中的罕见语义。

在本申请实施例中，候选训练文本包括多个自然语句，自然语句可以为一个短句，或者两个标点符号之间的语句，即候选训练文本中可以包括多个短句及多个标点符号组成的长句。

比如，对于候选训练文本：“诸事不顺，我今天要去找个最高的楼，离开这个世界，实在是太欺负人了”。其中“诸事不顺”、“我今天要去找个最高的楼”、“离开这个世界”、“实在是太欺负人了”均为一个自然语句。

目标语义为希望文本分类模型能够将该候选训练文本分类为某一类别的文本所具有的语义。比如对于候选训练文本“诸事不顺，我今天要去找个最高的楼，离开这个世界，实在是太欺负人了”，我们期望文本分类模型能够将其分类为与“离开这个世界”相同类别的文本，即该候选训练文本的目标语义为：离开这个世界。

另外，不难看出，该候选训练文本中“离开这个世界”的语义为“离开这个世界”，而“离开这个世界”这个语义为日常交谈中出现频率较小的，较为罕见的语义，那么文本分类模型面对该训练文本时，会由于“离开这个是世界”的罕见语义，错误的学习到“诸事不顺”、“我今天要去找个最高的楼”、“实在是太欺负人了”也具有“离开这个世界”的语义，但是实则“诸事不顺”、“我今天要去找个最高的楼”、“实在是太欺负人了”并没有“离开这个世界”的语义。

因此，该候选训练文本中的“离开这个世界”则为导致文本分类模型出现偏差的关键词，即，“离开这个世界”为该候选训练文本中的具有罕见语义的语句。

又比如，对于候选训练文本“每天都太累了，受不了了，去买点药，永远的睡着吧”。其中，该候选训练文本的语义为“永远的睡着吧”，即目标语义为“我要永远的睡着”，我们期望文本分类模型能够将其分类为“永远的睡着吧”类别的文本，“永远的睡着吧”则为具有罕见语义的语句，而“每天都太累了”、“受不了了”、“去买点药”的语义则为日常生活经常出现的语义，但是，由于该候选训练文本中存在具有罕见语义的语句“永远的睡着吧”，同样会导致文本分类模型错误的学习到“每天都太累了”、“受不了了”、“去买点药”具有“永远的睡着吧”的语义。

在本申请实施例中，候选训练文本可以采用人工编写的方式，编写多个候选训练文本，或者可以从一些开源数据集中直接获取。

步骤S200：获取当前轮次的候选字符数，基于所述当前轮次的候选字符数，从所述候选训练文本中获取候选语句；所述当前轮次的候选字符数代表当前轮次的候选语句的文字个数；所述候选语句包括所述候选训练文本中文字顺序连续的字。

在步骤S100中获取候选训练文本后，在步骤S200中，基于每个候选训练文本分轮次获取候选语句。

在本申请实施例中，不同轮次获取的候选语句的字数不同。比如，可以按照每个轮次中的候选语句字数从小到大或者从大到小的顺序，进行多轮次获取候选语句。

在本申请实施例中，每个轮次获取的候选语句，均是候选训练文本中连续的文字。以候选训练文本为“诸事不顺，我今天要去找个最高的楼，离开这个世界，实在是太欺负人了”为例，候选语句可以为：诸事、不顺、事不、我今天要去等等。即，每个候选语句不能是从候选训练文本中挑选间隔的字所组成的。如：诸顺、我要楼，则均不满足本申请实施例获取候选语句的要求。

步骤S300：确定所述候选语句的第一语义置信度，若所述第一语义置信度不满足第一预设阈值，则更新所述候选语句；若在所述当前轮次的候选字符数下的全部候选语句的第一语义置信度均不满足所述第一预设阈值，则更新所述候选字符数，并基于更新后的候选字符数获取更新后的候选语句，直至更新后的候选语句的第一语义置信度满足所述第一预设阈值；所述第一语义置信度标识所述候选语句的语义被识别为目标语义的置信度。

在本申请实施例中，以每个轮次获取的候选语句的字数从小至大进行，比如，第一轮次的候选语句均只包括一个字，然后第二轮次、第三轮次的候选语句分别包括两个字、三个字，即候选字符数的初始值为1，后续每一轮次候选语句，比上一轮次的候选语句的字数多一个。

比如：

候选字符数为1时，第一轮次可以从候选训练文本中得到如下候选语句：诸、事、不、顺、我、今、天、要、去、找、个、最、高、的、楼、告、别、这、个、世、界、实、在、是、太、欺、负、人、了。

将候选字符数更新为2时，第二轮次可以从候选训练文本中得到如下候选语句：诸事、事不、不顺、顺我、我今、今天、天要、要去、去找、找个、个最、最高、高的、的楼、楼告、告别、别这、这个、个世、世界、界实、实在、在是、是太、太欺、欺负、负人、人了。

第三轮次的每个候选语句均包括三个连续的字，第四轮次的每个候选语句均包括四个连续的字，按照此规律可以获取到每个轮次的候选语句，后续每一轮次的候选语句具体所包含的内容不再一一赘述。

当获取到候选语句后，判断该候选语句是否为目标语句。具体可以根据每个候选语句的语义与目标语义的相似度来判断，即根据第一语义置信度来判断。另外，还可以设置第一预设阈值，如果某一个候选语句的第一语义置信度超过该第一预设阈值，则判断该候选语句和目标语义具有较高的相似度，就可以确定为目标语句。

比如，候选训练文本为：“诸事不顺，我今天要去找个最高的楼，离开这个世界，实在是太欺负人了”，其目标语义为“我要离开这个世界”。

候选字符数为1时，在第一轮次时，可以按照字数为1从候选训练文本中获取候选语句，如：

获取候选语句为：“诸”；

确定候选语句“诸”的第一语义置信度，判断“诸”的第一语义置信度是否满足第一预设阈值，如果不满足，则更新一个候选语句，此时候选语句的字符数仍然是1。

比如更新后的候选语句为：“事”；

此时再确定“事”的第一语义置信度，并判断“事”的第一语义置信度是否满足第一预设阈值。

按照此种方法，从前向后依次获取一个字的候选语句，并判断其第一语义置信度是否满足第一预设阈值。当一个字的候选语句全部判断完毕后，均不存在某个一个字的候选语句的第一语义置信度满足第一预设阈值，则说明目标语句不是一个语句，此时则可以更新候选字符数，比如将候选字符数增加到2，即，从候选训练文本中选择两个字的候选语句。

同样，也可以按照在候选训练文本中从前向后的顺序，依次获取两个字的候选语句，如：

获取候选语句：“诸事”；

判断候选语句“诸事”的第一语义置信度是否满足第一预设阈值，若否，则继续更新两个字的候选语句；

获取候选语句：“事不”；

判断候选语句“事不”的第一语义置信度是否满足第一预设阈值，若否，继续获取其他两个字的候选语句。

以此类推，当两个字的候选语句全部判断完毕后，若也不存在第一语义置信度满足第一预设阈值的候选语句，则再次更新候选字符数，将其更新为3，获取并判断三个字的候选语句是否具有目标语句，如果在三个字的候选语句中也没有得到目标语句，则继续更新候选字符数，并继续获取更多字数的候选语句，直到当获取到“离开这个世界”的候选语句时，判断“离开这个世界”的第一语义置信度满足第一预设阈值时，即可停止，对于“离开这个世界”之后的其他五个字乃至更多个字的候选语句无需获取，也无需再判断。

需要说明的是，在每一个轮次的候选字符数下，判断每一轮次的候选语句中是否存在目标语句时，需要遍历该候选字符数下的全部候选语句。即，先判断所有一个字的候选语句，当全部一个字的候选语句的第一语义置信度均不满不足第一预设阈值时，再更新候选字符数为2，并继续遍历全部两个字的候选语句，以此类推，直到得到第一语义置信度满足第一预设阈值的候选语句。

此种根据候选语句的字数，从小到大的获取候选语句，并根据候选语句第一语义置信度，判断候选语句是否为具有目标语义的目标语句的方法，能够快速的且准确的获取到具有罕见语义且最短的目标语句，获取的目标语句在满足第一语义置信度大于第一预设阈值的前提下，字数尽可能的少，能够尽可能准确的确定具有罕见语义的具体语句，避免目标语句中出现与罕见语义无关的字，目标语句精准度较高，从而后续将目标语句替换后得到的目标训练文本不会包括偏差，进而保证了文本分类模型不会基于有偏差的训练文本进行学习，保证文本模型不会有偏差，保证训练的准确性。

另外，在另一实施例中，在每个轮次中，可以先获取该轮次的全部候选语句，构成候选语句集合，然后在该候选语句集合中判断是否具有目标语句，如果没有，则更新候选字符数，然后再获取下一轮次的候选语句集合，并判断下一轮次的候选语句集合中是否具有目标语句，直至确定目标语句。

步骤S400：替换所述候选训练文本中的目标语句，得到目标训练文本；所述目标语句为第一语义置信度满足所述第一预设阈值的候选语句。

如图2所示，在本申请实施例中，可以基于如下步骤S410-S420对所述候选训练文本中的目标语句进行替换，具体如下：

步骤S410：基于所述目标语句以及所述候选训练文本，得到掩码文本，所述掩码文本中的预设掩码区域包括掩码，所述预设掩码区域基于所述目标语句在所述候选训练文本中的位置确定，所述掩码文本的预设掩码区域的上下文信息与所述候选训练文本中的目标语句的上下文信息相同。

还以候选训练文本为“诸事不顺，我今天要去找个最高的楼，离开这个世界，实在是太欺负人了”为例，在步骤S300中能够确定目标语句为“离开这个世界”，那么掩码文本中的预设掩码区域即为“离开这个世界”在候选训练样本中的位置，利用掩码[MASK]将“离开这个世界”在候选训练文本中的位置进行替换，可以得到掩码文本，如下：

“诸事不顺，我今天要去找个最高的楼，[MASK][MASK][MASK][MASK]，实在是太欺负人了”。

步骤S420：基于所述掩码文本，进行预设掩码区域的文本补全，并将补全后的掩码文本作为所述目标训练文本。

在本申请实施例中，掩码文本中的预设掩码区域为掩码“[MASK][MASK][MASK][MASK]”所在位置，故而可以对掩码进行补全。

在本申请实施例中，可以将上述掩码文本输入该预设的语言模型，对掩码区域缺失的文本进行补全。

对预设掩码区域缺失的文本补全时，可以基于所述预设掩码区域的上文信息对预设掩码区域进行文本补全，即基于“诸事不顺，我今天要去找个最高的楼”进行补全。

或者，基于所述预设掩码区域的下文信息对预设掩码区域进行文本补全，即基于“实在是太欺负人了”进行补全。

或者，基于所述预设掩码区域的上下文信息对预设掩码区域进行文本补全，即，基于“诸事不顺，我今天要去找个最高的楼，实在是太欺负人了”进行补全。

其中，基于预设掩码区域的上文信息、下文信息以及上下文信息进行补全，分别基于不同的信息进行补全，可以提高文本补全结果的多样性。

另外，需要说明的是，在对预设掩码区域进行文本补全时，不限制补全的字数，即补全的内容可以是一个词语，或者一个字，或者一句话，而且补全的内容与原本预设掩码区域的目标语句的字数可以相同，也可以不同，可以字数大于目标语句的字数，也可以字数小于目标语句的字数。

比如，在本申请中可以基于上述掩码文本，得到如下补全后的文本1-3：

补全文本1：“诸事不顺，我今天要去找个最高的楼，看看远方，实在是太欺负人了”；

补全文本2：“诸事不顺，我今天要去找个最高的楼，去吹风，实在是太欺负人了”；

补全文本3：“诸事不顺，我今天要去找个最高的楼，安静的待会，实在是太欺负人了”。

如图3所示，在本申请实施例中，在基于所述掩码文本，进行预设掩码区域的文本补全后，所述方法还包括如下步骤S430-440：

步骤S430：确定补全后的掩码文本与目标语句的语义差异度。

其中，假设在步骤S420中，得到的补全后文本为上述补全文本1，那么在步骤S430中，判断补全文本1与目标语句的语义差异度。

目标语句为“离开这个世界”，其语义为罕见语义，假设补全后的文本的语义与目标语句的语义差异度较小，那么则代表补全的内容同样为具有“我要离开这个世界”的罕见语义，补全的内容并不能达到消除偏差的目的，此时利用补全后的文本去训练文本分类模型时，同样会使文本分类模型产生偏差。

因此，在本申请实施例中，可以设置语义差异度预设值，通过语义差异度预设值，判断补全后的文本与目标语句的语义是否达到足够大的差异，即确保补全的文本不具有和目标语句一样的罕见语义，保证能够消除候选训练文本中造成的偏差的目标语句。

步骤S440：选择语义差异度满足预设值的补全后的掩码文本作为所述目标训练文本。

还以补全文本1为例，补全文本1的语义明显不具有“我要离开这个世界”的语义倾向，故而与目标语句具有较大的语义差异度，能够确定已经消除了候选训练文本中能够造成的偏差的目标语句，此时就可以把补全后的文本作为目标训练文本，即将补全文本1作为目标训练文本。

利用预设语言模型，根据语义差异度，能够保证补全的内容和原本候选训练文本中的目标语句具有较大的差异度，即，保证了补全的内容不会和目标语句具有相同的罕见语义。但是，补全的内容还有可能是其他不同于目标语句的罕见语义的其他罕见语义。

比如，还存在其他例如具有暴力倾向的罕见语义，或者具有反动倾向的罕见语义，或者具有犯罪倾向的罕见语义等等。

因此，在本申请实施例中，要求预设的语言模型在文本补全时，不会产生例如具有暴力倾向的罕见语义，或者具有反动倾向的罕见语义，或者具有犯罪倾向的罕见语义的内容。那么，在本申请实施例中，在对于该预设语言模型训练的时候，可以选择不具有目标语义的文本进行训练。比如还设定一个第二预设阈值，在选择训练数据集时，训练数据集中的任一语句的语义被识别为目标语义(多种含义语义)的置信度低于第二预设阈值，既保证训练预设语言模型时的语句的语义与目标语句的语义具有较大的差异度。比如，选择不具有暴力倾向的语句，以及不具有反动倾向的语句，以及不具有犯罪倾向的语句进行训练。从而，保证预设的语言模型所生成的补全内部，不会是具有与“我要离开这个世界”相同的罕见语义的文本，也不会是具有其他罕见语义的文本，充分保证补全后的文本能够消除具有罕见语义的语句所造成的偏差。

另外，利用预设语言模型进行文本补全时，还可以选择与目标语句的语义相反的词语或语句，以及与目标语句的语义相反之外的非相近语义的词语或语句进行替换，进一步提高文本补全结果的多样性，实现补全文本的增广。

在本申请实施例中，在确定目标语句后，能够确定的是目标语句的第一语义置信度已经满足第一预设阈值，但是还存在虽然第一语义置信度已经满足第一预设阈值的要求，但是不属于罕见语义的情况。

比如，对于候选训练文本：“河水好清凉，我想跳下去游泳，在游泳的时候，我想到了一件伤心事，想离开这个世界”。

按照上述步骤S100-S400，能够确定“想离开这个世界”为具有罕见语义的目标语句。但是，有可能将“我想跳下去”错误的判断为目标语句，但实际上单纯基于“我想跳下去”并不能确定是否就具有“想离开这个世界”得语义倾向。因此，本申请实施例可以对目标语句的第一语义置信度进行校准，以克服训练文本的复杂性导所致获取目标语句出错的问题，如图4所示，具体包括如下步骤S510-540：

步骤S510：基于所述候选训练文本，从所述目标语句的下文中，获取距离所述目标语句最近的动词短语。

假设，候选语句“我想跳下去”的第一语义置信度满足预设阈值，即此时确定的目标语句为“我想跳下去”，当确定目标语句后为“我想跳下去后”，可以确定距离目标语句“我想跳下去”最近的动词短语为“游泳”。

步骤S520：将所述目标语句和所述动词短语组成目标意图文本。

在本申请实施例中，目标语句为：“我想跳下去”；

下文中距离目标语句最近的动词短语为：“游泳”；

故而，组成的目标意图文本为：“我想跳下去游泳”。

步骤S530：确定所述目标意图文本的第二语义置信度，所述第二语义置信度标识所述目标意图文本被识别为目标语义的置信度。

可以确定，目标意图文本“我想跳下去游泳”的语义为“我想游泳”，故而第二语义置信度较低。

步骤S540：基于所述第二语义置信度，修正所述目标语句的第一语义置信度。

在步骤S530中，确定目标意图文本的语义为“我想游泳”，显然不具有“想离开这个世界”的语义倾向，故而“我想跳下去”则不属于具有罕见语义的目标语句，因此，不能将“我想跳下去”作为候选训练文本“河水好清凉，我想跳下去游泳，在游泳的时候，我想到了一件伤心事，想离开这个世界”的目标语句，此时可以修正“我想跳下去”的第一语义置信度，例如降低其第一语义置信度至第一预设阈值之下。将“我想跳下去”的第一语义置信度降低至第一预设阈值之下时，即不存在目标语句，可以可按照上述步骤S100-S400，继续选择并判断其他候选语句是否为目标语句。

本申请还提出一种文本分类模型的训练方法，包括如下步骤：

基于上述任一实施例所述的文本数据处理方法获取目标训练文本；

采用所述目标训练文本训练文本处理模型，得到目标模型。

由于本申请实施例中的文本分类模型的训练方法所采用的训练数据，是基于上述任一实施例中的文本数据处理方法获取的，故而所采用的训练数据中不会包括具有罕见语义的语句，从而保证文本分类模型不会基于有偏差的训练数据进行学习，进而保证文本分类模型不会有偏差，确保训练的准确性。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来对本发明示例性文本分类模型训练装置100进行说明，如图5所示，在本申请实施例中，该装置包括：

获取模块110，用于获取候选训练文本；所述候选训练文本包括多个自然语句，且至少一个自然语句的语义为目标语义，所述目标语义为日常对话语句中的罕见语义；

处理模块120，用于获取当前轮次的候选字符数，基于所述当前轮次的候选字符数，从所述候选训练文本中获取候选语句；所述当前轮次的候选字符数代表当前轮次的候选语句的文字个数；所述候选语句包括所述候选训练文本中文字顺序连续的字；

在本申请实施例中，所述候选字符数的初始值为1；所述处理模块120还被配置为：

在本申请实施例中，所述处理模块120被配置为：

在本申请实施例中，所述处理模块120还被配置为：

在本申请实施例中，在基于所述掩码文本，进行预设掩码区域的文本补全后，所述处理模块120还被配置为：

确定补全后的掩码文本与目标语句的语义差异度；

在本申请实施例中，所述处理模块120还被配置为：将所述掩码文本输入预设语言模型，进行掩码区域的文本补全，得到补全后的掩码文本；所述预设语言模型基于预设数据集训练得到，所述预设数据集包括的任一语句的语义，被识别为目标语义的置信度低于第二预设阈值。

在本申请实施例中，在确定目标语句后，所述处理模块120还被配置为：

将所述目标语句和所述动词短语组成目标意图文本；

本申请实施例，通过处理模块120，按照不同的候选字符数，获取候包含不同字数的候选语句，并判断候选语句是否为目标语句，确定了候选训练文本中的目标语句后对其进行替换。由于目标语句是按照不同的字数，从候选训练文本中获取候选语句，并根据第一语义置信度进行筛选得到的，故而能够精准的确定候选训练文本中的具有罕见语义的语句，即与候选训练文本中上下文语义偏差较大的语句，由此，在采用不具有罕见语义的语句对目标语句进行替换之后，可以实现对候选训练文本内容进行点对点的偏差降低。

本申请还提出一种文本分类模型的训练装置，包括：

获取单元，被配置为基于上述任一实施例所述的文本数据处理方法获取目标训练文本；

由于本申请实施例中的文本分类模型的训练装置，所采用的训练数据是基于上述任一实施例所述的文本数据处理方法获取的，故而训练数据中不会包括具有罕见语义的语句，从而保证训练装置不会基于有偏差的训练数据对文本分类模型进行，保证文本分类模型不会有偏差，确保训练的准确性。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图6对本发明示例性实施方式的计算机可读存储介质进行说明。

请参考图6，其示出的计算机可读存储介质为光盘70，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如：获取候选训练文本；所述候选训练文本包括多个自然语句，且至少一个自然语句的语义为目标语义，所述目标语义为日常对话语句中的罕见语义；获取当前轮次的候选字符数，基于所述当前轮次的候选字符数，从所述候选训练文本中获取候选语句；所述当前轮次的候选字符数代表当前轮次的候选语句的文字个数；所述候选语句包括所述候选训练文本中文字顺序连续的字；确定所述候选语句的第一语义置信度，若所述第一语义置信度不满足第一预设阈值，则更新所述候选语句；若在所述当前轮次的候选字符数下的全部候选语句的第一语义置信度均不满足所述第一预设阈值，则更新所述候选字符数，并基于更新后的候选字符数获取更新后的候选语句，直至更新后的候选语句的第一语义置信度满足所述第一预设阈值；所述第一语义置信度标识所述候选语句的语义被识别为目标语义的置信度；替换所述候选训练文本中的目标语句，得到目标训练文本；所述目标语句为第一语义置信度满足所述第一预设阈值的候选语句。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图7对本发明示例性实施方式的计算设备80进行说明。

图7示出了适于用来实现本发明实施方式的示例性计算设备80的框图，该计算设备80可以是计算机系统或服务器。图7显示的计算设备80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算设备80的组件可以包括但不限于：一个或者多个处理器或者处理单元801，系统存储器802，连接不同系统组件(包括系统存储器802和处理单元801)的总线803。

计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器802可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022。计算设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM8023可以用于读写不可移动的、非易失性磁介质(图7中未显示，通常称为“硬盘驱动器”)。尽管未在图7中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块8024的程序/实用工具8025，可以存储在例如系统存储器802中，且这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白，尽管图7中未示出，可以结合计算设备80使用其它硬件和/或软件模块。

处理单元801通过运行存储在系统存储器802中的程序，从而执行各种功能应用以及数据处理，例如获取候选训练文本；所述候选训练文本包括多个自然语句，且至少一个自然语句的语义为目标语义，所述目标语义为日常对话语句中的罕见语义；获取当前轮次的候选字符数，基于所述当前轮次的候选字符数，从所述候选训练文本中获取候选语句；所述当前轮次的候选字符数代表当前轮次的候选语句的文字个数；所述候选语句包括所述候选训练文本中文字顺序连续的字；确定所述候选语句的第一语义置信度，若所述第一语义置信度不满足第一预设阈值，则更新所述候选语句；若在所述当前轮次的候选字符数下的全部候选语句的第一语义置信度均不满足所述第一预设阈值，则更新所述候选字符数，并基于更新后的候选字符数获取更新后的候选语句，直至更新后的候选语句的第一语义置信度满足所述第一预设阈值；所述第一语义置信度标识所述候选语句的语义被识别为目标语义的置信度；替换所述候选训练文本中的目标语句，得到目标训练文本；所述目标语句为第一语义置信度满足所述第一预设阈值的候选语句。各步骤的具体实现方式在此不再重复说明。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种文本数据处理方法，包括：

替换所述候选训练文本中的目标语句，确定替换后的文本与目标语句的语义差异度，选择语义差异度满足预设值的替换后的文本作为目标训练文本，以使替换后的文本不具有和目标语句一样的罕见语义；所述目标语句为第一语义置信度满足所述第一预设阈值的候选语句。

2.如权利要求1所述的文本数据处理方法，其中，所述候选字符数的初始值为1；当前轮次的候选字符数比上一轮次的候选字符数多一个。

3.如权利要求1所述的文本数据处理方法，其中，所述替换所述候选训练文本中的目标语句，得到目标训练文本，包括：

4.如权利要求3所述的文本数据处理方法，所述基于所述掩码文本，进行预设掩码区域的文本补全，包括：

5.如权利要求3所述的文本数据处理方法，所述基于所述掩码文本，进行预设掩码区域的文本补全，包括：

6.如权利要求1所述的文本数据处理方法，在确定所述目标语句后，所述方法还包括：

将所述目标语句和所述动词短语组成目标意图文本；

7.一种文本数据处理装置，包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种计算设备，其特征在于，所述计算设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一项所述的方法。