CN112765319B

CN112765319B - 一种文本的处理方法、装置、电子设备及存储介质

Info

Publication number: CN112765319B
Application number: CN202110074522.6A
Authority: CN
Inventors: 黄兵; 张尼; 薛继东; 张宏斌; 赵耀; 孙世豪; 李庆科; 许凤凯
Original assignee: 6th Research Institute of China Electronics Corp
Current assignee: 6th Research Institute of China Electronics Corp
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-09-03
Anticipated expiration: 2041-01-20
Also published as: CN112765319A

Abstract

本申请提供了一种文本的处理方法、装置、电子设备及存储介质，其中，该处理方法包括：获取待处理文本中各个字符的字符特征向量；将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的；基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。本申请使用添加随机特征向量的扰动样本文本对文本处理模型进行训练，提高了文本处理模型的稳定性，在存在干扰时，实体提取模型输出的字符类别的准确度高，进而提高了识别出的实体以及实体类别的准确度。

Description

一种文本的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种文本的处理方法、装置、电子设备及存储介质。

背景技术

在自然语言处理技术领域，实体表示具体事物、个别主体、现象的支持者等含义，比如，人名、组织机构等，在文本的处理过程中，由于实体能够表示文本中的多种对象，因此，可以通过对文本中实体的识别，确定文本的主要内容。

现阶段，通常使用开源的实体提取模型对文本中的实体进行识别，比如，CRF模型，但是现有的实体提取模型抗干扰能力差，在存在干扰的情况下，实体提取模型识别出的实体的准确度低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本的处理方法、装置、电子设备及存储介质，使用添加随机特征向量的扰动样本文本对文本处理模型进行训练，提高了文本处理模型的稳定性，在存在干扰时，实体提取模型输出的字符类别的准确度高，进而提高了识别出的实体以及实体类别的准确度。

第一方面，本申请实施例提供了一种文本的处理方法，所述处理方法包括：

获取待处理文本中各个字符的字符特征向量；

将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的；

基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。

在一种可能的实施方式中，所述获取所述文本处理模型输出的各个字符的字符类别，包括：

基于所述待处理文本中的各个字符的字符特征向量，确定所述待处理文本中的各个字符归属于每个字符类别的概率；

基于每个字符在所述待处理文本中的位置，该字符归属于每个字符类别的概率，以及与该字符相邻的其他字符归属于每个字符类别的概率，更新该字符归属于每个字符类别的概率；

基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率，确定所述待处理文本中各个字符的字符类别。

在一种可能的实施方式中，通过如下方式对所述文本处理模型进行训练：

针对每个扰动样本文本，将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中，获取所述文本处理模型输出的各个字符的预测字符类别；

根据该扰动样本文本中每个字符的预测字符类别，以及该字符的真实字符类别，确定该扰动样本文本对应的损失值；

若各个扰动样本文本对应的损失值均小于预设阈值，则将所述文本处理模型确定为预先训练好的文本处理模型，否则继续对所述文本处理模型进行训练。

在一种可能的实施方式中，通过如下方式获取每个扰动样本文本中各个字符的扰动特征向量；

根据每个扰动样本文本中每个字符的字符特征向量，以及该字符对应的随机生成的随机特征向量，确定该字符的扰动特征向量。

第二方面，本申请实施例提供了一种文本的处理装置，所述处理装置包括：

第一获取模块，用于获取待处理文本中各个字符的字符特征向量；

第二获取模块，用于将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的；

提取模块，用于基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。

在一种可能的实施方式中，所述第二获取模块，在获取所述文本处理模型输出的各个字符的字符类别时，包括：

在一种可能的实施方式中，所述处理装置还包括：

第三获取模块，用于针对每个扰动样本文本，将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中，获取所述文本处理模型输出的各个字符的预测字符类别；

第一确定模块，用于根据该扰动样本文本中每个字符的预测字符类别，以及该字符的真实字符类别，确定该扰动样本文本对应的损失值；

第二确定模块，用于若各个扰动样本文本对应的损失值均小于预设阈值，则将所述文本处理模型确定为预先训练好的文本处理模型，否则继续对所述文本处理模型进行训练。

在一种可能的实施方式中，所述处理装置还包括：

第三确定模块，用于根据每个扰动样本文本中每个字符的字符特征向量，以及该字符对应的随机生成的随机特征向量，确定该字符的扰动特征向量。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的文本的处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的文本的处理方法的步骤。

本申请实施例提供的一种文本的处理方法、装置、电子设备及存储介质，其中，该处理方法包括：获取待处理文本中各个字符的字符特征向量；将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的；基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。本申请实施例使用添加随机特征向量的扰动样本文本对文本处理模型进行训练，提高了文本处理模型的稳定性，在存在干扰时，实体提取模型输出的字符类别的准确度高，进而提高了识别出的实体以及实体类别的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种文本的处理方法的流程图；

图2示出了本申请实施例提供的另一种文本的处理方法的流程图；

图3示出了本申请实施例提供的另一种文本的处理方法的流程图；

图4示出了本申请实施例提供的一种文本的处理装置的结构示意图；

图5示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在自然语言处理技术领域，实体表示具体事物、个别主体、现象的支持者等含义，比如，人名、组织机构等，在文本的处理过程中，由于实体能够表示文本中的多种对象，因此，可以通过对文本中实体的识别，确定文本的主要内容。现阶段，通常使用开源的实体提取模型对文本中的实体进行识别，比如，CRF模型，但是现有的实体提取模型抗干扰能力差，在存在干扰的情况下，实体提取模型识别出的实体的准确度低。

基于上述问题，本申请实施例提供了一种文本的处理方法、装置、电子设备及存储介质，其中，该处理方法包括：获取待处理文本中各个字符的字符特征向量；将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的；基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。本申请实施例使用添加随机特征向量的扰动样本文本对文本处理模型进行训练，提高了文本处理模型的稳定性，在存在干扰时，实体提取模型输出的字符类别的准确度高，进而提高了识别出的实体以及实体类别的准确度。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种文本的处理方法进行详细介绍。

参见图1所示，图1为本申请实施例提供的一种文本的处理方法的流程图，所述处理方法包括以下步骤：

S101、获取待处理文本中各个字符的字符特征向量。

该步骤中，待处理文本是任意的一个文本，可以来自不同的领域，比如，新闻、生物医学、房地产等领域，也可以是不同语言的文本，比如，英语、荷兰语等，这里并不对待处理文本的类别进行限定。待处理文本由字符组成，换句话说，待处理文本中包括多个字符，其中，字符是指计算机中使用的字母、数字、字和符号，比如，“1”、“2”、“3”、“A”、“B”、“C”、“a”、“b”、“c”、“，”、“。”、“；”等。字符特征向量用于表征字符的语义特征，计算机可以基于字符特征向量对不同的字符进行区分。

具体的，对待处理文本包括的字符进行拆分处理，得到待处理文本中包括的各个字符，并将每个字符输入至预先训练好的语义特征提取模型中，获取语义特征提取模型输出的每个字符的字符特征向量，可选的，语义特征提取模型为开源的Word2vec模型，其中，Word2vec模型是最常用的词嵌入模型之一。

S102、将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的。

该步骤中，预先训练好的文本处理模型用于确定文本中每个字符的字符类别，基于文本处理模型输出的各个字符的字符类别，可以从文本中提取多个实体，并确定各个实体的实体类别，这里，字符的字符类别可以表征该字符是否为实体，如果是实体，是哪一类的实体，以及是该类实体的起始字符还是中间字符，比如，预设有两类实体，分别为人名和组织机构名称，相应的，对应有5种字符类别，分别为B-Person(人名的开始部分)、I-Person(人名的中间部分)、B-Organization(组织机构的开始部分)、I-Organization(组织机构的中间部分)、O(非实体信息)。

需要说明的是，本申请实施例所使用的文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的，即使用对抗训练(adversarial training，AT)的方式对文本处理模型进行训练得到的，文本处理模型的训练过程在下文中具体展开说明。

将待处理文本中各个字符的字符特征向量同时输入至预先训练好的文本处理模型中，获取文本处理模型输出的各个字符的字符类别，这里，文本处理模型可以同时输出待处理文本中各个字符的字符类别。

S103、基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。

该步骤中，根据待处理文本中各个字符的字符类别，判断每个字符是否是实体的组成字符，如果是实体的组成字符，该字符是首字符还是中间字符，并由同一实体类别的相邻几个字符组成一个实体，并将相邻几个字符的实体类别，确定为组成的实体对应的实体类别。

举例来讲，句子X中包含了5个字符，分别为w0、w1、w2、w3、w4，基于文本处理模型的输出结果，w0、w1、w2、w3、w4的字符类别分别为B-Person、I-Person、B-Organization、O、O、O，由此可知，在句子X中[w0、w1]是人名，[w3]是组织机构名称，其他都是“O”，即句子X中包括两个实体，分别为[w0、w1]、[w3]，其中，[w0、w1]的实体类别是人名，[w3]的实体类别是组织机构名称。

本申请实施例提供的文本的处理方法，使用添加随机特征向量的扰动样本文本对文本处理模型进行训练，提高了文本处理模型的稳定性，在存在干扰时，实体提取模型输出的字符类别的准确度高，进而提高了识别出的实体以及实体类别的准确度。

进一步的，参见图2所示，图2为本申请实施例提供的另一种文本的处理方法的流程图，所述获取所述文本处理模型输出的各个字符的字符类别，包括：

S201、基于所述待处理文本中的各个字符的字符特征向量，确定所述待处理文本中的各个字符归属于每个字符类别的概率。

该步骤中，文本处理模型是一个神经网络模型，对应有多层神经网络，多层神经网络中至少包括双向LSTM层、CRF层以及标签的嵌入层，其中，将待处理文本中的各个字符的字符特征向量输入至双向LSTM层，获取双向LSTM层输出的各个字符归属于每个字符类别的概率，双向LSTM层用于初步判断每个字符归属于每个字符类别的概率。

举例来讲，将句子X中各个字符的字符向量输入到双向LSTM层中，双向LSTM层输出每个字符归属于每个字符类别的概率，其中，字符w0归属于每个字符类别的概率分别为：1.5(B-Person)、0.9(I-Person)、0.1(B-Organization)、0.08(I-Organization)、0.05(O)。

S202、基于每个字符在所述待处理文本中的位置，该字符归属于每个字符类别的概率，以及与该字符相邻的其他字符归属于每个字符类别的概率，更新该字符归属于每个字符类别的概率。

该步骤中，将待处理文本中的各个字符归属于每个字符类别的概率，输入至CRF层中，获取CRF层输出的待处理文本中的各个字符归属于每个字符类别的更新后的概率。其中，CRF层中预设有多种约束条件，用于对各个字符归属于每个字符类别的概率进行调整，提高概率的准确度。

举例来讲，CRF层中预设有多种约束条件包括：(1)句子的开头应该是“B-”或“O”，而不是“I-”；(2)在“B-label1、I-label2、I-label3、……”的模式中，label1、label2、label3应该是同一种字符类别，比如，“B-Person、I-Person”是正确的，而“B-Person、I-Organization”则是错误的；(3)“O、I-label”是错误的，命名实体的开头应该是“B-”而不是“I-”。若待处理文本中的各个字符归属于每个字符类别的概率符合上述多种约束条件，则不对概率进行调整，若待处理文本中的各个字符归属于每个字符类别的概率不符合上述任意一种约束条件，则对概率进行调整，以使调整后的概率符合上述多种约束条件。

S203、基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率，确定所述待处理文本中各个字符的字符类别。

作为一种实施方式，将待处理文本中各个字符归属于每个字符类别的更新后的概率，输入至标签的嵌入层，获取标签的嵌入层输出的各个字符的字符类别。其中，标签的嵌入层基于维特比算法确定各个字符的字符类别。

作为另一种实施方式，针对每个字符，基于该字符归属于每个字符类别的更新后的概率，将最大概率对应的字符类别确定为该字符的字符类别。

进一步的，参见图3所示，图3为本申请实施例提供的一种文本的处理方法的流程图，通过如下方式对所述文本处理模型进行训练：

S301、针对每个扰动样本文本，将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中，获取所述文本处理模型输出的各个字符的预测字符类别。

该步骤中，扰动样本文本是任意的一个文本，可以来自不同的领域，比如，新闻、生物医学、房地产等领域，也可以是不同语言的文本，比如，英语、荷兰语等，这里并不对扰动样本文本的类别进行限定。使用对抗训练(adversarial training，AT)的方式对文本处理模型进行训练时，使用的训练样本为扰动样本文本，其中，扰动样本文本中每个字符对应有扰动特征向量，具体的，通过如下方式确定每个字符的扰动特征向量：

对扰动样本文本包括的字符进行拆分处理，得到扰动样本文本中包括的各个字符，并将每个字符输入至预先训练好的语义特征提取模型中，获取语义特征提取模型输出的每个字符的字符特征向量，针对每个字符，随机生成该字符对应的随机特征向量，这里，字符特征向量与随机特征向量的维度相同，将字符特征向量与随机特征向量的加和，确定为该字符的扰动特征向量。

使用对抗训练(adversarial training，AT)的方式，能够提高文本处理模型的鲁棒性和泛化性，进而提高文本处理模型的准确度。

在获取多个扰动样本文本后，将每个扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中，这里，文本处理模型为初始模型，或者，未训练完成的模型，获取文本处理模型输出的各个字符的预测字符类别，这里的预测字符类别可能是准确的字符类别，也可能是不准确的字符类别，需要进一步检验。

S302、根据该扰动样本文本中每个字符的预测字符类别，以及该字符的真实字符类别，确定该扰动样本文本对应的损失值。

该步骤中，针对每个扰动样本文本，预先标记该扰动样本文本中每个字符的真实字符类别，并根据该扰动样本文本中每个字符分别对应的预测字符类别和真实字符类别，确定该扰动样本文本对应的损失值。这里，若预测字符类别和真实字符类别相一致的字符的数量较多，则损失值较小。

S303、若各个扰动样本文本对应的损失值均小于预设阈值，则将所述文本处理模型确定为预先训练好的文本处理模型，否则继续对所述文本处理模型进行训练。

该步骤中，将每个扰动样本文本对应的损失值与预设阈值进行比较，如果各个扰动样本文本对应的损失值均小于预设阈值，说明当前的文本处理模型的准确度是符合要求的，将当前的文本处理模型确定为预先训练好的文本处理模型，如果存在任意一个扰动样本文本对应的损失值均大于等于预设阈值，则说明当前的文本处理模型的准确度并不符合要求，需要继续对文本处理模型进行训练，以提高文本处理模型的准确度。

其中，上述预设阈值可以根据用户的实际需求进行设置，如果用户对文本处理模型的准确度要求较高，则减小预设阈值，如果用户对训练文本处理模型的效率要求较高，则增大预设阈值。

基于同一发明构思，本申请实施例中还提供了与文本的处理方法对应的文本的处理装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本的处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图4所示，图4为本申请一实施例提供的一种文本的处理装置的结构示意图，所述装置包括：

第一获取模块401，用于获取待处理文本中各个字符的字符特征向量；

第二获取模块402，用于将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中，获取所述文本处理模型输出的各个字符的字符类别；其中，所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的；

提取模块403，用于基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别。

在一种可能的实施方式中，所述第二获取模块402，在获取所述文本处理模型输出的各个字符的字符类别时，包括：

在一种可能的实施方式中，所述文本的处理装置还包括：

本申请实施例提供的文本的处理装置，使用添加随机特征向量的扰动样本文本对文本处理模型进行训练，提高了文本处理模型的稳定性，在存在干扰时，实体提取模型输出的字符类别的准确度高，进而提高了识别出的实体以及实体类别的准确度。

参见图5所示，图5为本申请实施例提供的一种电子设备的结构示意图，该电子设备500包括：处理器501、存储器502和总线503，所述存储器502存储有所述处理器501可执行的机器可读指令，当电子设备运行时，所述处理器501与所述存储器502之间通过总线503通信，所述处理器501执行所述机器可读指令，以执行如上述文本的处理方法的步骤。

具体地，上述存储器502和处理器501能够为通用的存储器和处理器，这里不做具体限定，当处理器501运行存储器502存储的计算机程序时，能够执行上述文本的处理方法。

对应于上述文本的处理方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述文本的处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本的处理方法，其特征在于，所述处理方法包括：

获取待处理文本中各个字符的字符特征向量；

基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别；

通过如下方式获取每个扰动样本文本中各个字符的扰动特征向量：

根据每个扰动样本文本中每个字符的字符特征向量，以及该字符对应的随机生成的随机特征向量，确定该字符的扰动特征向量；其中，所述字符特征向量与所述随机特征向量的维度相同，将每个字符的字符特征向量与该字符的随机特征向量的加和，确定为该字符的扰动特征向量。

2.根据权利要求1所述的文本的处理方法，其特征在于，所述获取所述文本处理模型输出的各个字符的字符类别，包括：

3.根据权利要求1所述的文本的处理方法，其特征在于，通过如下方式对所述文本处理模型进行训练：

4.一种文本的处理装置，其特征在于，所述处理装置包括：

提取模块，用于基于所述待处理文本中各个字符的字符类别，从所述待处理文本中提取多个实体，并确定各个实体的实体类别；

所述处理装置还包括：

第三确定模块，用于根据每个扰动样本文本中每个字符的字符特征向量，以及该字符对应的随机生成的随机特征向量，确定该字符的扰动特征向量；其中，所述字符特征向量与所述随机特征向量的维度相同，将每个字符的字符特征向量与该字符的随机特征向量的加和，确定为该字符的扰动特征向量。

5.根据权利要求4所述的文本的处理装置，其特征在于，所述第二获取模块，在获取所述文本处理模型输出的各个字符的字符类别时，包括：

6.根据权利要求4所述的文本的处理装置，其特征在于，所述处理装置还包括：

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至3任一项所述的文本的处理方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至3任一项所述的文本的处理方法的步骤。