CN112528677B

CN112528677B - 一种语义向量提取模型的训练方法、装置及电子设备

Info

Publication number: CN112528677B
Application number: CN202011534559.4A
Authority: CN
Inventors: 杨茵淇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-03-11
Anticipated expiration: 2040-12-22
Also published as: CN112528677A

Abstract

本公开公开了一种语义向量提取模型的训练方法、装置及电子设备，涉及人工智能领域，尤其涉及深度学习以及自然语言处理技术领域。具体实现方法为：获取预训练文本，基于所述预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络；获取敏感文本样本，并将所述敏感文本样本输入所述预语义表达识别网络中进行识别，获取所述敏感文本样本的语义向量；将所述语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整所述预语义表达提取网络和所述语义匹配网络，以生成语义向量提取模型，避免了语义向量提取模型在小样本数据训练时易发生的过拟合问题，提高了语义向量提取模型训练过程中的效率和可靠性。

Description

一种语义向量提取模型的训练方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及深度学习以及自然语言学习技术领域。

背景技术

伴随着深度学习(Deep Learning，简称DL)领域相关技术的兴起，将训练好的语义向量提取模型应用于多种不同的应用场景中，均能过起到较好的效果。特别地，针对文本敏感信息审核应用场景，性能良好的语义向量提取模型能够促进和谐信息的传播、净化互联网环境。

然而，相关技术中的语义向量提取模型的训练方法，由于敏感文本的样本数据规模极小，势必会因极易产生过拟合(Overfitting)现象导致语义向量提取模型的训练效果极低。因此，如何提高语义向量提取模型的训练过程中的效率和可靠性，已成为了重要的研究方向之一。

发明内容

本公开提供了一种语义向量提取模型的训练方法、装置及电子设备。

根据本公开的一方面，提供了一种语义向量提取模型的训练方法，包括：

获取预训练文本，基于所述预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络；

获取敏感文本样本，并将所述敏感文本样本输入所述预语义表达识别网络中进行识别，获取所述敏感文本样本的语义向量；

将所述语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整所述预语义表达提取网络和所述语义匹配网络，以生成语义向量提取模型，其中，所述语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络。

根据本公开的另一方面，提供了另一种语义向量提取模型的训练方法，适用于如本公开第一方面所训练出的语义向量提取模型，包括：

获取待识别文本；

将所述待识别文本输入所述语义向量提取模型中进行识别，以获取所述待识别文本的第一语义向量；

基于所述第一语义向量和所述语义向量提取模型的敏感文本样本的第二语义向量，确定所述待识别文本的类型标签，其中，所述类型标签为敏感标签或者非敏感标签。

根据本公开的另一方面，提供了一种语义向量提取模型的训练装置，包括：

第一训练模块，用于获取预训练文本，基于所述预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络；

获取模块，用于获取敏感文本样本，并将所述敏感文本样本输入所述预语义表达识别网络中进行识别，获取所述敏感文本样本的语义向量；

第二训练模块，用于将所述语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整所述预语义表达提取网络和所述语义匹配网络，以生成语义向量提取模型，其中，所述语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络。

根据本公开的另一方面，提供了另一种语义向量提取模型的训练装置，适用于如本公开第一方面所训练出的语义向量提取模型，包括：

文本获取模块，用于获取待识别文本；

语义向量获取模块，用于将所述待识别文本输入所述语义向量提取模型中进行识别，以获取所述待识别文本的第一语义向量；

类型确定模块，用于基于所述第一语义向量和所述语义向量提取模型的敏感文本样本的第二语义向量，确定所述待识别文本的类型标签，其中，所述类型标签为敏感标签或者非敏感标签。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的语义向量提取模型的训练方法或本公开第二方面所述的敏感文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的语义向量提取模型的训练方法或本公开第二方面所述的敏感文本识别方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现本公开第一方面所述的语义向量提取模型的训练方法或本公开第二方面所述的敏感文本识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是一种基于pointwise的匹配数据格式进行处理的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是一种基于pairwise的匹配数据格式进行处理的示意图；

图9是一种基于pointwise或pairwise的匹配数据格式进行处理的示意图；

图10是根据本公开第七实施例的示意图；

图11是一种敏感文本识别的整体流程的示意图；

图12是用来实现本公开实施例的语义向量提取模型的训练方法的语义向量提取模型的训练装置的框图；

图13是用来实现本公开实施例的语义向量提取模型的训练方法的语义向量提取模型的训练装置的框图；

图14是用来实现本公开实施例的语义向量提取模型的训练方法的语义向量提取模型的训练装置的框图；

图15是用来实现本公开实施例的语义向量提取模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本公开的方案涉及的技术领域进行简要说明：

数据处理(Data Processing)，是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。

AI(Artificial Intelligence，人工智能)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

DL(Deep Learning，深度学习)，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

NLP(Natural Language Processing，自然语言处理)，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

下面参考附图描述本公开实施例的语义向量提取模型的训练方法、装置及电子设备。

图1是根据本公开第一实施例的示意图。其中，需要说明的是，本公开实施例的语义向量提取模型的训练方法的执行主体为语义向量提取模型的训练装置，语义向量提取模型的训练装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。如图1所示，本实施例提出的语义向量提取模型的训练方法，包括如下步骤：

S101、获取预训练文本，基于预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络。

需要说明的是，本公开中对于基于预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络的具体方式不作限定，可以根据实际情况进行选取。

作为一种可能的实现方式，可以利用先验知识，通过基于大规模的预训练文本构建多个预训练任务，对语义表达提取网络进行训练，以生成预语义表达提取网络。

其中，预训练文本，可以为预先获取的大规模数据。

其中，预语义表达提取网络，可以为ERINE(Enhanced Language Representationwith Informative Entities)、BERT(Bidirectional Encoder Representations fromTransformers)等大型且具有优秀的特征提取能力的网络，以通过不断学习语料中不同方面的任务与知识，从中获取词法、句法、语义等多个维度的信息，进而加强预语义表达提取网络的语义表示能力和效果。

需要说明的是，在试图预先获取预训练文本时，无需限制文本所属的领域，即言，可以获取任意领域的文本数据，作为预训练文本。例如，针对敏感文本审核应用场景，可以将敏感文本审核领域内，以及医疗领域、教育领域等领域的大规模的无标注文本数据，作为预训练文本。

S102、获取敏感文本样本，并将敏感文本样本输入预语义表达识别网络中进行识别，获取敏感文本样本的语义向量。

其中，敏感文本样本，可以为小样本数据。

需要说明的是，本公开中对于将敏感文本样本输入预语义表达识别网络中进行识别，获取敏感文本样本的语义向量的具体方式不作限定，可以根据实际情况进行选取。

作为一种可能的实现方式，可以将敏感文本样本视作图像像素，语义特征视作像素灰度，语义特征可采用多种方法进行计算，例如Word2Vec(word to vector)方法、ESA(Explicit semantic analysis)特征、LSA(Latent semantic analysis)特征、共现词频率特征等。进一步地，可以基于预语义表达识别网络，构建敏感文本样本词与语义空间的映射，以获取敏感文本样本的语义向量。

S103、将语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整预语义表达提取网络和语义匹配网络，以生成语义向量提取模型，其中，语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络。

需要说明的是，相关技术中，针对小样本敏感文本信息审核，通常基于小样本学习，采用在小样本学习领域中普遍采用元学习的方法，以对语义向量提取模型进行训练。

其中，元学习中的小样本学习过程可以划分为以下两个阶段：元训练阶段和元测试阶段。针对元训练阶段，可以在大量数据上进行训练以学习先验知识，以适应目标类别中小样本学习的情况，需模拟数据不足的场景，即采用episode(增强学习Agent执行某个策略时从开始到结束的过程)的训练方式，需对大量的数据集进行数据抽取组成多对支撑集(Support Set)和查询集(Query Set)，查询集样本的类别属于支撑集，由此使得模型在预训练阶段可学习到与任务无关的重要特征，并进行样本相似性比较，以实现面对新任务时在较少的样本上也能较好地进行分类。针对元测试阶段，将在全新类别的小样本数据上利用支撑集进行查询集样本的类别预测。

然而，相关语义向量提取模型的训练方法存在效率极低、泛化性能极差的问题。

其中，在训练和预测时需有支撑集和测试集，即每次训练和预测时都需要精心构造输入的数据，而且在元训练和元测试阶段需保持相同的模式，这样会大大降低效率。例如，在基于度量学习的方法中，在预测时，若要预测一个样本的具体类别，则需加入所有n个类别的已知类别样本，与这一个待预测类别进行相似性比较，才可得出一个样本的类别。而因为训练时应与预测时保持一致，所以在训练阶段也需加入其他类别的样本来陪跑，由此可见现有技术执行效率较为低下。

其中，小样本学习模型的表现往往取决于元训练阶段的输入数据，因此元学习的训练模式难以保证在跨领域数据情况下的表现。而现实中的数据往往是千变万化的，非固定在一个领域的，因此现有方案因其领域泛化性的缺点。特别地，无法很好地适应实际应用中小样本文本敏感信息审核应用场景的需求。

由此，本公开中，将度量学习的方式引入文本敏感信息审核的训练中，将分类任务转变为匹配任务，将语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整预语义表达提取网络和语义匹配网络，以生成语义向量提取模型。

根据本公开实施例的语义向量提取模型的训练方法，可以通过获取预训练文本，基于预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络，并获取敏感文本样本，并将敏感文本样本输入预语义表达识别网络中进行识别，获取敏感文本样本的语义向量，进而将语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整预语义表达提取网络和语义匹配网络，以生成语义向量提取模型，使得能够通过对基于大规模数据生成的预语义表达提取网络进行微调，获取可以有效地对小样本敏感文本信息进行学习的语义向量提取模型，避免了语义向量提取模型在小样本数据训练时易发生的过拟合问题，提高了语义向量提取模型训练过程中的效率和可靠性。

需要说明的是，本公开中，在试图基于预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络时，可以通过构建多个预训练任务的方式生成预语义表达提取网络。

作为一种可能的实现方式，如图2所示，在上述实施例的基础上，具体包括以下步骤：

S201、获取多个预训练任务。

其中，预训练任务，可以包括但不限于以下任务：语序关系任务、语义距离任务、逻辑推理任务等。

S202、基于预训练任务，对预训练文本进行预处理，以获取预训练任务对应的预训练样本。

需要说明的是，本公开中对于基于预训练任务，对预训练文本进行预处理的具体方式不作限定，可以根据实际情况进行选取。

下面以预训练任务包括语序关系任务、语义距离任务和逻辑推理任务为例，针对对预训练文本进行预处理的过程进行解释说明。

针对语序关系任务，可以将高中语文考试、普通话等级考试等考试中出现频率较高的句子作为例句，并将例句乱序处理后，基于将乱序句子排出正确顺序的任务，以使得预语义表达提取网络可以学会句子的内在联系。

针对语义距离任务，可以利用先验知识对语义距离进行定义，例如，可以定义文章中距离较近的句子为语义相近，定义距离较远的句子、甚至不在同一篇文章中的句子为语义无关，基于获取语义距离的任务，以使得预语义表达提取网络可以学会句子的语义关系。

针对逻辑推理任务，可以通过判断句对间的措辞关系，例如，“因为…所以…”、“如果…就…”等，从大量的句子中学习语句之间的因果关系、假设关系、递进关系和转折关系等，基于确定逻辑关系的逻辑推理任务，以增强预语义表达提取网络的语义表达能力。

S203、根据每个预训练任务对应的预训练样本，对语义表达提取网络进行训练，以生成预语义表达提取网络。

需要说明的是，本公开中对于基于预训练任务，对根据每个预训练任务对应的预训练样本，对语义表达提取网络进行训练，以生成预语义表达提取网络的具体方式不作限定，可以根据实际情况进行选取。

作为一种可能的实现方式，可以基于每个预训练任务对应的预训练样本，将预训练样本输入待训练的预语义表达提取网络中进行训练，以生成训练好的预语义表达提取网络。

可选地，可以获取每个预训练任务对应的预训练样本的学习结果，并获取预训练样本的学习结果与预训练样本的标准结果的差异，然后根据差异调整预语义表达提取网络中的参数，直至差异符合预设的训练结束条件，将最后一次调整参数后的网络确定为预语义表达提取网络。

S204、获取敏感文本样本，并将敏感文本样本输入预语义表达识别网络中进行识别，获取敏感文本样本的语义向量。

S205、将语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整预语义表达提取网络和语义匹配网络，以生成语义向量提取模型，其中，语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络。

该步骤S204～S205与步骤S102～S103相同，此处不再赘述。

根据本公开实施例的语义向量提取模型的训练方法，可以通过获取多个预训练任务，并基于预训练任务，对预训练文本进行预处理，以获取预训练任务对应的预训练样本，进而根据每个预训练任务对应的预训练样本，对语义表达提取网络进行训练，以得到基于大规模数据生成的预语义表达提取网络，进一步提高了语义向量提取模型训练过程中的效率和可靠性。

进一步地，可以在将敏感文本样本输入预语义表达提取网络中进行识别，并对敏感文本样本进行组合处理，生成满足数据匹配任务要求的样本组，将每个样本组输入到预语义表达提取网络中进行识别。

本公开实施例中，可以通过多种方式将分类数据处理为匹配数据格式，可选地，可以处理为pointwise的匹配数据格式；可选地，可以处理为pairwise的匹配数据格式。

其中，针对pointwise的匹配数据格式，对应的数据共有3个字段，分别为：两个文本以及对应的标签。可选地，若标签为1，则说明输入的两个文本属于同一个类别，若标签为0，则说明输入的两个文本非同一类别。

其中，针对pairwise的匹配数据格式，对应的数据共有3个字段，前两个文本为属于同一类别的文本，第三个文本为其他类别的文本。

下面分别针对为pointwise和pairwise的匹配数据格式进行解释说明。

针对pointwise的匹配数据格式，作为一种可能的实现方式，如图3所示，在上述实施例的基础上，具体包括以下步骤：

S301、以任意两个敏感文本样本形成一个组合。

举例而言，可以将敏感文本样本1与敏感文本样本2形成一个组合。

S302、获取任意两个敏感文本样本所标记的类型。

其中，所标记的类型，可以包括敏感和非敏感。

举例而言，可以获取敏感文本样本1与敏感文本样本2所标记的类型均为敏感。

S303、基于任意两个敏感文本样本所标记的类型，确定组合的标签，以组合和组合的标签，生成一个样本组。

作为一种可能的实现方式，如图4所示，在上述实施例的基础上，上述步骤S303中基于任意两个敏感文本样本所标记的类型，确定组合的标签的具体过程，包括以下步骤：

S401、响应于任意两个敏感文本样本所标记的类型相同，则确定组合的标签为同类标签。

举例而言，若敏感文本样本1与敏感文本样本2所标记的类型均为敏感，此种情况下，则可以确定组合的标签为同类标签。

S402、响应于任意两个敏感文本样本所标记的类型不同，则确定组合的标签为非同类标签。

举例而言，若敏感文本样本1与敏感文本样本2所标记的类型分别为敏感和正常，此种情况下，则可以确定组合的标签为非同类标签。

进一步地，为了对预语义表达提取网络和语义匹配网络进行调整，可以获取损失值(Loss)。

作为一种可能的实现方式，在语义匹配网络的训练过程中，获取组合中任意两个敏感文本样本的语义向量之间的第一相似度，基于第一相似度，获取损失值。

综上所述，如图5所示，针对pointwise的匹配数据格式，可以将待判定的pointwise的匹配数据格式的敏感文本样本1和敏感文本样本2输入对应的pointwise的语义匹配网络中，得到对应的文本表示(Word Embedding)，然后将文本表示输入给下游的神经网络中，可选地，可以是简单的前馈神经网络，也可以采用长短期记忆网络(Long Short-Term Memory，简称LSTM)、门控循环单元(Gated Recurrent Unit，简称GRU)等循环神经网络。进一步地，可以将提取好的敏感文本样本1和敏感文本样本2的特征，通过余弦相似度等相似度计算方式，将对应的余弦结果映射到0-1值域中，与标签计算取损失值进行反向传播，对网络参数进行更新。

针对pairwise的匹配数据格式，作为一种可能的实现方式，如图6所示，在上述实施例的基础上，具体包括以下步骤：

S601、获取两个第一敏感文本样本和一个第二敏感文本样本，其中，两个第一敏感文本样本所标记的类型相同，且与第二敏感文本样本所标记的类型不同。

举例而言，可以获取两个第一敏感文本样本，分别为：敏感文本样本1与敏感文本样本2，和一个第二敏感文本样本，为：敏感文本样本3。

S602、以两个第一敏感文本样本和一个第二敏感文本样本生成一个样本组。

进一步地，为了对预语义表达提取网络和语义匹配网络进行调整，可以获取损失值。

作为一种可能的实现方式，如图7所示，在上述实施例的基础上，获取损失值的具体过程，包括以下步骤：

S701、在语义匹配网络的训练过程中，获取两个第一敏感文本样的语义向量之间的第二相似度。

S702、分别获取每个第一敏感文本样的语义向量与第二敏感文本样的语义向量之间的第三相似度。

S703、基于第二相似度和第三相似度，获取损失值。

需要说明的是，本公开中对于基于第二相似度和第三相似度，获取损失值的具体方式不作限定，可以根据实际情况进行选取。可选年底，可以将第二相似度与第三相似度相减，进而基于合页损失(Hinge Loss)函数获取损失值。

综上所述，如图8所示，针对pairwise的匹配数据格式，可以，分别将三个文本输入到预训练模型中得到对应的语义表示，然后将得到的文本标识输入给下游的网络中，然后对两个属于同一类别的样本和两个不属于同一类别的样本分别做余弦计算。进一步地，可以将前述计算值相减，基于合页损失函数获取损失值，进而根据损失值进行反向传播。

需要说明的是，如图9所示，在实际应用中，可以根据具体业务需要，选择构造Pointwise或Pairwise格式的匹配数据，将匹配数据输入对应的匹配网络中。

根据本公开实施例的语义向量提取模型的训练方法，可以获取到只需训练一次便可反复使用的语义向量提取模型，并在有新的不同领域的小样本文本敏感信息数据待判定时，仅需要对语义向量提取模型进行微调(Fine-tune)即可，无需舍弃掉原有模型从新开始训练。同时，凭借语义向量提取模型强大的语义理解能力，即使在小样本的情况下也可达到较好的学习效果，效率极高。进一步地，因语义向量提取模型是基于大规模的预训练文本进行训练的，具有较好的泛化性，可适用于各种领域。

图10是根据本公开第七实施例的示意图。如图9所示，本公开提出了一种敏感文本识别方法，具体包括如下步骤：

S1001、获取待识别文本。

本公开实施例中，可以对待识别文本是否为敏感信息进行识别，从而实现文本敏感信息的审核、屏蔽等。

需要说明的是，本公开中对于获取待识别文本的具体方式不作限定，可以根据实际情况进行选取。例如，可以将任一网页显示的部分文字作为待识别文本；又例如，可以针对任一显示有文字的图片，基于光学字符识别(Optical Character Recognition，简称OCR)技术，获取对应的文字，作为待识别文本。

S1002、将待识别文本输入语义向量提取模型中进行识别，以获取待识别文本的第一语义向量。

本公开实施例中，将待识别文本输入预先训练好的语义向量提取模型中进行识别，可以得到对应的文本表示，即下游网络提取的特征，从而实现待识别文本的第一语义向量的获取。

S1003、基于第一语义向量和语义向量提取模型的敏感文本样本的第二语义向量，确定待识别文本的类型标签，其中，类型标签为敏感标签或者非敏感标签。

需要说明的是，本公开中对于基于第一语义向量和语义向量提取模型的敏感文本样本的第二语义向量，确定待识别文本的类型标签的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以基于K最近邻(k-Nearest Neighbors，简称KNN)投票机制，将待识别文本与训练集各样本计算相似度，取前K个相似度最高的训练数据类别标签进行投票，并采取少数服从多数等原则确定待识别文本的类型标签。

可选地，可以基于类平均机制将训练集同类别数据计算类平均表示作为该类的表示，将待识别文本与训练集各类别的类平均表示计算相似度，并选取相似度最高的训练数据类别作为待识别文本的类别标签。

根据本公开实施例的敏感文本识别方法，可以通过获取待识别文本，并将待识别文本输入语义向量提取模型中进行识别，以获取待识别文本的第一语义向量，进而基于第一语义向量和语义向量提取模型的敏感文本样本的第二语义向量，确定待识别文本的类型标签，提高了敏感文本识别过程中的效率、准确性和可靠性。进一步地，不再受限于待识别文本所属的领域，针对各种领域均可实现准确地敏感文本识别。

需要说明的是，本公开提出的敏感文本识别方法，可以应用于多种场景中。

针对关于文章、视频等内容进行敏感文本审核的应用场景，如图11所示，可以基于深度学习以及自然语言处理技术，将用户发表的评论作为待识别文本输入训练好的语义向量提取模型中进行识别，以获取评论的第一语义向量，进而基于第一语义向量和语义向量提取模型的敏感文本样本的第二语义向量，确定评论的类型标签。进一步地，若评论的类型标签为敏感，则可以通过预先设置的方式对该用户进行警示，确保了敏感文本识别的准确性，有利于更加有效地维护企业形象、互联网的使用体验、未成年人成长环境和社会风气。

与上述几种实施例提供的语义向量提取模型的训练方法相对应，本公开的一个实施例还提供一种语义向量提取模型的训练装置，由于本公开实施例提供的语义向量提取模型的训练装置与上述几种实施例提供的语义向量提取模型的训练方法相对应，因此在语义向量提取模型的训练方法的实施方式也适用于本实施例提供的语义向量提取模型的训练装置，在本实施例中不再详细描述。

图12是根据本公开一个实施例的语义向量提取模型的训练装置的结构示意图。

如图12所示，该语义向量提取模型的训练装置700，包括：第一训练模块1210、获取模块1220和第二训练模块1230。其中：

第一训练模块1210，用于获取预训练文本，基于所述预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络；

获取模块1220，用于获取敏感文本样本，并将所述敏感文本样本输入所述预语义表达识别网络中进行识别，获取所述敏感文本样本的语义向量；

第二训练模块1230，用于将所述语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整所述预语义表达提取网络和所述语义匹配网络，以生成语义向量提取模型，其中，所述语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络。

图13是根据本公开另一个实施例的语义向量提取模型的训练装置的结构示意图。

如图13所示，该语义向量提取模型的训练装置1300，包括：第一训练模块1310、获取模块1320和第二训练模块1330。

其中，第一训练模块1310，包括：

第一获取单元1311，用于获取多个预训练任务；

第二获取单元1312，用于基于所述预训练任务，对所述预训练文本进行预处理，以获取所述预训练任务对应的预训练样本；

训练单元1313，用于根据每个所述预训练任务对应的预训练样本，对所述语义表达提取网络进行训练，以生成所述预语义表达提取网络。

其中，获取模块1320，还用于：

对所述敏感文本样本进行组合处理，生成满足数据匹配任务要求的样本组，将每个所述样本组输入到所述预语义表达提取网络中进行识别。

其中，获取模块1320，还用于：

以任意两个所述敏感文本样本形成一个组合；

获取所述任意两个所述敏感文本样本所标记的类型；

基于所述任意两个所述敏感文本样本所标记的类型，确定所述组合的标签，以所述组合和所述组合的标签，生成一个所述样本组。

其中，获取模块1320，还用于：

响应于所述任意两个所述敏感文本样本所标记的类型相同，则确定所述组合的标签为同类标签；

响应于所述任意两个所述敏感文本样本所标记的类型不同，则确定所述组合的标签为非同类标签。

其中，获取模块1320，还用于：

获取两个第一敏感文本样本和一个第二敏感文本样本，其中，所述两个第一敏感文本样本所标记的类型相同，且与所述第二敏感文本样本所标记的类型不同；

以所述两个第一敏感文本样本和一个第二敏感文本样本生成一个所述样本组。

其中，第二训练模块1330，还用于：

在所述语义匹配网络的训练过程中，获取所述组合中所述任意两个所述敏感文本样本的语义向量之间的第一相似度，基于所述第一相似度，获取所述损失值。

其中，第二训练模块1330，还用于：

在所述语义匹配网络的训练过程中，获取两个所述第一敏感文本样的语义向量之间的第二相似度；

分别获取每个所述第一敏感文本样的语义向量与所述第二敏感文本样的语义向量之间的第三相似度；

基于所述第二相似度和所述第三相似度，获取所述损失值。

根据本公开实施例的语义向量提取模型的训练装置，能够通过对基于大规模数据生成的预语义表达提取网络进行微调，获取可以有效地对小样本敏感文本信息进行学习的语义向量提取模型，避免了语义向量提取模型在小样本数据训练时易发生的过拟合问题，提高了语义向量提取模型训练过程中的效率和可靠性。

图14是根据本公开一个实施例的敏感文本识别装置的结构示意图。

如图14所示，该敏感文本识别装置1400，包括：文本获取模块1410、语义向量获取模块1420和类型确定模块1430。其中：

文本获取模块1410，用于获取待识别文本；

语义向量获取模块1420，用于将所述待识别文本输入所述语义向量提取模型中进行识别，以获取所述待识别文本的第一语义向量；

类型确定模块1430，用于基于所述第一语义向量和所述语义向量提取模型的敏感文本样本的第二语义向量，确定所述待识别文本的类型标签，其中，所述类型标签为敏感标签或者非敏感标签。

根据本公开实施例的敏感文本识别装置，可以通过获取待识别文本，并将待识别文本输入语义向量提取模型中进行识别，以获取待识别文本的第一语义向量，进而基于第一语义向量和语义向量提取模型的敏感文本样本的第二语义向量，确定待识别文本的类型标签，提高了敏感文本识别过程中的效率、准确性和可靠性。进一步地，不再受限于待识别文本所属的领域，针对各种领域均可实现准确地敏感文本识别。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备15900操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如语义向量提取模型的训练方法或敏感文本识别方法。例如，在一些实施例中，语义向量提取模型的训练方法或敏感文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的语义向量提取模型的训练方法或敏感文本识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语义向量提取模型的训练方法或敏感文本识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网以及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本申请还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上所述的语义向量提取模型的训练方法或敏感文本识别方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义向量提取模型的训练方法，包括：

获取敏感文本样本，并将所述敏感文本样本输入所述预语义表达提取网络中进行识别，获取所述敏感文本样本的语义向量；

将所述语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整所述预语义表达提取网络和所述语义匹配网络，以生成语义向量提取模型，其中，所述语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络；

所述将所述敏感文本样本输入预语义表达提取网络中进行识别，还包括：

对所述敏感文本样本进行组合处理，生成满足数据匹配任务要求的样本组，将每个所述样本组输入到所述预语义表达提取网络中进行识别；

所述对所述敏感文本样本进行组合处理，生成满足数据匹配任务要求的样本组，包括：

以任意两个所述敏感文本样本形成一个组合；

获取所述任意两个所述敏感文本样本所标记的类型；

2.根据权利要求1所述的语义向量提取模型的训练方法，其中，所述基于所述预训练文本，对语义表达提取网络进行训练，以生成预语义表达提取网络，包括：

获取多个预训练任务；

基于所述预训练任务，对所述预训练文本进行预处理，以获取所述预训练任务对应的预训练样本；

根据每个所述预训练任务对应的预训练样本，对所述语义表达提取网络进行训练，以生成所述预语义表达提取网络。

3.根据权利要求1所述的语义向量提取模型的训练方法，其中，所述基于所述任意两个所述敏感文本样本所标记的类型，确定所述组合的标签，包括：

4.根据权利要求1所述的语义向量提取模型的训练方法，其中，所述对所述敏感文本样本进行组合处理，生成满足数据匹配任务要求的样本组，包括：

5.根据权利要求1所述的语义向量提取模型的训练方法，其中，还包括：

6.根据权利要求4所述的语义向量提取模型的训练方法，其中，还包括：

在所述语义匹配网络的训练过程中，获取两个所述第一敏感文本样本的语义向量之间的第二相似度；

分别获取每个所述第一敏感文本样本的语义向量与所述第二敏感文本样本的语义向量之间的第三相似度；

基于所述第二相似度和所述第三相似度，获取所述损失值。

7.一种敏感文本识别方法，适用于如权利要求1-6任一项所述的语义向量提取模型的训练方法所训练出的语义向量提取模型，所述方法包括：

获取待识别文本；

8.一种语义向量提取模型的训练装置，包括：

获取模块，用于获取敏感文本样本，并将所述敏感文本样本输入所述预语义表达提取网络中进行识别，获取所述敏感文本样本的语义向量；

第二训练模块，用于将所述语义向量输入语义匹配网络进行训练，并基于每次训练的损失值，调整所述预语义表达提取网络和所述语义匹配网络，以生成语义向量提取模型，其中，所述语义向量提取模型包括训练结束时生成的目标语义表达提取网络和目标语义匹配网络；

所述获取模块，还用于：

以任意两个所述敏感文本样本形成一个组合；

获取所述任意两个所述敏感文本样本所标记的类型；

9.根据权利要求8所述的语义向量提取模型的训练装置，其中，所述第一训练模块，包括：

第一获取单元，用于获取多个预训练任务；

第二获取单元，用于基于所述预训练任务，对所述预训练文本进行预处理，以获取所述预训练任务对应的预训练样本；

训练单元，用于根据每个所述预训练任务对应的预训练样本，对所述语义表达提取网络进行训练，以生成所述预语义表达提取网络。

10.根据权利要求8所述的语义向量提取模型的训练装置，其中，所述获取模块，还用于：

11.根据权利要求8所述的语义向量提取模型的训练装置，其中，所述获取模块，还用于：

12.根据权利要求8所述的语义向量提取模型的训练装置，其中，所述第二训练模块，还用于：

13.根据权利要求11所述的语义向量提取模型的训练装置，其中，所述第二训练模块，还用于：

基于所述第二相似度和所述第三相似度，获取所述损失值。

14.一种敏感文本识别装置，采用如权利要求1-6任一项所述的语义向量提取模型的训练方法所训练出的语义向量提取模型，所述敏感文本识别装置包括：

文本获取模块，用于获取待识别文本；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语义向量提取模型的训练方法，或者执行权利要求7所述的敏感文本识别方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的语义向量提取模型的训练方法，或者执行权利要求7所述的敏感文本识别方法。