CN113761868A

CN113761868A - 文本处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN113761868A
Application number: CN202110425703.9A
Authority: CN
Inventors: 杨威; 霍腾飞; 刘志强; 张金超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-12-07
Anticipated expiration: 2041-04-20
Also published as: CN113761868B

Abstract

本申请实施例提供了一种文本处理方法、装置、电子设备及可读存储介质，涉及人工智能领域，该方法包括：获取多个初始文本，基于多个初始文本，构建训练数据集；基于训练数据集对初始神经网络模型进行训练，直至模型的目标函数的值满足训练结束条件；将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。在本申请实施例中所构建的训练数据集为弱监督文本相似语料，可以无需人工标注标签数据，可以有效节约人力和时间成本。

Description

文本处理方法、装置、电子设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种文本处理方法、装置、电子设备及可读存储介质。

背景技术

随着自然语言处理技术的发展，预训练语言模型由于其有效性被广泛的应用在文本匹配、信息提取、智能问答等下游任务中。虽然目前已经存在一些方案通过预训练方式提高预训练模型的表达能力的方式，但是，目前的方式都需要大量标签数据来实现预训练任务，且现有的预训练任务和下游任务通常会存在较大差异，导致预训练的效果也不够理想，现有预训练的方式仍需改进。

发明内容

本申请提供一种文本处理方法、装置、电子设备及可读存储介质，基于该方法在进行文本特征提取模块的预训练时，可以无需进行人工标注，能够节约人力和时间成本。

一方面，本申请实施例提供了一种文本处理方法，该方法包括：

获取多个初始文本，基于多个初始文本，构建训练数据集，其中，训练数据集中的每个训练样本包括一个初始文本对应的第一个第一句子对和一个第二句子对，第一句子对的相似度大于第二句子对的相似度；

基于训练数据集对初始神经网络模型进行训练，直至初始神经网络模型的目标函数的值满足训练结束条件；其中，初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，初始神经网络模型的输入包括训练数据集中各句子对，输出为每个句子对的预测文本相似度，目标函数的值表征了各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异；

将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。

另一方面，本申请实施例提供了一种确定文本相似度的方法，该方法包括：

获取两个待处理文本；

将两个待处理文本输入至文本相似度判断模型，基于文本相似度判断模型的输出，得到两个待处理文本之间的文本相似度判断结果；

其中，文本相似度判断模型包括级联的文本特征提取模块和文本相似度预测模块，文本相似度判断模型是通过以下方式训练得到的：

对文本相似度判断模型的初始文本特征提取模块进行预训练，得到预训练后的文本特征提取模块，其中，预训练后的文本特征提取模块是采用文本处理方法中的任一项训练得到的；

对预训练后的文本特征提取模块和初始的文本相似度预测模块进行训练，得到文本相似度判断模型。

再一方面，本申请实施例提供了一种文本处理装置，该装置包括：

文本获取模块，用于获取多个初始文本，基于多个初始文本，构建训练数据集，其中，训练数据集中的每个训练样本包括一个初始文本对应的第一个第一句子对和一个第二句子对，第一句子对的相似度大于第二句子对的相似度；

模型训练模块，用于基于训练数据集对初始神经网络模型进行训练，直至初始神经网络模型的目标函数的值满足训练结束条件；其中，初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，初始神经网络模型的输入包括训练数据集中各句子对，输出为每个句子对的预测文本相似度，目标函数的值表征了各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异；

模型确定模块，用于将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。

又一方面，本申请实施例提供了一种确定文本相似度的装置，该装置包括：

文本获取模块，用于获取两个待处理文本；

相似度确定模块，用于将两个待处理文本输入至文本相似度判断模型，基于文本相似度判断模型的输出，得到两个待处理文本之间的文本相似度判断结果；

另一方面，本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器执行上述中确定文本相似度的方法或文本处理方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行上述中确定文本相似度的方法或文本处理方法。

本申请实施例提供的技术方案带来的有益效果是：

基于本申请实施例提供的方法，在对初始神经网络模型进行训练时，可以基于多个初始文本，从中确定出每个初始文本对应的第一句子对和第二句子，且第一句子对的相似度大于第二句子对的相似度，并将一个初始文本对应的第一句子对和第二句子作为一个训练样本对初始神经网络模型进行训练，采用此方案，可以无需人工标注语料，而是将具有不同相似度的两个句子对作为弱监督文本相似语料，并将各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异作为目标函数的值，采用该方式实现无标签的弱监督训练，可以有效节约人力和时间成本，此外，由于是采用具有不同相似度的句子对之间的相似度差异作为训练约束条件，因此，在后续采用该特征提取模块作为文本相似度判断模型的预训练的文本特征提取模块时，能够使预训练任务和下游任务更加适配，从而可以使得对文本相似度判断模型进行再训练时，可以有效减少训练数据的标注数量，提升文本相似度判断模型的再训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1a为本申请实施例提供的一种文本处理方法所适用的系统架构图；

图1b为本申请实施例提供的一种文本处理方法的流程示意图；

图2为本申请实施例提供的一种确定文本相似度的方法的流程示意图；

图3为本申请实施例提供的一种确定预训练的文本对特征提取模块的流程示意图；

图4为本申请实施例提供的一种确定目标函数的值的原理示意图；

图5为本申请实施例提供的一种文本处理装置的结构示意图；

图6为本申请实施例提供的一种确定文本相似度的装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请实施例所提供的方法涉及到人工智能(Artificial Intelligence,AI)技术，其中人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可选的，本申请实施例中所提供的方法具体涉及到人工智能技术中的自然语言处理和机器学习等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选的，本申请实施例中所涉及到的数据处理/计算可以基于云计算(cloudcomputing)的实现。其中，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as aService,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

可选的，本申请实施例中所涉及到的训练样本可以采用云存储的方式进行存储，而云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

目前，随着自然语言处理技术的发展，预训练语言模型由于其有效性被广泛的应用在文本匹配、信息提取、智能问答等下游任务中，而一些改进预训练语言模型以适配具体任务的方法也陆续被提出，具体可以包括以下两种方案：

一、基于句对关系和掩码建模的预训练语言模型

其中，该方法主要是通过引入句对关系预测任务和掩码预测任务对模型进行预训练。但是，这些预训练语言模型都只是通过较为简单的句对关系预测和掩码预测任务进行模型训练，由于预训练任务和下游任务存在较大的差异，使得模型应用于下游具体任务时表现并不太好，而且需要大量标签数据继续对模型进行微调才能达到较优效果。

二，针对具体任务增强预训练模型方法

由于通用预训练语言模型不能完全适配具体任务，一些针对特定任务的方法通过对预训练模型进行改进训练，从而提高模型表现。以下游情感分析任务为例，由于有情感偏向的词在通用预训练中被忽略了，因此可以通过引入情感先验知识可以提高模型情感分析的效果。通过无监督的方式，从大规模的文本数据中获取包括情感词、情感词极性在内的先验知识，在掩码预测中添加情感词和词性预测任务，从而增强模型情感分析能力。但是，这种方法大多需要预先挖掘领域先验知识融入到增强训练中，通过工具或者标注的方式进行获取，需要一定成本才能实现。

基于此，本申请实施例一种文本处理方法，旨在解决现有技术中关于预训练模型的部分或全部技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

首先对本申请实施例涉及的几个名词进行介绍和解释：

预训练语言模型：预训练语言模型指针对自然语言处理领域问题通过自监督学习的方式基于大规模数据预先训练模型，学习到通用的语言知识，使得预训练模型应用于下游具体任务时通过微调模型就能达到效果。

文本语义相似性：文本语义相似性用于衡量句子间的语义相似性，可以广泛应用在包括机器翻译、问答系统、语义搜索、对话等系统中。

对比学习:对比学习是一种常用的自监督学习方法，自监督学习不需要人工标注的类别标签信息，直接利用数据本身作为监督信息学习样本数据的特征表达。对比学习方法通过将数据分别与正例样本和负例样本在特征空间进行对比来学习样本的特征表示。

增强预训练：基于通用预训练语言模型进行增强预训练，使得增强后的预训练语言模型应用于下游具体任务时具有更优表现。

可选的，本申请实施例所提供的方法可以通过服务器或终端设备来实现，又或者通过服务器和终端设备交互实现。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

如图1a所示，本申请实施例提供一种文本处理方法所适用的系统架构图。该架构中包括服务器10、终端设备11以及与服务器10相连的数据库13，服务器10与终端设备11通过网络20进行通信连接。可选的，终端设备11可以执行本申请实施例所提供的文本处理方法，数据库13中存储有多个初始文本。相应的，当终端设备11执行文本处理方法时，可以向服务器10发送文本获取请求，服务器10从数据库13获取多个初始文本返回至终端设备11，终端设备11可以基于多个初始文本，构建训练数据集，并基于训练数据集对初始神经网络模型进行训练，直至模型的目标函数的值满足训练结束条件，并将训练结束后的特征提取模块作为文本相似度判断模型的文本对特征提取模块，对文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，基于最终的文本相似度判断模型对获取到的待处理文本进行文本之间的相似度预测。

图1b示出了本申请实施例中所提供了一种文本处理方法的流程示意图。该方法可以由任一电子设备执行，如图1b所示，该方法可以包括：

步骤S101，获取多个初始文本，基于多个初始文本，构建训练数据集，其中，训练数据集中的每个训练样本包括一个初始文本对应的第一个第一句子对和一个第二句子对，第一句子对的相似度大于第二句子对的相似度。

可选的，训练数据集指的是用于训练神经网络模型的数据，该训练数据可以基于多个初始文本构建而成，本申请实施例中，该训练数据集是用于对文本进行预训练的数据集。其中，对于每个初始文本，可以基于该初始文本得到对应的第一句子对和第二句子对，第一句子对中两个句子之间的相似度大于第二句子对中两个句子之间的相似度，训练数据集中的每个训练样本则包括一个初始文本对应的一个第一句子对和一个第二句子对。在实际应用中，可以将整篇文章作为初始文本，也可以将文章中的部分段落作为初始文本，本申请实施例对此不限定。

步骤S102，基于训练数据集对初始神经网络模型进行训练，直至初始神经网络模型的目标函数的值满足训练结束条件；其中，初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，初始神经网络模型的输入包括训练数据集中各句子对，输出为每个句子对的预测文本相似度，目标函数的值表征了各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异。

可选的，可以基于构建的训练数据集对获取到的初始神经网络模型进行训练，直至初始神经网络模型的目标函数的值满足训练结束条件。其中，该目标函数的值表征了训练数据集中各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异，而训练结束条件可以基于实际需求预先配置，如可以是目标函数的值达到预设阈值等，本申请实施例对此不限定。

可选的，该初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，在进行模型训练时，可以将训练数据集中各句子对输入至神经网络模型，初始特征提取模块则可以提取输入的各句子对的特征，并将提取得到的特征输入至第一文本相似度预测模块，第一文本相似度预测模块则输出每个句子对的预测文本相似度，进一步可以基于输出的每个训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异，确定初始神经网络模型的目标函数的值。

可选的，可以将各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异之和作为模型的目标函数的值。也就是说，将第一句子对作为正样本(相似句子对)，将第二句子对作为负样本(不相似度句子对)，通过训练使得相似句子对和不相似度句子对的差异越来越大，直至满足训练结束条件，也就是说，将最大化目标函数的值作为初始神经网络模型的训练目标。

步骤S103，将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。

可选的，对于训练结束后的特征提取模块，可以该特征提取模型作为文本相似度判断模型中的文本对特征提取模块，用于对输入至文本相似度判断模型的文本对进行特征提取，并进一步对包括级联的文本特征提取模块和第二文本相似度预测模块的文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，基于最终的文本相似度判断模型确定两个文本之间的文本相似度。

在本申请实施例中，可以获取初始文本，并基于每个初始文本对应的第一句子对和第二句子构建训练数据集，由于第一句子对的相似度大于第二句子对的相似度，因此所构建的训练数据集为弱监督文本相似语料，此时无需人工标注标签数据，在带来效果提升的同时可以节约人力和时间成本；相应的，在基于该训练数据集对初始神经网络模型进行训练后所得到的特征提取模块，在作为预训练模型应用于下游语义文本相似任务模型时，可以有效的提升语义文本相似任务的能力。

在本申请可选的实施例中，该方法还包括：

获取各初始文本的标题；

基于多个初始文本，构建训练数据集，包括：

对于每个初始文本，确定初始文本中与初始文本的标题相似度最高的第一句子，并确定初始文本的至少一个第二句子，至少一个第二句子是与标题的相似度小于第一句子与标题的相似度的句子；

对于每个初始文本，将初始文本的标题和第一句子作为初始文本对应的第一句子对，将初始文本的标题和每个第二句子，分别作为初始文本对应的一个第二句子对。

可选的，在本申请实施例中还可以进一步获取各初始文本的标题，此时对于每个初始文本，可以基于该初始文本的标题，确定该初始文本的第一句子和至少一个第二句子。如可以将初始文本中与初始文本的标题相似度最高的句子作为第一句子，将初始文本中与标题的相似度小于第一句子与标题的相似度至少一个句子作为第二句子。对于每个初始文本，然后将该初始文本的标题和第一句子作为该初始文本对应的第一句子对，将该初始文本的标题和每个第二句子作为该初始文本对应的第二句子对。其中，各初始文本的标题可以指的是文本预配置的标题，也可以是文本的内容标签等。

在一示例中，对于一个初始文本，假设该初始文本的标题为title，该初始文本中与标题相似度最高的句子为relevant₁，此时可以将relevant₁作为第一句子，将该初始文本中与标题的相似度小于第一句子与标题的相似度至少一个句子relevant_x作为第二句子，此时基于该初始文本的标题和内容得到句对三元组可以表示为＜title，relevant₁，relevant_x＞，其中，title与relevant₁组成第一句子对，title与relevant_x组成第二句子对。

在本申请可选的实施例中，对于任一初始文本，确定初始文本的至少一个第二句子，包括以下至少一项：

将初始文本中除第一句子之外的至少一个句子，确定为至少一个第二句子；

删除初始文本中第一句子中的至少一个第一目标词，得到第二句子，其中，至少一个第一目标词包括第一句子中与初始文本相似度最高的词；

对于初始文本中除第一句子之外的至少一个句子，删除该句子中的至少一个第二目标词，得到至少一个第二句子，第二目标词包括该句子中与文本相似度最高的词。

可选的，在确定任一初始文本的至少一个第二句子时，可以将初始文本中除第一句子之外的至少一个句子直接作为至少一个第二句子，也可以在确定第一句子后将第一句子中的至少一个第一目标词删除，将删除第一目标词后的第一句子作为第二句子，其中，删除的第一目标词包括第一句子中与初始文本相似度最大的词。

在一示例中，对于一个初始文本，假设该初始文本的标题为title，该初始文本中与标题相似度最大的句子为relevant₁，此时可以将relevant₁作为第一句子，并确定relevant₁中与初始文本相似度最高的词作为第一目标词，然后将relevant₁中的该第一目标词删除，得到relevant₁ ^(drop)，此时基于该初始文本的标题和内容得到句对三元组可以表示为＜title，relevant₁，relevant₁ ^(drop)＞，其中，title与relevant₁组成第一句对，title与relevant₁ ^(drop)组成第二句对。

可选的，在实际应用中，在确定任一初始文本的至少一个第二句子时，若确定出初始文本的第一句子，此时对于该初始文本中除第一句子之外的至少一个句子，可以删除该句子中的至少一个第二目标词，将删除第二目标词的该句子作为一个第二句子，其中，第二目标词包括了该句子中与初始文本相似度最高的词。

在本申请实施例中，在确定初始文本的至少一个第二句子时即可以直接将初始文本中除第一句子之外的至少一个句子，确定为至少一个第二句子，也可以删除初始文本中第一句子中的至少一个第一目标词，或删除初始文本中除第一句子之外的至少一个句子中的至少一个第二目标词，得到第二句子，也就是说，在本方案中可以采用多种方式确定初始文本的第二句子，此时基于初始文本的第一句子和第二句子所得到的训练数据集更加的多样化，进而在基于训练数据集训神经网络模型时，可以进一步的提升模型的精度；此外，当采用删除目标词的方案得到第一句子时，可以令同一个初始文本的第一句子对的相似度和第二句子对的相似度之间的差异更大，也就是弱监督训练语料的实际相似度差异与训练约束条件更加符合，从而在训练时以相似度差异作为训练约束条件，可以得到更好的训练效果。

在本申请可选的实施例中，目标函数的值是通过以下方式确定的：

将训练数据集中的各句子对分别输入至神经网络模型中，通过特征提取模块提取得到每个句子对的文本特征，对于任一句子对，文本特征包括句子对的语义特征、以及句子对中的每个句子的句子特征；

对于每个句子对，将句子对的语义特征输入至第一相似度预测模块，得到句子对所对应的第一相似度，将句子对中两个句子的句子特征输入至第二相似度预测模块，得到句子对所对应的第二相似度；

对于每个训练样本，根据该训练样本中的第一句子对的第一相似度和第二句子对的第一相似度，确定该训练样本对应的第一差异值，根据该训练样本的第一句子对的第二相似度和第二句子对的第二相似度，确定该训练样本对应的第二差异值；

根据各训练样本的第一差异值和第二差异值，确定目标函数的值。

可选的，在基于训练数据集对初始神经网络模型进行训练时，可以将训练数据集中的各句子对分别输入至神经网络模型中，神经网络模型中的特征提取模块可以对每个句子对进行特征提取，得到每个句子对的语义特征、以及句子对中的每个句子的句子特征。可选的，句子对中的每个句子的句子特征可以包括每个句子中所包含的各字符的字符特征，其中，每个句子中所包含的字符指的是句子中的最小组成单位，例如，对于中文的句子，此时句子中的每个字即为一个字符，而对于英文的句子，此时句子中的每个词(如Hi)即为一个字符。

进一步，对于每个句子对，此时可以将句子对的语义特征输入至第一相似度预测模块，得到该句子对所对应的第一相似度，以及将句子对中两个句子所的句子特征输入至第二相似度预测模块，得到该句子对所对应的第二相似度。

进一步的，对于每个训练样本，可以将该训练样本中的第一句子对的第一相似度和第二句子对的第一相似度相减，得到该训练样本对应的第一差异值，以及将该训练样本的第一句子对的第二相似度和第二句子对的第二相似度相减，得到该训练样本对应的第二差异值。

在本申请实施例中，通过句子对的第一相似度和第二相似度的对比使得预训练任务和下游语义文本相似任务更接近，减小了二者之间的差异，能够增强模型应用于文本语义相似任务的能力。

在本申请可选的实施例中，第一相似度预测模块包括第一子模块和第二子模块，其中，第一子模块和第二子模块的模型参数不同，对于每个句子对，将句子对的语义特征输入至第一相似度预测模块，得到句子对所对应的第一相似度，包括：

将句子对的语义特征分别输入至第一子模块和第二子模块中，得到第三相似度和第四相似度，第一相似度包括第三相似度和第四相似度；

对于每个训练样本，根据该训练样本中的第一句子对的第一相似度和第二句子对的第一相似度，确定该训练样本对应的第一差异值，包括：

根据第一句子对的第三相似度和第四相似度，以及二句子对第三相似度和第四相似度，确定该训练样本对应的第一差异值。

可选的，该第一相似度预测模块包括模型参数不同的第一子模块和第二子模块，此时在确定每个句子对所对应的第一相似度时，可以将句子对的语义特征输入至第一子模块，得到第三相似度，以及将语义特征输入至第二的子模块中，得到第四相似度，此时该句子对的第一相似度可以包括第三相似度和第四相似度；进一步的，在确定一个训练样本对应的第一差异值时，该训练样本包括有第一句子对和第二句子对，而每个句子对所对应的第一相似度均包括了第三相似度和第四相似度，此时可以根据第一句子对的第三相似度和第四相似度，以及二句子对第三相似度和第四相似度，确定该训练样本对应的第一差异值。

在本申请可选的实施例中，初始特征提取模块是基于Bert(基于转换器的双向编码表征)的特征提取模块，将训练数据集中的各句子对分别输入至神经网络模型中，通过特征提取模块提取得到各句子对对应的文本特征，包括：

对于每个句子对，将分类起始符、句子对中的一个句子、分句符以及句子对中的另一个句子依次拼接，得到拼接文本；

将拼接文本输入至特征提取模块中，得到分类起始符对应的特征以及每个句子对所包含的各字符的字符特征，其中，句子对的语义特征为分类起始符的特征。

可选的，初始特征提取模块可以是基于Bert的特征提取模块，此时在基于初始特征提取模块得到各句子对对应的文本特征时，对于训练数据集中的每个句子对，可以将分类起始符、该句子对中的一个句子、分句符以及该句子对中的另一个句子依次拼接，得到拼接文本，然后将拼接文本输入至特征提取模块中，得到分类起始符对应的特征以及每个句子对所包含的各字符的字符特征，并将句子对的分类起始符的特征作为语义特征。

在一示例中，假设一句子对包括“明天早晨将会出现降雨”和“明天是降雨天气”两个句子，此时可以将分类起始符(可以通过CLS表示)、“明天早晨将会出现降雨”、分句符(可以通过SEP表示)以及“明天是降雨天气”进行拼接，得到拼接文本“CLS明天早晨将会出现降雨SEP明天是降雨天气”，并将拼接文本输入至基于Bert的特征提取模块，得到分类起始符(CLS)对应的特征以及每个句子对所包含的各字符(即“明天早晨将会出现降雨明和天是降雨天气”中的每个字)的字符特征，进一步的可以基于分类起始符(CLS)对应的特征确定该句子对所对应的第一相似度，以及将基于每个句子对所包含的各字符的字符特征，得到该句子对所对应的第二相似度。

在本申请可选的实施例中，对于任一句子对，句子对所对应的第二相似度是由第二相似度预测模块通过以下方式得到的：

将句子对中两个句子的句子特征进行融合，得到每个句子对应的句子融合特征；

对于句子对中的每个句子，基于该句子的句子特征和句子融合特征进行特征提取，得到该句子的新特征；

根据句子对中两个句子的新特征，得到句子对的第二相似度。

可选的，在基于第二相似度预测模块得到句子对所对应的第二相似度时，对于每个句子对，第二相似度预测模块可以将该句子对中两个句子的句子特征进行融合，得到每个句子对应的句子融合特征，而对于该句子对中的每个句子，基于该句子的句子特征和句子融合特征进行特征提取，得到该句子的新特征，进一步的，基于该句子对中两个句子的新特征，得到句子对的第二相似度。其中，得到融合特征、句子的新特征以及基于句子对中两个句子的新特征，得到句子对的第二相似度的具体实现方式将在下文中说明，具体可参见下文描述，在此就不再赘述。

在本申请可选的实施例中，对于任一句子对，句子对中的每个句子的句子特征包括每个句子中所包含的各字符的字符特征；

将句子对中两个句子的句子特征进行融合，得到每个句子对应的句子融合特征，包括：

对于句子对的每个句子的每个字符，确定该句子中该字符的字符特征和句子对中另一句子中各字符的关联特征，并对该字符对应的各关联特征得到该字符对应的融合特征；

其中，对于句子对的每个句子，句子对应的句子融合特征包括该句子中各字符对应的融合特征；

对于句子对中的每个句子，基于该句子的句子特征和句子融合特征进行特征提取，得到该句子的新特征，包括：

对于句子对中的每个句子，基于该句子的句子特征和该句子对应的句子融合特征进行特征提取，得到该句子的新特征。

可选的，对于任一句子对，该句子对中的每个句子的句子特征包括每个句子中所包含的各字符的字符特征，此时在得到句子融合特征时，对于该句子对的每个句子的每个字符，可以确定该句子中该字符的字符特征和该句子对中另一句子中各字符的关联特征，并基于该字符对应的各关联特征得到该字符对应的融合特征，此时对于句子对中的每个句子，该句子的融合特征包括该句子中各字符对应的融合特征。其中，在确定每个句子的新特征时，可以基于该句子的句子特征和该句子对应的句子融合特征进行特征提取，得到该句子的新特征。

其中，为了更好地说明本申请实施例中确定目标函数的值的方案，下面结合公式对确定目标函数的值的过程进行说明。其中，在本示例中，基于一个训练样本为例进行说明，该训练样本包括一个初始文本对应的第一个第一句子对和一个第二句子对，此时目标函数的值可以通过下列公式来确定：

其中，

表示目标函数的值，

表示训练样本对应的第一差异值，

表示训练样本对应的第二差异值。

可选的，

可以通过下列公式确定：

其中，t表示初始文本的标题，s_p表示初始文本的第一句子，s_n表示初始文本的第二句子，(t,s_p)表示第一句子对，(t,s_n)表示第二句子对，ξ_RA(t,s_p)表示第一句子对的第一相似度，ξ_RA(t,s_n)表示第二句子对的第一相似度，β为预配置的设定值。

可选的，ξ_RA(t,s_p)和ξ_RA(t,s_n)具体可通过下列方式确定：

其中，

表示第一句子对中两个句子之间的置信度(即两个句子可以被判断为相似句子的可能性，本示例中的第一句子对的第三相似度)，

表示第一句子对中两个句子之间的相似度距离(即第一句子对的第四相似度)，h_chs1表示第一句子的语义特征，

表示第二句子对中两个句子之间的置信度(即两个句子可以被判断为相似句子的可能性，本示例中的第二句子对的第三相似度)，

表示第二句子对中两个句子之间的相似度距离(即第二句子对的第四相似度)，h_cls2表示第二句子的语义特征，W_p和b_p表示第一相似度预测模块中第一子模块的模型参数，W_d和b_d表示第一相似度预测模块中第二子模块的模型参数。

进一步的，将ξ_RA(t,s_p)和ξ_RA(t,s_n)代入

中，可以得到：

可选的，

可以通过下列公式确定：

其中，t表示初始文本的标题，s_p表示初始文本的第一句子，s_n表示初始文本的第二句子，(t,s_p)表示第一句子对，(t,s_n)表示第二句子对，ξ_AA(t,s_p)表示第一句子对的第二相似度，ξ_AA(t,s_n)表示第二句子对的第二相似度，β为预配置的设定值。

可选的，ξ_AA(t,s_p)具体可通过下列方式确定：

其中，

表示标题的新特征，

表示第一句子的新特征，

表示标题的新特征与第一句子的新特征中相应维度的特征值相乘，

表示标题的新特征与第一句子的新特征中相应维度的特征值相减，

和

表示第二相似度预测模型的模型参数。

可选的，对于

可以基于下列方式确定：

其中，T^f用于指代标题中的各字符的新特征，MaxPooling(T^f)表示基于标题中的各字符的新特征的特征值进行最大池化处理，S_P ^f用于指代第一句子中的各字符的新特征，MaxPooling(S_P ^f)表示基于对第一句子中的各字符的新特征取的特征值进行最大池化处理。

可选的，标题中的各字符的新特征以及第一句子中的各字符的新特征基于下列方式确定：

其中，

表示第一句子中的第i个字符的新特征，

表示第一句子中的第i个字符的字符特征，

表示第一句子中的第i个字符的融合特征，l_t表示标题中所有字符的数量，t_j表示标题中的第j个字符的字符特征，t_k表示标题中的第k个字符的字符特征，

表示标题中的第i个字符的新特征，t_i表示标题中的第i个字符的字符特征，t_i′表示标题中的第i个字符的融合特征，

表示第一句子中所有字符的数量，

表示第一句子中的第j个字符的字符特征，

表示第一句子中的第k个字符的字符特征，

表示第一句子的第i个字符的字符特征的特征值与第一句子的第i个字符的融合特征的特征值相乘，

表示第一句子的第i个字符的字符特征的特征值与第一句子的第i个字符的融合特征的特征值相减，t_iot′_i表示标题的第i个字符的字符特征的特征值与标题的第i个字符的融合特征的特征值相乘，t_i-t′_i表示标题的第i个字符的字符特征的特征值与标题的第i个字符的融合特征的特征值相减，W_f和b_f表示第二相似度预测模型的模型参数。

进一步的，ξ_AA(t,s_n)具体可通过下列方式确定：

其中，

表示标题的新特征，

表示第二句子的新特征，

表示标题的新特征与第二句子的新特征中相应维度的特征值相乘，

表示标题的新特征与第二句子的新特征中相应维度的特征值相减，

和

表示第二相似度预测模型的模型参数。可选的，确定

和

的方式与确定第一句子对中的

和

的方式类似，只需将涉及到s_p的部分替换为s_n即可，在此就不再赘述。

进一步的，可以将ξ_AA(t,s_p)和ξ_AA(t,s_n)代入

中，此时可以得到：

可选的，基于得到的最终的文本相似度判断模型，本申请实施例中还提供了确定文本相似度的方法。如图2所示，该方法可以包括：

步骤S201，获取两个待处理文本。

其中，待处理文本指的是需要确定文本相似度文本，该待处理文本可以是文章或文章中的部分段落，本申请实施例不限定。

步骤S202，将两个待处理文本输入至文本相似度判断模型，基于文本相似度判断模型的输出，得到两个待处理文本之间的文本相似度判断结果；

对文本相似度判断模型的初始文本特征提取模块进行预训练，得到预训练后的文本特征提取模块，其中，预训练后的文本特征提取模块是采用上述中文本处理方法中的任一项方法训练得到的；

可选的，可以将两个待处理文本输入至文本相似度判断模型，进一步的，文本相似度判断可以输出两个待处理文本之间的文本相似度判断结果。其中，该文本相似度判断模型包括有级联的文本特征提取模块和文本相似度预测模块，在得到该文本相似度判断模型时，可以采用上述中基于训练数据集对初始神经网络模型进行训练的方法对文本相似度判断模型的初始文本特征提取模块进行预训练，得到预训练后的文本特征提取模块，然后对预训练后的文本特征提取模块和初始的文本相似度预测模块进行训练，得到文本相似度判断模型。其中，基于训练数据集对初始神经网络模型进行训练的方法可以参见前文中描述，在此就不再赘述。

可以理解是，本申请实施例中所提供的方法可以被使用在需要判断语义文本相似度的场景中，比如对话系统、搜索系统、问答系统等场景中，基于本申请实施例中所提供的方法可以提高文本相似度任务的效果，减少对高成本标注数据的使用，提高多种实际自然语言处理任务的准确率。

进一步的，为了更好地理解本申请实施例中所提供的方法，如图3所示，下面以预训练的文本对特征提取模块应用于文本语义相似度预测任务(如采用文本相似度判断模型确定两个文本之间的文本相似度结果)为例进行详细说明。可选的，在本示例中，初始神经网络模型包括级联的初始特征提取模块和文本相似度预测模块，文本相似度判断模型包括级联的文本特征提取模块和文本相似度预测模块，而文本相似度预测模块可以基于EBSIM(Enhancing Bert-based semantic text SIMilarity，基于增强Bert的文本语义相似度)模型实现，下面对得到文本相似度判断模型的方式进行详细介绍。

步骤301，获取多个初始文本(即Doc-Level Corpus)；

具体的，可以获取多篇文章，并将多篇文章的作为初始文本。其中，每片文章存在对应的标题。

步骤302，基于多个初始文本，构建训练数据集(即Sentence-Triplet Corpus，图中的构建训练数据集)；

具体的，可以确定初始文本中的第一句子和至少一个第二句子，并基于每个初始文本的标题和第一句子，构建初始文本对应的第一句子对，以及基于初始文本的标题和每个第二句子，构建初始文本对应的第二句子对(即Constructing，图中的确定句子对)，此时训练数据集中的每个训练样本包括一个初始文本对应的第一个第一句子对和一个第二句子对。

步骤303，基于构建的训练数据集对初始神经网络模型进行预训练(即Enhancing，即图中的预训练)，直至模型的目标函数的值满足训练结束条件，得到训练结束后的基于Bert的征提取模块；

步骤304，将训练结束后的基于Bert的特征提取模块作为文本相似度判断模型的文本特征提取模块(即图中的确定文本特征提取模块)；

步骤305，对训练结束后的基于Bert的特征提取模块和初始的EBSIM(即图中的Bert+EBSIM)再次进行训练(即Fine-Tuning，对应于图中的微调)，得到最终的文本相似度判断模型。

相应的，在得到最终的文本相似度判断模型后，可以基于最终的文本相似度判断模型确定待处理文本之间的文本相似度(即Adapt-STS-Tasks，图中的确定文本相似度)。

可选的，如图4所示，本申请实施例还提供一种确定目标函数的值的原理示意图。其中，在本示例中，以一个训练样本为例进行说明，而神经网络模型包括级联的特征提取模块和文本相似度预测模块，特征提取模块是基于Bert的特征提取模块，文本相似度预测模块包括第一相似度预测模块和第二相似度预测模块。

具体地，对于该训练样本中第一句子对，可以将分类起始符(CLS)、第一句子对中的标题(即Title，Title中包括N个字符，分别对应于Tok1至TokN)、分句符(SEP)和第一句子(即relevant₁，relevant₁中包括M个字符，分别对应于Tok1至TokM)进行拼接，得到拼接文本，并输入至基于Bert的特征提取模块，基于Bert的神经网络模型得到拼接文本中各字符对应的嵌入式向量(即E_CLS、E₁……E_N、E_SEP、E₁’……E_M’)；然后基于拼接文本中各字符对应的嵌入式向量得到第一句子对中包含的各字符的字符特征(即T_CLS、T₁……T_N、T_SEP、T₁’……T_M’)；进一步的，可以将T_CLS输入至第一相似度预测模块，得到第一句子对所对应的第一相似度，将第一句子对中包含的各字符的字符特征(即Title中包含的各字符的字符特征T₁……T_N、relevant₁中包含的各字符的字符特征T₁’……T_M’)输入至第二相似度预测模块，得到第一句子对所对应的第二相似度。

同理，对于该初始文本中的第二句子对，可以将分类起始符(CLS)、第二句子对中的标题(即Title，Title中包括X个字符，分别对应于Tok1至TokX)、分句符(SEP)和第二句子(即relevant_x，relevant_x中包括Y个字符，分别对应于Tok1至TokY)进行拼接，得到拼接文本，并输入至基于Bert的特征提取模块，基于Bert的神经网络模型得到拼接文本中各字符对应的嵌入式向量(即E_CLS、E₁……E_X、E_SEP、E₁’……E_Y’)；然后基于接文本中各字符对应的嵌入式向量得到第一句子对中包含的各字符的字符特征(即T_CLS、T₁……T_X、T_SEP、T₁’……T_Y’)；进一步的，可以将T_CLS输入至第一相似度预测模块，得到第二句子对所对应的第一相似度，将第一句子对中包含的各字符的字符特征(即Title中包含的各字符的字符特征T₁……T_X、relevant_x中包含的各字符的字符特征T₁’……T_Y’)输入至第二相似度预测预测模块，得到第二句子对所对应的第二相似度。

进一步的，可以基于第一句子对所对应的第一相似度和第二句子对所对应的第一相似度，确定该训练样本对应的第一差异值(即RA Contrastive Objective)，基于第一句子对所对应的第二相似度和第二句子对所对应的第二相似度确定该训练样本对应的第二差异值(即AA Contrastive Objective)，然后根据该训练样本的第一差异值和第二差异值，确定目标函数的值。

在本申请实施例，能够提升通用预训练语言模型应用于下游文本语义相似度预测任务的能力，减少使用需要人工标注、花费较高的标签数据，在带来效果提升的同时节约人力和时间成本。其中，本申请实施例所提供的方法可以应用于基于Bert结构，或基于Bert模型改进的预训练语言模型(如BERT-wwm(BERT-whole word masking，基于BERT模型的对全词进行mask)、RoBERTa(A Robustly Optimized BERT Pretraining Approach)、ALBERT(ALite BERT)等)的增强预训练，可以增强的预训练语言模型可以用于所有需要判断文本语义相似的场景中，比如对话系统、搜索系统、问答系统等。

可选的，在实现本申请实施例中的该方法时，对于硬件环境的要求较低，运行环境适用性广泛，在普通的服务器环境即可训练和部署上线，如当硬件环境满足表1中的要求时，即可以实现本申请实施例中所提供的方法。

表1

操作系统	内存	语言环境
			Linux	>16G	Python/c++

本申请实施例提供了一种文本处理装置，如图5所示，该文本处理装置60可以包括：文本获取模块601、模型训练模块602以及模型确定模块603，其中，

文本获取模块601，用于获取多个初始文本，基于多个初始文本，构建训练数据集，其中，训练数据集中的每个训练样本包括一个初始文本对应的第一个第一句子对和一个第二句子对，第一句子对的相似度大于第二句子对的相似度；

模型训练模块602，用于基于训练数据集对初始神经网络模型进行训练，直至初始神经网络模型的目标函数的值满足训练结束条件；其中，初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，初始神经网络模型的输入包括训练数据集中各句子对，输出为每个句子对的预测文本相似度，目标函数的值表征了各训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异；

模型确定模块603，用于将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。

可选的，文本获取模块还用于：

获取各初始文本的标题；

文本获取模块在基于多个初始文本，构建训练数据集时，具体用于：

可选的，对于任一初始文本，文本获取模块在确定初始文本的至少一个第二句子时，具体用于以下至少一项：

对于初始文本中除第一句子之外的至少一个句子，删除该句子中的至少一个第二目标词，得到至少一个第二句子，第二目标词包括该句子中与初始文本相似度最高的词。

可选的，该装置还包括函数值确定模块，目标函数的值是函数值确定模块通过以下方式确定的：

可选的，第一相似度预测模块包括第一子模块和第二子模块，其中，第一子模块和第二子模块的模型参数不同，对于每个句子对，函数值确定模块在将句子对的语义特征输入至第一相似度预测模块，得到句子对所对应的第一相似度时，具有用于：

将句子对的语义特征分别输入至第一子模块和第二的子模块中，得到第三相似度和第四相似度，第一相似度包括第三相似度和第四相似度；

可选的，句子对中的每个句子的句子特征包括每个句子中所包含的各字符的字符特征。

可选的，初始特征提取模块是基于BERT的特征提取模块，函数值确定模块在将训练数据集中的各句子对分别输入至神经网络模型中，通过特征提取模块提取得到各句子对对应的文本特征时，具体用于：

可选的，对于任一句子对，句子对所对应的第二相似度是由第二相似度预测模块通过以下方式得到的：

可选的，对于任一句子对，句子对中的每个句子的句子特征包括每个句子中所包含的各字符的字符特征；

对于句子对的每个句子的每个字符，确定该句子中该字符的字符特征和句子对中另一句子中各字符的关联特征，并基于该字符对应的各关联特征得到该字符对应的融合特征；

本申请实施例的文本处理装置可执行本申请实施例提供的一种文本处理方法，其实现原理相类似，此处不再赘述。

本申请实施例提供了一种确定文本相似度的装置，如图6所示，该确定文本相似度的装置70可以包括：文本获取模块701以及相似度确定模块702，

文本获取模块701，用于获取两个待处理文本；

相似度确定模块702，用于将两个待处理文本输入至文本相似度判断模型，基于文本相似度判断模型的输出，得到两个待处理文本之间的文本相似度判断结果；

对文本相似度判断模型的初始文本特征提取模块进行预训练，得到预训练后的文本特征提取模块，其中，预训练后的文本特征提取模块是采用文本处理方法中的任一项方法训练得到的；

本申请实施例的确定文本相似度的装置可执行本申请实施例提供的一种确定文本相似度的方法，其实现原理相类似，此处不再赘述。

在一些实施例中，本申请实施例提供的文本处理装置和确定文本相似度的装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的文本处理装置和确定文本相似度的装置可以是采用硬件译码处理器形式的处理器，其被编程以分别执行本申请实施例提供的文本处理方法和确定文本相似度的方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本申请实施例提供的文本处理装置可以采用软件方式实现，图5示出了文本处理装置60，其可以是程序和插件等形式的软件，并包括一系列的模块，包括文本获取模块601、模型训练模块602以及模型确定模块603；其中，文本获取模块601、模型训练模块602以及模型确定模块603用于实现本申请实施例提供的文本处理方法。

在另一些实施例中，本申请实施例提供的确定文本相似度的装置可以采用软件方式实现，图6示出了确定文本相似度的装置70，其可以是程序和插件等形式的软件，并包括一系列的模块，包括文本获取模块701以及相似度确定模块702用于实现本申请实施例提供的确定文本相似度的方法。

本申请实施例提供了一种电子设备，如图7所示，图7所示的电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选地，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现图5和图6所示的各模块的功能。

处理器2001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备，RAM或者可存储信息和计算机程序的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。

存储器2003用于存储执行本申请方案的应用程序的计算机程序，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序，以实现图5所示实施例提供的文本处理装置的动作和图6所示实施例提供的确定文本相似度的装置的动作。

本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器上述实施例中的任一项方法。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行上述实施例中的任一项方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种文本处理方法或一种确定文本相似度的方法，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本处理方法，其特征在于，包括：

获取多个初始文本，基于所述多个初始文本，构建训练数据集，其中，所述训练数据集中的每个训练样本包括一个所述初始文本对应的第一个第一句子对和一个第二句子对，所述第一句子对的相似度大于所述第二句子对的相似度；

基于所述训练数据集对初始神经网络模型进行训练，直至所述初始神经网络模型的目标函数的值满足训练结束条件；其中，所述初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，所述初始神经网络模型的输入包括所述训练数据集中各句子对，输出为每个句子对的预测文本相似度，所述目标函数的值表征了各所述训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异；

将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对所述文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，所述文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取各所述初始文本的标题；

所述基于所述多个初始文本，构建训练数据集，包括：

对于每个所述初始文本，确定所述初始文本中与所述初始文本的标题相似度最高的第一句子，并确定所述初始文本的至少一个第二句子，所述至少一个第二句子是与所述标题的相似度小于所述第一句子与所述标题的相似度的句子；

对于每个所述初始文本，将所述初始文本的标题和第一句子作为所述初始文本对应的第一句子对，将所述初始文本的标题和每个所述第二句子，分别作为所述初始文本对应的一个第二句子对。

3.根据权利要求2所述的方法，其特征在于，对于任一所述初始文本，所述确定所述初始文本的至少一个第二句子，包括以下至少一项：

将所述初始文本中除所述第一句子之外的至少一个句子，确定为所述至少一个第二句子；

删除所述初始文本中第一句子中的至少一个第一目标词，得到第二句子，其中，所述至少一个第一目标词包括所述第一句子中与所述初始文本相似度最高的词；

对于所述初始文本中除所述第一句子之外的至少一个句子，删除该句子中的至少一个第二目标词，得到至少一个第二句子，所述第二目标词包括该句子中与所述初始文本相似度最高的词。

4.根据权利要求1所述的方法，其特征在于，所述目标函数的值是通过以下方式确定的：

将所述训练数据集中的各句子对分别输入至所述神经网络模型中，通过所述特征提取模块提取得到每个所述句子对的文本特征，对于任一句子对，所述文本特征包括所述句子对的语义特征、以及所述句子对中的每个句子的句子特征；

对于每个句子对，将所述句子对的语义特征输入至所述第一相似度预测模块，得到所述句子对所对应的第一相似度，将所述句子对中两个句子的句子特征输入至所述第二相似度预测模块，得到所述句子对所对应的第二相似度；

对于每个所述训练样本，根据该训练样本中的第一句子对的第一相似度和第二句子对的第一相似度，确定该训练样本对应的第一差异值，根据该训练样本的第一句子对的第二相似度和第二句子对的第二相似度，确定该训练样本对应的第二差异值；

根据各所述训练样本的第一差异值和第二差异值，确定所述目标函数的值。

5.根据权利要求4所述的方法，其特征在于，所述第一相似度预测模块包括第一子模块和第二子模块，其中，所述第一子模块和所述第二子模块的模型参数不同，对于每个句子对，所述将所述句子对的语义特征输入至所述第一相似度预测模块，得到所述句子对所对应的第一相似度，包括：

将所述句子对的语义特征分别输入至所述第一子模块和所述第二子模块中，得到第三相似度和第四相似度，所述第一相似度包括所述第三相似度和所述第四相似度；

对于每个所述训练样本，所述根据该训练样本中的第一句子对的第一相似度和第二句子对的第一相似度，确定该训练样本对应的第一差异值，包括：

根据所述第一句子对的第三相似度和第四相似度，以及所述二句子对第三相似度和第四相似度，确定该训练样本对应的第一差异值。

6.根据权利要求4所述的方法，其特征在于，所述句子对中的每个句子的句子特征包括每个句子中所包含的各字符的字符特征。

7.根据权利要求6所述的方法，其特征在于，所述初始特征提取模块是基于基于转换器的双向编码表征Bert的特征提取模块，所述将所述训练数据集中的各句子对分别输入至所述神经网络模型中，通过特征提取模块提取得到各所述句子对对应的文本特征，包括：

对于每个句子对，将分类起始符、所述句子对中的一个句子、分句符以及所述句子对中的另一个句子依次拼接，得到拼接文本；

将所述拼接文本输入至所述特征提取模块中，得到所述分类起始符对应的特征以及每个句子对所包含的各字符的字符特征，其中，所述句子对的语义特征为所述分类起始符的特征。

8.根据权利要求4所述的方法，其特征在于，对于任一所述句子对，所述句子对所对应的第二相似度是由所述第二相似度预测模块通过以下方式得到的：

将所述句子对中两个句子的句子特征进行融合，得到每个句子对应的句子融合特征；

对于所述句子对中的每个句子，基于该句子的句子特征和所述句子融合特征进行特征提取，得到该句子的新特征；

根据所述句子对中两个句子的新特征，得到所述句子对的第二相似度。

9.根据权利要求8所述的方法，其特征在于，对于任一句子对，所述句子对中的每个句子的句子特征包括每个句子中所包含的各字符的字符特征；

所述将所述句子对中两个句子的句子特征进行融合，得到每个句子对应的句子融合特征，包括：

对于所述句子对的每个句子的每个字符，确定该句子中该字符的字符特征和所述句子对中另一句子中各字符的关联特征，并基于该字符对应的各关联特征得到该字符对应的融合特征；

其中，对于所述句子对的每个句子，所述句子对应的句子融合特征包括该句子中各字符对应的融合特征；

所述对于所述句子对中的每个句子，基于该句子的句子特征和所述句子融合特征进行特征提取，得到该句子的新特征，包括：

对于所述句子对中的每个句子，基于该句子的句子特征和该句子对应的句子融合特征进行特征提取，得到该句子的新特征。

10.一种确定文本相似度的方法，其特征在于，包括：

获取两个待处理文本；

将所述两个待处理文本输入至文本相似度判断模型，基于所述文本相似度判断模型的输出，得到所述两个待处理文本之间的文本相似度判断结果；

其中，所述文本相似度判断模型包括级联的文本特征提取模块和文本相似度预测模块，所述文本相似度判断模型是通过以下方式训练得到的：

对所述文本相似度判断模型的初始文本特征提取模块进行预训练，得到预训练后的文本特征提取模块，其中，所述预训练后的文本特征提取模块是采用权利要求1-9中的任一项所述的方法训练得到的；

对所述预训练后的文本特征提取模块和初始的文本相似度预测模块进行训练，得到文本相似度判断模型。

11.一种文本处理装置，其特征在于，包括：

文本获取模块，用于获取多个初始文本，基于所述多个初始文本，构建训练数据集，其中，所述训练数据集中的每个训练样本包括一个所述初始文本对应的第一个第一句子对和一个第二句子对，所述第一句子对的相似度大于所述第二句子对的相似度；

模型训练模块，用于基于所述训练数据集对初始神经网络模型进行训练，直至所述初始神经网络模型的目标函数的值满足训练结束条件；其中，所述初始神经网络模型包括级联的初始特征提取模块和第一文本相似度预测模块，所述初始神经网络模型的输入包括所述训练数据集中各句子对，输出为每个句子对的预测文本相似度，所述目标函数的值表征了各所述训练样本的第一句子对的预测文本相似度和第二句子对的预测文本相似度之间的差异；

模型确定模块，用于将训练结束后的特征提取模块作为文本相似度判断模型的文本特征提取模块，对所述文本相似度判断模型再次进行训练，得到最终的文本相似度判断模型，所述文本相似度判断模型包括级联的文本特征提取模块和第二文本相似度预测模块。

12.一种确定文本相似度的装置，其特征在于，包括：

文本获取模块，用于获取两个待处理文本；

相似度确定模块，用于将所述两个待处理文本输入至文本相似度判断模型，基于所述文本相似度判断模型的输出，得到所述两个待处理文本之间的文本相似度判断结果；

13.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器被配置用于存储计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行权利要求1-9任一项所述的方法，或者执行权利要求10所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行上述权利要求1-9中任一项所述的方法，或者执行权利要求10所述的方法。