CN112818658B

CN112818658B - 文本对分类模型的训练方法、分类方法、设备及存储介质

Info

Publication number: CN112818658B
Application number: CN202010035190.6A
Authority: CN
Inventors: 张冠华; 白冰; 白琨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-06-27
Anticipated expiration: 2040-01-14
Also published as: CN112818658A

Abstract

本发明提供了一种文本对分类模型的训练方法、装置、电子设备及存储介质；方法包括：通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果；基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重；通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果；基于针对文本对样本的权重、以及针对文本对样本的分类结果，构建文本对分类模型的损失函数；更新文本对分类模型的参数直至损失函数收敛，将损失函数收敛时文本对分类模型的更新的参数、确定为通过训练后得到的参数。

Description

文本对分类模型的训练方法、分类方法、设备及存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种文本对分类模型的训练方法、文本对分类方法、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

文本对分类模型是自然语言处理领域的重要应用之一，文本对分类是指确定文本对中两个文本之间的语义关系，文本对分类模型在问答系统、信息检索系统、阅读系统等中都有广泛的应用，即文本对分类模型是这些复杂系统的基础组件。

但是，由于文本对数据集存在偏差，而文本对分类模型主要依赖于数据集中的文本对进行学习，因此，文本对分类模型学习到了文本对数据集的偏差，降低了文本对分类模型的泛化能力。

发明内容

本发明实施例提供一种文本对分类模型的训练方法、装置及存储介质，能够缓解文本对数据集的偏差，提高文本对分类模型的泛化能力。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种文本对分类模型的训练方法，所述方法包括：

通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果；

基于文本对样本数据集的无偏分布，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重；

通过文本对分类模型对所述文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对所述文本对样本的分类结果；

基于所述针对所述文本对样本的权重、以及针对所述文本对样本的分类结果，构建所述文本对分类模型的损失函数；

更新所述文本对分类模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述文本对分类模型的更新的参数、确定为通过训练后得到的参数。

本发明实施例提供一种文本对分类方法，应用于如文本对分类模型的训练方法所训练的文本对分类模型；

所述方法包括：

确定待分类的文本对中的第一文本以及第二文本；

通过所述文本对分类模型对所述第一文本以及所述第二文本进行语义关系分类处理，得到所述文本对中所述第一文本与所述第二文本的语义关系。

本发明实施例提供一种文本对分类模型的训练装置，所述装置包括：

预测模块，用于通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果；

第一处理模块，用于基于文本对样本数据集的无偏分布，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重；

分类模块，用于通过文本对分类模型对所述文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对所述文本对样本的分类结果；

第一训练模块，用于基于所述针对所述文本对样本的权重、以及针对所述文本对样本的分类结果，构建所述文本对分类模型的损失函数；

更新所述文本对分类模型的参数直至所述损失函数收敛。

上述技术方案中，所述装置还包括：

第二训练模块，用于基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及所述第一文本训练样本，对所述第一文本预测模型进行训练处理，得到训练后的第一文本预测模型；

所述预测模块还用于通过所述训练后的第一文本预测模型对所述第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果；

其中，所述第一文本样本为所述文本对样本数据集中的文本样本。

上述技术方案中，所述第二训练模块还用于对所述文本对样本数据集进行划分处理，得到N份文本对样本集合；

对于所述N份文本对样本集合中的任一第n份文本对样本集合，执行以下处理：

初始化所述基于第二文本的预测模型的参数；

将除第n份文本对样本集合之外的文本对样本集合确定为文本对样本训练集，并通过所述文本对样本训练集对所述第一文本预测模型进行训练，得到训练后的第一文本预测模型；

所述预测模块还用于基于第n份文本对样本集合，通过第一文本预测模型对所述第n份文本对样本集合进行文本预测处理，得到针对所述第n份文本对样本集合的预测结果；

其中，0<n≤N，且n、N为自然数。

上述技术方案中，所述预测模块还用于通过所述训练后的第一文本预测模型对所述第一文本样本进行词向量转换处理，得到所述第一文本样本的词向量；

对所述第一文本样本的词向量进行编码处理，得到包含上下文信息的编码向量；

对所述包含上下文信息的编码向量进行解码处理，得到针对所述第一文本样本的预测结果。

上述技术方案中，所述针对所述第一文本样本的预测结果为针对所述第一文本样本的各关系标签的概率；

所述第一处理模块还用于确定文本对样本数据集在无偏分布时，所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率；

根据所述针对所述第一文本样本的各关系标签的概率、以及所述各关系标签的无偏概率，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重。

上述技术方案中，所述第一处理模块还用于基于各关系标签的先验概率的比值、以及所述针对所述第一文本样本的各关系标签的概率，对未知的无偏概率进行迭代处理，得到所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率。

上述技术方案中，所述第一处理模块还用于确定针对所述第一文本样本的第一关系标签的第一概率、以及针对所述第一文本样本的第二关系标签的第二概率、第一关系标签的第一无偏概率以及第二关系标签的第二无偏概率；

将所述第一概率与所述第二无偏概率的第一乘积、与所述第二概率与所述第一无偏概率的第二乘积进行求和处理，得到处理结果；

将所述处理结果与所述第一乘积进行比值处理，得到所述文本对样本针对所述第一关系标签的权重；

将所述处理结果与所述第二乘积进行比值处理，得到所述文本对样本针对所述第二关系标签的权重。

上述技术方案中，所述分类模块还用于分别对所述第一文本样本以及所述第二文本样本进行词向量转换处理，得到所述第一文本样本的词向量以及所述第二文本样本的词向量；

分别对所述第一文本样本的词向量以及所述第二文本样本的词向量进行编码处理，得到包含所述第一文本样本的上下文信息的第一编码向量、以及包含所述第二文本样本的上下文信息的第二编码向量；

对所述第一编码向量以及所述第二编码向量进行拼接处理，得到拼接向量；

对所述拼接向量进行语义关系解码处理，得到针对所述文本对样本的分类结果。

上述技术方案中，分类模块还用于对所述第一文本样本的词向量进行前向编码处理，得到对应所述第一文本样本的第一前向隐向量；

对所述第一文本样本的词向量进行后向编码处理，得到对应所述第一文本样本的第一后向隐向量；

对所述第一前向隐向量以及所述第一后向隐向量进行融合处理，得到包含所述第一文本样本的上下文信息的第一编码向量；

对所述第二文本样本的词向量进行前向编码处理，得到对应所述第二文本样本的第二前向隐向量；

对所述第二文本样本的词向量进行后向编码处理，得到对应所述第二文本样本的第二后向隐向量；

对所述第二前向隐向量以及所述第二后向隐向量进行融合处理，得到包含所述第二文本样本的上下文信息的第二编码向量。

上述技术方案中，所述针对所述文本对样本的分类结果为针对所述文本对样本的各关系标签的条件概率，

所述第一训练模块还用于对所述针对所述文本对样本的各关系标签的条件概率的倒数进行对数处理，得到对数结果；

将所述对数结果、与所述基于所述针对所述文本对样本的权重的乘积，确定为所述文本对分类模型的损失函数。

上述技术方案中，所述第一训练模块还用于当所述损失函数的值超出阈值时，基于所述文本对分类模型的损失函数确定相应的误差信号；

将所述误差信号在所述文本对分类模型中反向传播，并在传播的过程中更新所述文本对分类模型的参数直至所述损失函数收敛。

本发明实施例提供一种文本对分类装置，所述装置包括：

确定模块，用于确定待分类的文本对中的第一文本以及第二文本；

第二处理模块，用于通过所述文本对分类模型对所述第一文本以及所述第二文本进行语义关系分类处理，得到所述文本对中所述第一文本与所述第二文本的语义关系；

其中，所述文本对分类模型是基于一种文本对分类模型的训练方法得到的，所述训练方法确定的文本对分类模型的参数是通过基于针对文本对样本的权重、以及针对所述文本对样本的分类结果所构建的文本对分类模型的损失函数收敛时得到的，

其中，所述基于针对文本对样本的权重是基于文本对样本数据集的无偏分布，对针对所述文本对样本中的第一文本样本的预测结果进行偏差分析处理得到的。

上述技术方案中，所述第二处理模块还用于通过所述文本对分类模型分别对所述第一文本以及所述第二文本进行词向量转换处理，得到所述第一文本的词向量以及所述第二文本的词向量；

分别对所述第一文本的词向量以及所述第二文本的词向量进行编码处理，得到包含所述第一文本的上下文信息的第一编码向量、以及包含所述第二文本的上下文信息的第二编码向量；

对所述拼接向量进行语义关系解码处理，得到所述文本对中所述第一文本与所述第二文本的语义关系。

本发明实施例提供一种文本对分类模型的训练设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的文本对分类模型的训练方法。

本发明实施例提供一种文本对分类设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的文本对分类方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的文本对分类模型的训练方法，或文本对分类方法。

本发明实施例具有以下有益效果：

基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重，并基于针对文本对样本的权重、以及通过文本对分类模型得到的针对文本对样本的分类结果，训练文本对分类模型，从而在文本对分类模型中引入针对文本对样本的权重，缓解文本对数据集的偏差，提高文本对分类模型的泛化能力；通过在文本对分类模型中引入针对文本对样本的权重，后续再对文本对中的第一文本以及第二文本进行语义关系分类处理，可以得到准确的针对文本对的分类结果，从而提高文本对分类模型的分类性能。

附图说明

图1是本发明实施例提供的文本对分类模型的训练系统10的应用场景示意图；

图2是本发明实施例提供的文本对分类模型的训练设备500的结构示意图；

图3是本发明实施例提供的文本对分类模型的训练装置555的结构示意图；

图4A-4B是本发明实施例提供的文本对分类模型的训练方法的流程示意图；

图5是本发明实施例提供的文本对分类系统20的应用场景示意图；

图6是本发明实施例提供的文本对分类设备600的结构示意图；

图7A-7B是本发明实施例提供的文本对分类方法的流程示意图；

图8是本发明实施例提供的孪生长短时记忆网络模型结构示意图；

图9是本发明实施例提供的采用生成对抗网络的孪生长短时记忆网络模型结构示意图；

图10A是应用本发明实施例文本对分类模型的训练方法之前的推荐内容筛选场景示意图；

图10B是应用本发明实施例文本对分类模型的训练方法之后的推荐内容筛选场景示意图；

图11是本发明实施例提供的应用流程示意图；

图12是本发明实施例提供的第一文本预测模型以及文本对分类模型的结构示意图；

图13是本发明实施例提供的K折交叉测试流程示意图；

图14是本发明实施例提供的二分法计算Q(Y＝0)的流程图示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)自然语言处理(Nature Language Processing，NLP)：计算机科学领域与人工智能领域中的一个重要方向，能实现人与计算机之间用自然语言进行有效通信。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，该领域将涉及自然语言，即人们日常使用的语言，所以它与语言学有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

2)分词：将连续的字序列按照一定的规范重新组合成词序列的过程。通过让计算机模拟人对句子的理解，达到识别词的效果。

3)召回(Recall)：从文档库中检索出相关文档。

4)word2vec：用来产生词向量的相关模型。将所有的词向量化，使得词与词之间可以定量地度量它们之间的关系，从而挖掘词之间的联系。

5)文本对匹配：当给定两段文本，根据两段文本之间的语义关系，判断段文本之间的关系标签。

6)“第一文本预测”偏差：指文本对匹配数据集中常出现的一种偏差，体现为只使用数据集中文本对的第一文本就可以有很强的预测能力，不需要文本对中的第二文本进行预测。

7)选择偏差(Selection Bias)：由于数据集采样不随机导致的偏差，“第一文本预测”偏差是一种选择偏差。

8)二分法：对于区间[a，b]上连续不断且f(a)·f(b)<0的函数y＝f(x)，通过不断地把函数f(x)的零点所在的区间一分为二，使区间的两个端点逐步逼近零点，进而得到零点近似值的方法。

本发明实施例记载的文本对分类模型可以应用于各种分类领域，例如可以是问答系统、信息检索系统、阅读应用等分类领域，即本发明实施例中的文本对分类模型并不局限于某种领域。

为至少解决相关技术的上述技术问题，本发明实施例提供一种文本对分类模型的训练方法、装置、电子设备和存储介质，能够缓解文本对数据集的偏差，提高文本对分类模型的泛化能力，并将训练后的文本对分类模型应用于后续的文本对分类操作中。下面说明本发明实施例提供的文本对分类模型的训练设备的示例性应用，本发明实施例提供的文本对分类模型的训练设备可以是服务器，例如部署在云端的服务器，根据其他设备或者用户提供的文本对样本，基于第一文本预测模型以及文本对分类模型对该文本对样本进行一系列处理，得到对应训练后的文本对分类模型，并向用户提供对应训练后的文本对分类模型，以便进行后续的文本对分类操作；也可是笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等各种类型的用户终端，例如手持终端，根据用户在手持终端上输入的文本对样本，基于终端中的第一文本预测模型以及文本对分类模型对该文本对样本进行一系列处理，获得对应训练后的文本对分类模型，并向用户提供对应训练后的文本对分类模型，以便进行后续的文本对分类操作。

作为示例，参见图1，图1是本发明实施例提供的文本对分类模型的训练系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端200本地执行本发明实施例提供的文本对分类模型的训练方法来完成根据用户输入的文本对样本，得到训练后的文本对分类模型，例如，在终端200上安装文本对分类模型生成应用，用户在文本对分类模型生成应用中，输入文本对样本，终端200根据输入的文本对样本，得到训练后的文本对分类模型，并将训练后的文本对分类模型显示在终端200的显示界面210上，以便用户根据训练后的文本对分类模型进行信息监测、问答测试等应用。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端200上输入的文本对样本，并调用服务器100提供的文本对分类模型的训练功能，服务器100通过本发明实施例提供的文本对分类模型的训练方法获得训练后的文本对分类模型，例如，在终端200上安装文本对分类模型生成应用，用户在文本对分类模型生成应用中，输入文本对样本，终端200通过网络300向服务器100发送文本对样本，服务器100接收文本对样本后，基于文本对样本对文本对分类模型进行一系列处理，得到训练后的文本对分类模型，并返回训练后的文本对分类模型至文本对分类模型生成应用，将训练后的文本对分类模型显示在终端200的显示界面210上，或者，服务器100直接给出训练后的文本对分类模型，以便用户根据训练后的文本对分类模型进行信息监测、问答测试等应用。

在一个实施场景中，为了得到针对问答的文本对分类模型(问答系统)，服务器或者终端可以通过第一文本预测模型对问答文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果；基于问答文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重；通过文本对分类模型对问答文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对问答文本对样本的分类结果；基于针对问答文本对样本的权重、以及针对问答文本对样本的分类结果，对文本对分类模型进行训练，得到训练后的文本对分类模型，以便后续可以根据训练后的文本对分类模型对待分类的问答文本对进行分类，得到待分类的问答文本对中第一文本与第二文本的语义关系，其中，第一文本可以是问题文本、第二文本是答案文本；第一文本也可以是答案文本、第二文本是问题文本。例如根据训练后的文本对分类模型对问答文本对进行语义关系分类处理，得到问答文本对中第一文本与第二文本的语义关系，即对应的标签(第一文本与第二文本是否匹配(例如，第一文本是答案、第二文本是问题时，得到标签为第一文本是否为第二文本的答案))，从而实现问答系统的功能，得到准确的答案。通过在文本对分类模型中引入针对文本对样本的权重，缓解文本对数据集的偏差，提高文本对分类模型的泛化能力，以便后续可以对问答文本对进行语义关系分类处理，得到准确的问答文本对中第一文本与第二文本的语义关系，从而提高文本对分类模型的分类性能，以便得到准确的问答对。

在一个实施场景中，为了得到针对信息检索的文本对分类模型(信息检索系统)，服务器或者终端可以通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果；基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重；通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果；基于针对问答文本对样本的权重、以及针对文本对样本的分类结果，对文本对分类模型进行训练，得到训练后的文本对分类模型，以便后续可以根据训练后的文本对分类模型对待分类的文本对进行分类，得到待分类的文本对中第一文本与第二文本的语义关系，其中，第一文本可以是标准文本、第二文本是待匹配文本；第一文本也可以是待匹配文本、第二文本是标准文本。例如根据训练后的文本对分类模型对文本对进行语义关系分类处理，得到文本对中第一文本与第二文本的语义关系，即对应的标签(第一文本与第二文本是否匹配(例如，第一文本是待匹配文本、第二文本是标准文本时，得到标签为第一文本是否与第二文本类似))，从而可以根据对应的标签，确定用户所需的文本，达到信息检索的功能，例如，根据文本对中的标准文本以及待匹配文本，通过文本对分类模型对标准文本以及待匹配文本进行语义分类处理，确定待匹配文本与标准文本类似，则确定待匹配文本为用户所检索的文本。通过在文本对分类模型中引入针对文本对样本的权重，缓解文本对数据集的偏差，提高文本对分类模型的泛化能力，以便后续可以对文本对进行语义关系分类处理，得到准确的问答文本对中第一文本与第二文本的语义关系，从而提高文本对分类模型的分类性能，以便得到用户所需检索的文本。

在一个实施场景中，为了得到针对阅读应用的文本对分类模型(阅读系统)，服务器或者终端可以通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果；基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重；通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果；基于针对文本对样本的权重、以及针对文本对样本的分类结果，对文本对分类模型进行训练，得到训练后的文本对分类模型，以便后续可以根据训练后的文本对分类模型对待分类的文本对进行分类，得到待分类的文本对中第一文本与第二文本的语义关系。例如根据训练后的文本对分类模型对文本对进行语义关系分类处理，得到文本对中第一文本与第二文本的语义关系，即对应的标签(第一文本与第二文本是否重复)，从而可以根据对应的标签，确定是否需要在阅读应用中推送该第一文本与第二文本，例如，当需要在阅读应用中，向用户推送阅读文本(文章、实时新闻等)，阅读应用召回了一些阅读文本，由于这些阅读文本中有类似的文本，为了避免向用户推送类似的文本，可以将这些阅读文本两两组合，得到多个文本对，并通过文本对分类模型对多个文本对进行语义关系分类处理，得到文本对中的两个文本是否重复，当文本对中的两个文本重复时，抽取其中的一个文本作为待推荐文本；当文本对中的两个文本不重复时，将文本对中的两个文本作为待推荐文本，通过文本对分类模型进行分类后，得到待推荐文本，最后通过设置的推送逻辑，将待推荐文本推送给用户，从而实现阅读应用的功能。根据文本对中的标准文本以及待匹配文本，通过文本对分类模型对标准文本以及待匹配文本进行语义分类处理，确定待匹配文本与标准文本类似，则确定待匹配文本为用户所检索的文本。通过在文本对分类模型中引入针对文本对样本的权重，缓解文本对数据集的偏差，提高文本对分类模型的泛化能力，以便后续可以对文本对进行语义关系分类处理，得到准确的问答文本对中第一文本与第二文本的语义关系，提高文本对分类模型的分类性能，以便得到不重复的待推荐文本。

继续说明本发明实施例提供的文本对分类模型的训练设备的结构，文本对分类模型的训练设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的文本对分类模型的训练设备500的结构示意图，图2所示的文本对分类模型的训练设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。文本对分类模型的训练设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的文本对分类模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的文本对分类模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的文本对分类模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的文本对分类模型的训练装置可以采用软件方式实现，图2示出了存储在存储器550中的文本对分类模型的训练装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括预测模块5551、第一处理模块5552、分类模块5553、第一训练模块5554、以及第二训练模块5555；其中，预测模块5551、第一处理模块5552、分类模块5553、第一训练模块5554、以及第二训练模块5555用于实现本发明实施例提供的文本对分类模型的训练方法。

根据上文可以理解，本发明实施例提供的文本对分类模型的训练方法可以由各种类型的文本对分类模型的训练设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的文本对分类模型的训练方法。参见图3和图4A，图3是本发明实施例提供的文本对分类模型的训练装置555的结构示意图，示出了训练流程，图4是本发明实施例提供的文本对分类模型的训练方法的流程示意图，结合图4示出的步骤进行说明。

在步骤101中，通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果。

当在第一文本预测模型中输入文本对时，其中，文本对包括第一文本和第二文本。第一文本预测模型会对第一文本进行文本预测，从而得到针对第一文本的预测结果、即第一文本预测模型只会对文本对中的第一文本进行文本预测处理，并不会对第二文本进行文本预测处理，也就是第一文本预测模型通过第一文本预测文本对中第一文本与第二文本的语义关系，第一文本预测模型具有“第一文本预测”偏差。

为了得到“第一文本预测”偏差的预测结果，可以通过有“第一文本预测”偏差的第一文本预测模型对用户输入的文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果，以便后续根据针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重，并根据权重去除“第一文本预测”偏差。

参见图4B，图4B是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图4B示出图4A还包括步骤105。

在步骤105中，基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及第一文本训练样本，对第一文本预测模型进行训练处理，得到训练后的第一文本预测模型；

参见图4B，图4B是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图4B示出图4A中步骤101可以通过图4B示出的步骤101B实现。

在步骤101B中，通过训练后的第一文本预测模型对第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果。

其中，第一文本样本为文本对样本数据集中的文本样本。为了得到有“第一文本预测”偏差的第一文本预测模型，可以通过用户输入的文本对样本数据对第一预测模型进行训练，即基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及第一文本训练样本，对第一文本预测模型进行训练处理，得到训练后的第一文本预测模型，其中文本对样本数据集具有选择偏差，通过有选择偏差的数据集对第一文本预测模型进行训练，使得第一文本预测模型学习到该选择偏差，后续该第一文本预测模型将根据学习到的选择偏差仅根据文本对中一个文本即可进行文本预测。

在一些实施例中，基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及第一文本训练样本，对第一文本预测模型进行训练处理，得到训练后的第一文本预测模型，包括：对文本对样本数据集进行划分处理，得到N份文本对样本集合；对于N份文本对样本集合中的任一第n份文本对样本集合，执行以下处理：初始化第一文本预测模型的参数；将除第n份文本对样本集合之外的文本对样本集合确定为文本对样本训练集，并通过文本对样本训练集对第一文本预测模型进行训练，得到训练后的第一文本预测模型；

通过训练后的第一文本预测模型对第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果，包括：基于第n份文本对样本集合，通过第一文本预测模型对第n份文本对样本集合进行文本预测处理，得到针对第n份文本对样本集合的预测结果；其中，0<n≤N，且n、N为自然数。

为了节约文本对样本数据集的样本数量，可以采用K折交叉测试对第一文本预测模型进行训练，可以先对文本样本数据集进行随机划分，将文本对样本数据集划分为N份文本对样本集合，其中，N可以根据实际需求进行设置。将N份文本对样本集合中的任一第n份文本对样本集合作为用于得到针对第一文本样本的预测结果的集合，并执行以下处理：每进行一次第一文本预测模型的训练，都需要初始化第一文本预测模型的自身参数，并将除第n份文本对样本集合之外的文本对样本集合确定为文本对样本训练集，通过确定的文本对样本训练集对第一文本预测模型进行训练，得到训练后的第一文本预测模型。当基于除第n份文本对样本集合之外的文本对样本集合，得到训练后的第一文本预测模型后，基于第n份文本对样本集合，通过训练得到的第一文本预测模型对第n份文本对样本集合进行文本预测处理，得到针对第n份文本对样本集合的预测结果，从而得到N份针对文本对样本集合的预测结果，节约训练成本。

在一些实施例中，通过训练后的第一文本预测模型对第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果，包括：通过训练后的第一文本预测模型对第一文本样本进行词向量转换处理，得到第一文本样本的词向量；对第一文本样本的词向量进行编码处理，得到包含上下文信息的编码向量；对包含上下文信息的编码向量进行解码处理，得到针对第一文本样本的预测结果。

在得到训练后的第一文本预测模型后，可以通过训练后的第一文本预测模型先对第一文本样本进行词向量转换处理，得到第一文本样本的词向量，以便后续根据词向量进行编码处理。通过第一文本预测模型的长短时记忆网络隐层对第一文本样本的词向量进行编码处理，融合第一文本样本的上下文，得到包含上下文信息的编码向量。在得到包含上下文信息的编码向量后，对对包含上下文信息的编码向量进行解码处理，得到针对第一文本样本的预测结果(文本对样本的语义关系、即仅根据第一文本对样本，得到文本样本的语义关系(标签))。

作为示例，参见图3，通过文本对分类模型的训练装置555中的第二训练模块5555可以对基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及第一文本训练样本，对第一文本预测模型进行训练处理，得到训练后的第一文本预测模型，通过预测模型5551中训练好的第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果，并将针对第一文本样本的预测结果输入至第一处理模块5552中。

在步骤102中，基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重。

当通过有选择偏差的第一文本预测模型对第一文本样本进行文本预测处理，得到针对第一文本样本的预测结果后，还需要得到针对文本对样本的权重，以确定该文本对样本的重要性，以根据权重训练文本对分类模型。为了得到针对文本对样本的权重，需要基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，以确定该文本对样本的重要性。

在一些实施例中，针对第一文本样本的预测结果为针对第一文本样本的各关系标签的概率；基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重，包括：确定文本对样本数据集在无偏分布时，文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率；根据针对第一文本样本的各关系标签的概率、以及各关系标签的无偏概率，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重。

其中，针对第一文本样本的预测结果为针对第一文本样本的各关系标签的概率，例如关系标签有两个，分别为第一关系标签(重复标签)和第二关系标签(非重复标签)，则针对第一文本样本的预测结果为：针对第一文本样本的第一关系标签的概率(仅根据第一文本样本，即得到文本对样本中第一文本样本与第二文本样本的第一关系标签的概率)和针对第一文本的样本的第二关系标签的概率(仅根据第一文本样本，即得到文本对样本中第一文本样本与第二文本样本的第二关系标签的概率)。为了得到针对文本对样本的权重，首先确定文本对样本数据集在无偏分布时，文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率，然后根据针对第一文本样本的各关系标签的概率、以及各关系标签的无偏概率，对针对第一文本样本的预测结果进行偏差分析处理，从而得到针对文本对样本的权重，也就是在针对第一文本样本的各关系标签的概率中融入各关系标签的无偏概率(考虑各关系标签的无偏概率)，使得计算得到的针对文本对样本的权重考虑到各关系标签的无偏概率。当针对第一文本样本的各关系标签的概率越大、即文本对样本的选择偏差越大，则针对文本对样本的权重越小，使得该文本对样本越不重要，在后续文本对分类模型中的训练中，需要忽略该文本对样本。

在一些实施例中，确定文本对样本数据集在无偏分布时，文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率，包括：基于各关系标签的先验概率的比值、以及针对第一文本样本的各关系标签的概率，通过二分法对未知的无偏概率进行迭代处理，得到文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率。

为了得到文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率，需要先确定基于各关系标签的先验概率，从而确定基于各关系标签的先验概率的比值，例如，第一关系标签的先验概率(0.6)和第二关系标签的先验概率(0.4)，从而确定第一关系标签的先验概率和第二关系标签的先验概率的比值为1.5。确定了基于各关系标签的先验概率的比值后，假定第一文本样本与第二文本样本的各关系标签的无偏概率为未知数，根据基于各关系标签的先验概率的比值以及针对第一文本样本的各关系标签的概率，通过二分法对未知的无偏概率进行迭代处理，从而得到文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率。由于文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率的计算相当复杂，为了节约计算量，可以通过二分法对未知的各关系标签的无偏概率进行迭代处理，快速得到文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率，降低计算成本。

在一些实施例中，根据针对第一文本样本的各关系标签的概率、以及各关系标签的无偏概率，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重，包括：确定针对第一文本样本的第一关系标签的第一概率、以及针对第一文本样本的第二关系标签的第二概率、第一关系标签的第一无偏概率以及第二关系标签的第二无偏概率；将第一概率与第二无偏概率的第一乘积、与第二概率与第一无偏概率的第二乘积进行求和处理，得到处理结果；将处理结果与第一乘积进行比值处理，得到文本对样本针对第一关系标签的权重；将处理结果与第二乘积进行比值处理，得到文本对样本针对第二关系标签的权重。

确定针对第一文本样本的各关系标签的概率(例如，针对第一文本样本的第一关系标签的第一概率和针对第二文本样本的各关系标签的第二概率)、以及各关系标签的无偏概率(例如，第一关系标签的第一无偏概率和第二关系标签的第二无偏概率)后，可以根据针对第一文本样本的各关系标签的概率、以及各关系标签的无偏概率，确定文本对样本针对第二关系标签的权重。可以将第一概率与第二无偏概率的第一乘积、与第二概率与第一无偏概率的第二乘积进行求和处理，得到处理结果，再将处理结果与第一乘积进行比值处理，得到文本对样本针对第一关系标签的权重、将处理结果与第二乘积进行比值处理，得到文本对样本针对第二关系标签的权重，从而得到针对文本对样本的权重。本发明实施例并不局限于文本对样本的二分类问题，还可应用于文本对样本的多分类问题。

作为示例，参见图3，通过文本对分类模型的训练装置555中的第一处理模块5552可以基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重，并将针对文本对样本的权重输入至第一训练模块5554中。

在步骤103中，通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果。

在基于文本对样本数据集的无偏分布，对针对第一文本样本的预测结果进行偏差分析处理，得到针对文本对样本的权重后，需要通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，从而得到针对文本对样本的分类结果，以便后续通过针对文本对样本的分类结果以及针对文本对样本的权重对文本对分类模型进行训练，从而去除文本对分类模型的“第一文本预测”偏差。

在一些实施例中，通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果，包括：分别对第一文本样本以及第二文本样本进行词向量转换处理，得到第一文本样本的词向量以及第二文本样本的词向量；分别对第一文本样本的词向量以及第二文本样本的词向量进行编码处理，得到包含第一文本样本的上下文信息的第一编码向量、以及包含第二文本样本的上下文信息的第二编码向量；对第一编码向量以及第二编码向量进行拼接处理，得到拼接向量；对拼接向量进行语义关系解码处理，得到针对文本对样本的分类结果。

在通过针对文本对样本的权重训练文本对分类模型前，需要通过文本对分类模型对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果，以便后续根据针对文本对样本的分类结果以及针对文本对样本的权重训练文本对分类模型。本发明实施例可以通过双向长短时记忆网络对第一文本样本以及第二文本样本进行语义关系分类处理，需要先分别对第一文本样本以及第二文本样本进行词向量转换处理，得到第一文本样本的词向量以及第二文本样本的词向量，以便后续基于词向量进行编码操作，在得到第一文本样本的词向量以及第二文本样本的词向量后，通过文本对分类模型中的长短时记忆网络的隐层分别对第一文本样本的词向量以及第二文本样本的词向量进行编码处理，得到包含第一文本样本的上下文信息的第一编码向量、以及包含第二文本样本的上下文信息的第二编码向量，对第一编码向量以及第二编码向量进行拼接处理，得到拼接向量，并通过文本对分类模型的输出层对拼接向量进行语义关系解码处理，得到针对文本对样本的分类结果。其中，当文本对样本具有选择偏差，则得到的针对文本对样本的分类结果也会有一定程度的“第一文本预测”偏差。

在一些实施例中，对第一文本样本的词向量进行编码处理，得到包含第一文本样本的上下文信息的第一编码向量，包括：对第一文本样本的词向量进行前向编码处理，得到对应第一文本样本的第一前向隐向量；对第一文本样本的词向量进行后向编码处理，得到对应第一文本样本的第一后向隐向量；对第一前向隐向量以及第一后向隐向量进行融合处理，得到包含第一文本样本的上下文信息的第一编码向量；

对第二文本样本的词向量进行编码处理，得到包含第二文本样本的上下文信息的第二编码向量，包括：对第二文本样本的词向量进行前向编码处理，得到对应第二文本样本的第二前向隐向量；对第二文本样本的词向量进行后向编码处理，得到对应第二文本样本的第二后向隐向量；对第二前向隐向量以及第二后向隐向量进行融合处理，得到包含第二文本样本的上下文信息的第二编码向量。

在服务器得到第一文本样本的词向量以及第二文本样本的词向量后，可以将词向量输入至文本对分类模型的双向长短时记忆网络(BLSTM或BiLSTM，Bidirectional LongShort-term Memory)的隐层，并通过双向长短时记忆网络的隐层对第一文本样本的词向量分别进行前向编码和后向编码处理，从而得到第一文本样本的第一前向隐向量以及第一后向隐向量，并对第一文本样本的第一前向隐向量以及第一后向隐向量进行融合处理，从而得到包含第一文本样本的上下文信息的编码信息，其中，第一前向隐向量包含第一文本样本的前向所有信息，第一后向隐向量包含第一文本样本的后向所有信息。因此，融合第一前向隐向量以及第一后向隐向量后的编码信息包含第一文本样本的所有信息。通过双向长短时记忆网络的隐层对第二文本样本的词向量分别进行前向编码和后向编码处理，从而得到第二文本样本的第二前向隐向量以及第二后向隐向量，并对第二文本样本的第二前向隐向量以及第二后向隐向量进行融合处理，从而得到包含第二文本样本的上下文信息的编码信息，其中，第二前向隐向量包含第二文本样本的前向所有信息，第二后向隐向量包含第二文本样本的后向所有信息。因此，融合第二前向隐向量以及第二后向隐向量后的编码信息包含第二文本样本的所有信息。

其中，可以通过文本对分类模型对第一文本样本的词向量中的第i向量进行前向编码处理，得到第一文本样本的第i前向隐向量；对第一文本样本的词向量中的第i向量进行后向编码处理，得到第一文本样本的第i后向隐向量；将第i前向隐向量、第i后向隐向量进行拼接处理，得到包含第一文本样本的上下文信息的第i编码信息。通过文本对分类模型对第二文本样本的词向量中的第i向量进行前向编码处理，得到第二文本样本的第i前向隐向量；对第二文本样本的词向量中的第i向量进行后向编码处理，得到第二文本样本的第i后向隐向量；将第i前向隐向量、第i后向隐向量进行拼接处理，得到包含第二文本样本的上下文信息的第i编码信息。

其中，0＜i≤N，且i、N为正整数，N为词向量中向量的总数目。当词向量中有N个向量，则对N个向量按照前向方向进行编码，依次得到在前向方向的N个隐向量，例如对词向量按照前向方向进行编码处理后，得到在前向方向的隐向量为{h_1l,h_2l,...h_il...,h_Nl}，其中，h_il表示第i向量在前向方向的第i隐向量。对N个向量按照后向方向进行编码，依次得到在后向方向的N个隐向量，例如对词向量按照后向方向进行编码处理后，得到在后向方向的隐向量为{h_1r,h_2r,...h_ir...,h_Nr}，其中，h_ir表示第i向量在后向方向的第i隐向量。将在前向方向的隐向量为{h_1l,h_2l,...h_il...,h_Nl}以及在后向方向的隐向量为{h_1r,h_2r,...h_ir...,h_Nr}进行拼接，得到包含上下文信息的编码信息{[h_1l,h_1r],[h_2l,h_2r],...[h_il,h_ir]...,[h_Nl,h_Nr]}，例如，将第i向量在前向方向的第i隐向量h_il、第i向量在后向方向的第i隐向量h_ir进行拼接处理，得到包含上下文信息的第i编码信息{h_il,h_ir}。为了节约计算过程，由于前向方向的最后一个隐向量包含前向方向的大部分信息、后向方向的最后一个隐向量包含后向方向的大部分信息，因此，可以直接对前向方向的最后一个隐向量以及后向方向的最后一个隐向量进行融合，得到包含上下文信息的编码信息。

为了节约计算过程，在服务器在得到第一文本样本的词向量以及第二文本样本的词向量后，还可以将词向量输入至文本对分类模型的长短时记忆网络(LSTM，Long Short-term Memory)的隐层，并通过长短时记忆网络的隐层对第一文本样本的词向量分别进行前向编码或后向编码处理，从而得到第一文本样本的第一前向隐向量或第一后向隐向量，并对第一文本样本的第一前向隐向量或第一后向隐向量进行融合处理，从而得到包含第一文本样本的上下文信息的编码信息。

作为示例，参见图3，通过文本对分类模型的训练装置555中的分类模块5553中的文本分类模型可以对文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对文本对样本的分类结果，并将针对文本对样本的分类结果输入至第一训练模块5554中。

在步骤104中，基于针对文本对样本的权重、以及针对文本对样本的分类结果，构建文本对分类模型的损失函数；更新文本对分类模型的参数直至损失函数收敛，将损失函数收敛时文本对分类模型的更新的参数、确定为通过训练后得到的参数。

在服务器得到针对文本对样本的权重、以及针对文本对样本的分类结果后，可以基于针对文本对样本的权重、以及针对文本对样本的分类结果对文本对分类模型进行训练、即构建文本对分类模型的损失函数，并更新文本对分类模型的参数直至损失函数收敛，从而得到训练后的文本对分类模型，使得文本对分类模型考虑针对文本对样本的权重，去除文本对样本的选择偏差。

在一些实施例中，更新文本对分类模型的参数直至损失函数收敛，包括：当损失函数的值超出阈值时，基于文本对分类模型的损失函数确定相应的误差信号；将误差信号在文本对分类模型中反向传播，并在传播的过程中更新文本对分类模型的参数直至损失函数收敛。

其中，当服务器基于针对文本对样本的分类结果(针对文本对样本的各关系标签的概率)，确定文本对分类模型的损失函数的值后，可以判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定文本对分类模型的误差信号，将误差信息在文本对分类模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛，其中，文本对分类模型属于神经网络模型。

在一些实施例中，针对文本对样本的分类结果为针对文本对样本的各关系标签的条件概率，基于针对文本对样本的权重、以及针对文本对样本的分类结果，构建文本对分类模型的损失函数，包括：对针对文本对样本的各关系标签的条件概率的倒数进行对数处理，得到对数结果；将对数结果、与基于针对文本对样本的权重的乘积，确定为文本对分类模型的损失函数。

其中，文本对分类模型的损失函数为

即分类任务中的交叉熵损失函数。其中，θ表示文本对分类模型的参数，f(·)表示文本对分类模型输出的条件概率(文本对样本的分类结果、针对文本对样本的各关系标签的条件概率)，w表示针对文本对样本的权重。使用w作为权重可以使文本对分类模型去拟合一个无偏分布，从而去除数据集中存在的偏差，提升文本对分类模型的泛化能力。

作为示例，参见图3，通过文本对分类模型的训练装置555中的第一训练模块5554可以基于针对文本对样本的权重、以及针对文本对样本的分类结果，构建文本对分类模型的损失函数；更新文本对分类模型的参数直至损失函数收敛。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的文本对分类模型的训练方法，下面继续说明本发明实施例提供的文本对分类模型的训练装置555中各个模块配合实现文本对分类模型的训练的方案。

预测模块5551，用于通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果；

第一处理模块5552，用于基于文本对样本数据集的无偏分布，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重；

分类模块5553，用于通过文本对分类模型对所述文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对所述文本对样本的分类结果；

第一训练模块5554，用于基于所述针对所述文本对样本的权重、以及所述针对所述文本对样本的分类结果，构建所述文本对分类模型的损失函数；

在一些实施例中，所述文本对分类模型的训练装置555还包括：

第二训练模块5555，用于基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及所述第一文本训练样本，对所述第一文本预测模型进行训练处理，得到训练后的第一文本预测模型；

所述预测模块5551还用于通过所述训练后的第一文本预测模型对所述第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果；其中，所述第一文本样本为所述文本对样本数据集中的文本样本。

在一些实施例中，所述第二训练模块5555还用于对所述文本对样本数据集进行划分处理，得到N份文本对样本集合；对于所述N份文本对样本集合中的任一第n份文本对样本集合，执行以下处理：

初始化所述基于第二文本的预测模型的参数；将除第n份文本对样本集合之外的文本对样本集合确定为文本对样本训练集，并通过所述文本对样本训练集对所述第一文本预测模型进行训练，得到训练后的第一文本预测模型；所述预测模块还用于基于第n份文本对样本集合，通过第一文本预测模型对所述第n份文本对样本集合进行文本预测处理，得到针对所述第n份文本对样本集合的预测结果；其中，0<n≤N，且n、N为自然数。

在一些实施例中，所述预测模块5551还用于通过所述训练后的第一文本预测模型对所述第一文本样本进行词向量转换处理，得到所述第一文本样本的词向量；对所述第一文本样本的词向量进行编码处理，得到包含上下文信息的编码向量；对所述包含上下文信息的编码向量进行解码处理，得到针对所述第一文本样本的预测结果。

在一些实施例中，所述针对所述第一文本样本的预测结果为针对所述第一文本样本的各关系标签的概率；所述第一处理模块5552还用于确定文本对样本数据集在无偏分布时，所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率；根据所述针对所述第一文本样本的各关系标签的概率、以及所述各关系标签的无偏概率，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重。

在一些实施例中，所述第一处理模块5552还用于基于各关系标签的先验概率的比值、以及所述针对所述第一文本样本的各关系标签的概率，通过二分法对未知的无偏概率进行迭代处理，得到所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率。

在一些实施例中，所述第一处理模块5552还用于确定针对所述第一文本样本的第一关系标签的第一概率、以及针对所述第一文本样本的第二关系标签的第二概率、第一关系标签的第一无偏概率以及第二关系标签的第二无偏概率；将所述第一概率与所述第二无偏概率的第一乘积、与所述第二概率与所述第一无偏概率的第二乘积进行求和处理，得到处理结果；将所述处理结果与所述第一乘积进行比值处理，得到所述文本对样本针对所述第一关系标签的权重；将所述处理结果与所述第二乘积进行比值处理，得到所述文本对样本针对所述第二关系标签的权重。

在一些实施例中，所述分类模块5553还用于分别对所述第一文本样本以及所述第二文本样本进行词向量转换处理，得到所述第一文本样本的词向量以及所述第二文本样本的词向量；分别对所述第一文本样本的词向量以及所述第二文本样本的词向量进行编码处理，得到包含所述第一文本样本的上下文信息的第一编码向量、以及包含所述第二文本样本的上下文信息的第二编码向量；对所述第一编码向量以及所述第二编码向量进行拼接处理，得到拼接向量；对所述拼接向量进行语义关系解码处理，得到针对所述文本对样本的分类结果。

在一些实施例中，所述分类模块5553还用于对所述第一文本样本的词向量进行前向编码处理，得到对应所述第一文本样本的第一前向隐向量；对所述第一文本样本的词向量进行后向编码处理，得到对应所述第一文本样本的第一后向隐向量；对所述第一前向隐向量以及所述第一后向隐向量进行融合处理，得到包含所述第一文本样本的上下文信息的第一编码向量；对所述第二文本样本的词向量进行前向编码处理，得到对应所述第二文本样本的第二前向隐向量；对所述第二文本样本的词向量进行后向编码处理，得到对应所述第二文本样本的第二后向隐向量；对所述第二前向隐向量以及所述第二后向隐向量进行融合处理，得到包含所述第二文本样本的上下文信息的第二编码向量。

在一些实施例中，所述针对所述文本对样本的分类结果为针对所述文本对样本的各关系标签的条件概率，所述第一训练模块5554还用于对所述针对所述文本对样本的各关系标签的条件概率的倒数进行对数处理，得到对数结果；将所述对数结果、与所述基于所述针对所述文本对样本的权重的乘积，确定为所述文本对分类模型的损失函数。

在一些实施例中，所述第一训练模块5554还用于当所述损失函数的值超出阈值时，基于所述文本对分类模型的损失函数确定相应的误差信号；将所述误差信号在所述文本对分类模型中反向传播，并在传播的过程中更新所述文本对分类模型的参数直至所述损失函数收敛。

基于上述对文本对分类模型的训练方法以及结构的说明，接下来对本发明实施例提供的文本对分类设备的示例性应用进行说明，其中，文本对分类设备中的文本对分类模型为基于上述对文本对分类模型的训练方法得到，作为示例，参见图5，图5是本发明实施例提供的文本对分类系统20的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端200本地执行本发明实施例提供的文本对分类方法来完成根据用户输入的待分类的文本对，得到文本对中第一文本与所述第二文本的语义关系，例如，在终端200上安装分类应用，用户在分类应用中，输入待分类的文本对，终端200根据输入的待分类的文本对，得到文本对中第一文本与第二文本的语义关系，例如包含关系、重复关系、对立关系、类似关系等，并将文本对中第一文本与第二文本的语义关系显示在终端200的显示界面210上，以便用户了解输入的文本对中第一文本与第二文本的语义关系。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端200上输入的待分类的文本对，并调用服务器100提供的文本对分类功能，服务器100通过本发明实施例提供的文本对分类方法获得文本对中第一文本与所述第二文本的语义关系，例如，在终端200上安装分类应用，用户在分类应用中，输入待分类的文本对，终端通过网络300向服务器100发送待分类的文本对，服务器100接收到该待分类的文本对后，通过对该待分类的文本对进行语义关系分类处理，得到文本对中第一文本与所述第二文本的语义关系，例如包含关系、重复关系、对立关系等，并返回文本对中第一文本与第二文本的语义关系至分类应用，将文本对中第一文本与所述第二文本的语义关系显示在终端200的显示界面210上，或者，服务器100直接给出文本对中第一文本与所述第二文本的语义关系，以便用户了解输入的文本对中第一文本与第二文本的语义关系。

基于上述文本对分类系统进行说明。参见图6，图6是本发明实施例提供的文本对分类设备600的结构示意图，图6所示的文本对分类设备600包括：至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中，处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似，即输出装置631、输入装置632的功能与输出装置531、输入装置532的功能类似，操作系统651、网络通信模块652、显示模块653、输入处理模块654的功能分别与操作系统551、网络通信模块552、显示模块553、输入处理模块554的功能类似，不做赘述。

在另一些实施例中，本发明实施例提供的文本对分类装置可以采用软件方式实现，图6示出了存储在存储器650中的文本对分类装置655，其可以是程序和插件等形式的软件，并包括一系列的模块，包括确定模块6551以及第二处理模块6552；其中，确定模块6551以及第二处理模块6552用于实现本发明实施例提供的文本对分类方法。

根据上文可以理解，本发明实施例提供的文本对分类方法可以由各种类型的文本对分类设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的文本对分类方法。参见图7A，图7A是本发明实施例提供的文本对分类方法的流程示意图，结合图7A示出的步骤进行说明。

在步骤201中，确定待分类的文本对中的第一文本以及第二文本。

用户在终端上输入待分类的文本对，输入完成后，终端也可以通过网络向服务器发送用户在终端上输入的待分类的文本对，服务器接收到该待分类的文本对后，可以确定待分类的文本对中的第一文本以及第二文本，以进行后续分类处理。

在步骤202中，通过文本对分类模型对第一文本以及第二文本进行语义关系分类处理，得到文本对中第一文本与第二文本的语义关系。

其中，文本对分类模型是基于一种文本对分类模型的训练方法得到的，训练方法确定的文本对分类模型的参数是通过基于针对文本对样本的权重、以及针对文本对样本的分类结果所构建的文本对分类模型的损失函数收敛时得到的，其中，基于针对文本对样本的权重是基于文本对样本数据集的无偏分布，对针对文本对样本中的第一文本样本的预测结果进行偏差分析处理得到的。

通过训练后的文本对分类模型对第一文本以及第二文本进行语义关系分类处理，得到文本对中第一文本与第二文本的各语义关系标签的概率，例如语义关系标签为第一关系(例如，重复)标签的概率(0.2)和第二关系标签(例如，非重复)的概率(0.8)，从文本对中第一文本与第二文本的各语义关系标签的概率中选取最大值所对应的关系标签为文本对的语义关系(例如，重复)。当服务器确定了文本对中第一文本与第二文本的语义关系后，可以通过网络向终端发送文本对中第一文本与第二文本的语义关系，或者直接给出文本对中第一文本与第二文本的语义关系，以便用户了解输入的文本对中第一文本与第二文本的语义关系。

参见图7B，图7B是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图7B示出图7A中步骤202可以通过图7B示出的步骤2011-步骤2014实现。

在步骤2011中，通过文本对分类模型分别对第一文本以及第二文本进行词向量转换处理，得到第一文本的词向量以及第二文本的词向量；

在步骤2012中，分别对第一文本的词向量以及第二文本的词向量进行编码处理，得到包含第一文本的上下文信息的第一编码向量、以及包含第二文本的上下文信息的第二编码向量；

在步骤2013中，对第一编码向量以及第二编码向量进行拼接处理，得到拼接向量；

在步骤2014中，对拼接向量进行语义关系解码处理，得到文本对中第一文本与第二文本的语义关系。

其中，训练后的文本对分类模型考虑去除训练样本的选择偏差，因此，通过训练后的文本对分类模型，得到的文本对中第一文本与第二文本的语义关系没有“第一文本预测”偏差。本发明实施例可以通过长短时记忆网络对第一文本以及第二文本进行语义关系分类处理，需要先分别对第一文本以及第二文本进行词向量转换处理，得到第一文本的词向量以及第二文本的词向量，以便后续基于词向量进行编码操作，在得到第一文本的词向量以及第二文本的词向量后，通过文本对分类模型中的长短时记忆网络的隐层分别对第一文本的词向量以及第二文本的词向量进行编码处理，得到包含第一文本的上下文信息的第一编码向量、以及包含第二文本的上下文信息的第二编码向量，对第一编码向量以及第二编码向量进行拼接处理，得到拼接向量，并通过文本对分类模型的输出层对拼接向量进行语义关系解码处理，得到针对文本对样本的分类结果。

至此已经说明本发明实施例提供的文本对分类方法，下面继续说明本发明实施例提供的文本对分类装置655中各个模块配合实现图像的文本对分类的方案。

确定模块6551，用于确定待分类的文本对中的第一文本以及第二文本；

第二处理模块6552，用于通过所述文本对分类模型对所述第一文本以及所述第二文本进行语义关系分类处理，得到所述文本对中所述第一文本与所述第二文本的语义关系。

在一些实施例中，所述第二处理模块6552还用于通过所述文本对分类模型分别对所述第一文本以及所述第二文本进行词向量转换处理，得到所述第一文本的词向量以及所述第二文本的词向量；

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的文本对分类模型的训练方法，例如，如图4A-4B示出的文本对分类模型的训练方法，或本发明实施例提供的文本对分类方法，例如，如图7A-7B示出的文本对分类方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例中的文本对匹配是在给定两个文本的情况下，根据两个文本之间的语义关系，判断两个文本之间的关系标签。常见的文本对匹配任务包括如文本蕴含(文本间的推理关系，又称为文本蕴含关系(TextualEntailment)，作为一种基本的文本间语义联系，广泛存在于自然语言文本中，文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提(premise)，另一个文本作为假设(hypothesis)，如果根据前提P能够推理得出假设H，那么就说P蕴含H，记做P→H。文本蕴含识别(RTE，Recognizing TextualEntailment)主要目标是对前提和假设进行判断，判断其是否具有蕴含关系。文本蕴含识别形式上是一个文本对分类的问题，文本蕴含识别可以是一个三分类的问题，三分类的标签可以是蕴含(entailment)、对立(contradiction)、中立(neutral))、同义识别等。文本对匹配任务是机器理解自然语言的基础，往往需要大规模的有标签数据来训练模型。

然而，由于用户对数据集采样的不规范操作等原因，数据集常常会包含一些有偏的模式(数据集包含用户采样的偏好)。其中一个典型的有偏模式，是一些只基于文本对中句子2(第一文本)的特征有预测能力，体现为只根据文本对中的句子2即可预测两句话的关系(这种有偏的模式是依赖于数据集的，体现于在数据集中只靠句子2就可以获得对应的标签，比如，句子2中包含一些否定词，那么文本对的标签为不包含(“Not-Entailment”))，这种有偏模式在文本对匹配数据集中广泛存在。这种偏差产生的原因在于，在数据集收集过程中，对于不同的关系标签，用户会选择不同类型的句子2。比如在文本蕴含数据集中，对于“对立”这一关系，用户可能会在句子2中包含很多否定词。当采用这种有偏数据集训练神经网络模型时，神经网络模型后续可以只根据句子2就可以做出一定预测，得到文本对的语义关系。神经网络模型往往会学到这种有偏的模式并加以应用。然而这种偏差无法推广到真实世界，假如神经网络模型学到这种偏差，神经网络模型的实际应用性能就会受到影响。

孪生长短时记忆网络(Siamese-LSTM)模型是一种常见的文本对匹配模型，在文本对匹配任务中广泛应用，参见图8，图8是本发明实施例提供的孪生长短时记忆网络模型结构示意图。孪生长短时记忆网络模型可以为两个句子分别进行编码，首先在输入层把两个句子表示为词向量的序列(例如，采用word2vec将句子转换为词向量)，之后在隐层使用长短时记忆网络(LSTM，Long Short Term Network)对词向量进行编码，得到两个句子的编码向量，并将两个编码向量进行拼接，输入至多层前馈神经网络(FNN，Feedforward NeuralNetwork)，FNN对句子关系进行解码后得到表征两句话关系的标签，其中FNN的最后一层输出层会输出一个二维向量，分别代表各关系标签的概率。

为了缓解孪生长短时记忆网络模型受到的数据集偏差的影响，可以采用去偏技术解决上述问题，例如使用对抗方法(生成对抗网络(GAN，Generative AdversarialNetworks))，参见图9，图9是本发明实施例提供的采用生成对抗网络的孪生长短时记忆网络模型结构示意图。在图8的基础上，加上生成对抗网络来缓解数据集偏差的影响，图9中只对句子2进行逆梯度，是因为有偏的模式体现为仅根据句子2就可以预测标签，所以去偏的关键在于使得隐层的句子2编码没有预测能力，这样采用生成对抗网络的孪生长短时记忆网络模型就无法学到这种有偏模式。使用对抗方法是在原孪生长短时记忆网络模型的基础上添加了一个分辨器(通过分辨器实现对抗方法)。对抗方法的目标函数1如公式(1)所示、目标函数2如公式2所示：

其中，y表示标签，x₁,x₂分别表示句子1和句子2。θ表示原孪生长短时记忆网络模型的参数，φ表示分辨器的参数，α、β是两个超参数(在机器学习的上下文中，超参数是在开始学习过程之前的参数，而不是通过训练得到的参数数据)。目标函数2(Loss2)使得分辨器尽可能用句子2编码预测标签，而目标函数1(Loss1)则对目标函数2进行对抗，改变采用生成对抗网络的孪生长短时记忆网络模型的参数使得句子2编码尽可能没有预测能力。图9中的逆梯度对应的是目标函数1等式右边第二项，其作用在于与目标函数2形成对抗，从而使得句子2编码无预测能力，进而实现去偏。

原Siamese-LSTM模型容易受到数据集中偏差的影响，由于数据集中的偏差是数据集收集过程导致的，无法泛化到真实世界的应用场景，原Siamese-LSTM模型的泛化能力会受偏差影响而大大降低。

对于在原Siamese-LSTM模型中引入对抗训练方法，虽然可以实现去偏。但是对抗训练会使得训练过程不稳定，优化两个目标函数可能会导致训练过程震荡、训练时长增加、训练成本增高，从而极大浪费硬件资源。同时，对抗方法中超参数的设置很大程度上影响训练效果，然而调整超参数的过程不仅浪费时间，而且无法通用到不同的数据集。

本发明实施例通过缓解数据集中偏差对模型的影响，提升模型的实际泛化能力，从而获得性能更好的文本对分类模型。为达到上述效果，本发明实施例提出一个基于样本加权的去偏文本对分类技术(文本对分类模型的训练方法)。本发明实施例使用一个“只用句子2预测”的模型(第一文本预测模型)来计算样本的权重，通过计算出的权重使得文本对分类模型在训练时拟合一个无偏的分布，从而使得文本对分类模型只能通过语义关系来进行预测，进而提升文本对分类模型的实际性能，提高泛化能力。并且本发明实施例得到的文本对分类模型缓解了模型受到数据集中偏差的影响，同时对训练过程的影响较小，不容易引起训练的震荡，对训练成本影响较小。

本发明实施例以二分类为例，应用于推荐内容筛选(阅读应用)场景(属于文本对匹配的范畴)。为了得到针对阅读应用的文本对分类模型(阅读系统)，服务器或者终端可以调用文本对分类模型的训练方法，通过第一文本预测模型对新闻对样本中的第一新闻样本进行文本预测处理，得到针对第一新闻样本的预测结果(仅根据第一新闻样本得出的新闻对样本中第一新闻样本与第二新闻样本的第一语义标签概率，例如第一新闻样本与第二新闻样本“重复”标签的概率和“不重复”标签的概率)，并基于新闻对样本数据集的无偏分布，对针对第一新闻样本的预测结果进行偏差分析处理，得到针对新闻对样本的权重，通过文本对分类模型对新闻对样本中的第一新闻样本以及第二新闻样本进行语义关系分类处理，得到针对新闻对样本的分类结果(新闻对样本中第一新闻样本与第二新闻样本的第一语义标签概率，例如第一新闻样本与第二新闻样本“重复”标签的概率和“不重复”标签的概率)，基于针对新闻对样本的权重、以及针对新闻对样本的分类结果，构建文本对分类模型的损失函数，并基于该损失函数对文本对分类模型进行训练，得到训练后的文本对分类模型，以便后续可以根据训练后的文本对分类模型对待分类的新闻对进行分类，得到待分类的新闻对中第一新闻与第二新闻的语义关系。将训练后的文本对分类模型可应用于推荐内容筛选场景。

参见图10A，图10A是应用本发明实施例文本对分类模型的训练方法之前的推荐内容筛选场景示意图，在用户点击图10A中的推荐按钮1001后，响应于用户推荐请求，服务器或者终端根据召回规则召回一些新闻，对召回的新闻进行两两组合，得到多对新闻对，并通过未采用文本对分类模型的训练方法的文本对分类模型对该多对新闻对进行语义关系分类处理，由于用户对数据集采样的不规范操作等原因，数据集常常会包含一些有偏的模式、即只基于新闻对中的第一新闻的特征有预测能力，体现为只根据第一新闻即可预测新闻对的关系，例如，如图10A所示，服务器或者终端仅根据召回的新闻对(第一新闻1002(“普通人达到年薪30万并不难”)和第二新闻1003(“普通人达到年薪30万到底有多难”))中的第一新闻1002进行语义关系分类处理，得到该新闻对的语义标签(“重复”标签的概率为20％，“不重复”标签的概率为80％)，并根据语义标签中“不重复”标签的概率大于“重复”标签的概率，确定该新闻对的语义关系为不重复，则通过设置的推送逻辑，将第一新闻1002以及第二新闻1003推送给用户。然而，实际上第一新闻1002以及第二新闻1003的语义关系为重复，因此，只需要抽取第一新闻1002以及第二新闻1003中的一个新闻推送给用户。

为了解决上述重复推荐的问题，将通过上述文本对模型的训练方法训练后的文本对分类模型应用于推荐内容筛选场景、即图10A。参见图10B，图10是应用本发明实施例文本对分类模型的训练方法之后的推荐内容筛选场景示意图，在进行内容推荐时，需要对新闻内容进行重复筛选，以防止重复推荐。在用户点击推荐按钮1001后，响应于用户推荐请求，服务器或者终端根据召回规则召回一些新闻，对召回的新闻进行两两组合，得到多对新闻对，并通过训练后的文本对分类模型对该多对新闻对进行语义关系分类处理，由于训练后的文本对分类模型缓解了模型受到数据集中偏差的影响，提升文本对分类模型的泛化能力，解决了只根据第一新闻即可预测新闻对的关系的问题，例如，如图10B所示，服务器或者终端根据召回的新闻对第一新闻1002(“普通人达到年薪30万并不难”)以及第二新闻1003(“普通人达到年薪30万到底有多难”)进行语义关系分类处理，得到该新闻对的语义标签(“重复”标签的概率为90％，“不重复”标签的概率为10％)，并根据语义标签中“重复”标签的概率大于“不重复”标签的概率，确定该新闻对的语义关系为重复，则抽取其中的一条新闻(第二新闻1003)作为待推荐新闻，通过设置的推送逻辑，将第一新闻1002推送给用户，从而减少推荐重复的新闻内容。另外，当用户不想推荐应用推荐已经阅读过的类似的新闻，可以点击“后面将减少推荐类似内容”按钮1004后，响应于用户请求，服务器或者终端后续根据召回规则召回一些新闻后，可以预先根据用户已阅读过的新闻(一段时间内通过点击操作确定过的新闻，例如1天内通过点击操作阅读过的新闻)对召回的新闻进行语义关系分类处理，确定召回的新闻是否与用户已阅读过的新闻重复，当确定该召回的新闻与用户已阅读过的新闻重复，则筛除该召回的新闻，再将经过筛除处理后的新闻输入至训练后的文本对分类模型进行语义关系分类处理，从而减少推荐用户已阅读过的新闻内容。本发明实施例并不局限该推荐内容筛选场景，也可应用于其他文本对匹配的应用场景。

参见图11，图11是本发明实施例提供的应用流程示意图，该应用流程包括：1)输入训练集；2)训练第一文本预测模型；3)计算样本权重；4)训练文本对分类模型；5)评估模型效果并实际应用。下面对上述应用流程的每一步进行详细介绍：

1)输入训练集

训练模型需要有一个有标签的数据集用来训练、选择和评估模型。数据集由文本对和其对应标签组成，以筛选重复新闻为例，数据集中每个样本包含两条新闻和一个表示这两条新闻是否重复的标签。本发明实施例用X表示文本对，x₁,x₂表示文本对中的句子1(第二文本)和句子2(第一文本)，Y表示标签。将数据集分为训练集、开发集和测试集，训练集、开发集和测试集分别用来训练模型、选择模型和评估模型。其中，训练集是用来训练模型的，训练集大，开发集、测试集小，训练集占用绝大部分的数据集；开发集用来对训练集训练出来的模型进行测试，通过测试结果来不断地优化模型；测试集是在训练结束后，对训练出的模型进行一次最终的评估所用的数据集。

2)训练第一文本预测模型

参见图12，图12是本发明实施例提供的第一文本预测模型以及文本对分类模型的结构示意图，如图12左边所示，在训练第一文本预测模型的过程中，使用LSTM作为分类器。需要训练只使用x₂预测的第一文本预测模型来估计数据集中每个样本的预测结果P(Y|X₂)，为了为每个样本估计的预测结果P(Y|X₂)。参见图13，图13是本发明实施例提供的K折交叉测试流程示意图，使用K折交叉测试对第一文本预测模型进行训练，并得到每个样本的预测结果P(Y|X₂)，其中，交叉验证是指把数据集分组，分为测试集和训练集，训练集用于训练模型，测试集用于测试模型。通过对k个不同分组训练的结果进行平均来减少方差，因此模型的性能对数据的划分就不那么敏感。防止模型过于复杂而引起的过拟合，是一种评价训练数据的数据集泛化能力的统计方法，有效避免过拟合和欠拟合状态的发生，K值的选择根据实际情况调节。例如，图13中先将整个数据集随机划分为K＝25份，对于任意一份数据集(第i份数据)，都需要随机初始化第一文本预测模型的参数，将除第i份以外的数据确定为训练集，训练第一文本预测模型，并采用训练好的第一文本预测模型在第i份数据上进行测试，保存预测结果P_yx[i](P_yx[i]表示给定句子2情况下不同标签的概率，对于每一份数据，需要对其中的所有样本都估计一个P(Y|X₂))。将所有得到的K个P_yx[i]拼接起来，得到每个样本的P(Y|X₂)。

3)计算样本权重

根据步骤2)中计算的P(Y|X₂)计算样本的权重，根据公式(3)为每个样本计算出一个权重：

其中，Q(Y＝0)、Q(Y＝1)为满足Q(Y＝0)+Q(Y＝1)＝1的未知量，Q(Y＝0)、Q(Y＝1)表示基于文本对样本数据集的无偏分布的概率。参见图14，图14是本发明实施例提供的二分法计算Q(Y＝0)的流程图示意图，L、R为正数，当L+1e-8≥R时，g(M)中M的取值为Q(Y＝0)，其中采用二分法中的M计算出的Q(Y＝0)和Q(Y＝1)，满足公式(4)：

其中，

可以表示为Q(Y＝0)的函数，用g(Q(Y＝0))表示Q(Y＝0)的函数。根据公式(3)，由于P(Y＝y|X₂)是步骤2)中计算出的已知量，w是一个关于Q(Y＝0)的函数。/>

就也是关于Q(Y＝0)的函数。进一步的，P(Y＝0)和P(Y＝1)表示数据集中标签的先验概率，可以直接通过统计得出P(Y＝0)(标签为0的样本数/总样本数)、P(Y＝1)(标签为1的样本数/总样本数)，也就是P(Y＝0)、P(Y＝1)为已知量。因此，

就可以看成是关于Q(Y＝0)的函数。

4)训练文本对分类模型

根据步骤3)中得到的权重训练文本对分类模型，文本对分类模型结构如图12右侧所示。文本对分类模型训练的目标函数如公式(5)所示(原目标函数为：

即分类任务中的交叉熵损失函数，这种目标函数没有考虑到模型会受到数据集偏差的影响，所以学出的模型也是有偏的)：

其中，θ表示文本对分类模型的参数，f(·)表示文本对分类模型输出的条件概率(文本对样本的分类结果)，w为步骤3)计算出的权重。使用w作为权重可以使文本对分类模型去拟合一个“句子2没有预测能力”的无偏分布，从而去除数据集中存在的偏差，提升文本对分类模型的泛化能力(在训练文本对分类模型的过程中，在目标函数中加入计算出的权重w，再根据该目标函数正常训练(梯度下降算法)即可)。

5)评估模型效果并实际应用

将训练好的文本对分类模型在测试集或者实际场景中测试评估模型效果，并应用于真实场景中。

将数据集中句子2有预测能力的偏差归类为一种选择偏差，数据集中有偏的分布是根据一种有偏的规则从真实无偏分布中采样的结果。首先定义一个无偏分布

并定义变量S(表示从无偏分布采样时的意图变量)，并满足公式(6)、(7)：

P(Y|X₂)＝P(Y) (6)

P(S|X₁,X₂,Y)＝P(S|X₂) (7)

其中，公式(6)保证了在无偏分布中，句子2没有预测能力，使得无偏分布更接近真实分布，拟合该分布的模型能获得更好的泛化能力。而公式(7)表明S完全由X₂控制、即句子2有预测能力。

假设数据集中的有偏分布

是根据以下规则从无偏分布中采样得到的：对于每个样本，如果S＝Y，则该样本被采样；否则，该样本不被采样。Q(·)表示无偏分布中的概率，P(·)表示数据集中的有偏分布。

接下来证明在目标函数中引入权重w等价于使得模型拟合无偏分布：

通过求解公式(8)，得到公式(9)：

其中，

下面证明在目标函数中引入权重w可以获得无偏分布的无偏目标函数：

由于P(S＝Y)只是一个常数，可以忽略其对于分布的影响。对于Q(Y)的选择，用二分法计算Q(Y)使得保持加权后分布的先验与加权前一致。综上，根据公式(8)-(10)证明了在目标函数中引入权重w使得文本对分类模型拟合无偏分布。

综上，本发明实施例能有效缓解数据集中“句子2有预测能力”的偏差对文本对分类模型的影响，从而提升文本对分类模型的泛化能力，获得更好的实际应用效果，并提高分类的准确性。

需要说明的是，本发明实施例中的文本对分类模型也可以采用其他结构，例如，卷积神经网络，变压器(Transformer)模型，文本相似度模型(DIIN、ESIM)，来自变压器的双向编码器表示(BERT，Bidirectional Encoder Represe ntation from Transformers)模型等。第一文本预测模型也可以采用其他结构，如卷积神经网络，BERT模型等。

综上所述，本发明实施例通过在训练文本对分类模型时加权，具有以下有益效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种文本对分类模型的训练方法，其特征在于，所述方法包括：

在所述针对所述文本对样本的分类结果为针对所述文本对样本的各关系标签的条件概率时，对所述针对所述文本对样本的各关系标签的条件概率的倒数进行对数处理，得到对数结果；

将所述对数结果与所述针对所述文本对样本的权重的乘积，确定为所述文本对分类模型的损失函数；

2.根据权利要求1所述的方法，其特征在于，所述通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果之前，所述方法还包括：

基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及所述第一文本训练样本，对所述第一文本预测模型进行训练处理，得到训练后的第一文本预测模型；

所述通过第一文本预测模型对文本对样本中的第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果，包括：

通过所述训练后的第一文本预测模型对所述第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果；

3.根据权利要求2所述的方法，其特征在于，所述基于文本对样本数据集中第一文本训练样本与第二文本训练样本的关系标签、以及所述第一文本训练样本，对所述第一文本预测模型进行训练处理，得到训练后的第一文本预测模型，包括：

对所述文本对样本数据集进行划分处理，得到N份文本对样本集合；

初始化所述第一文本预测模型的参数；

所述通过所述训练后的第一文本预测模型对所述第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果，包括：

基于第n份文本对样本集合，通过第一文本预测模型对所述第n份文本对样本集合进行文本预测处理，得到针对所述第n份文本对样本集合的预测结果；

其中，0<n≤N，且n、N为自然数。

4.根据权利要求2所述的方法，其特征在于，所述通过所述训练后的第一文本预测模型对所述第一文本样本进行文本预测处理，得到针对所述第一文本样本的预测结果，包括：

通过所述训练后的第一文本预测模型对所述第一文本样本进行词向量转换处理，得到所述第一文本样本的词向量；

5.根据权利要求1所述的方法，其特征在于，所述针对所述第一文本样本的预测结果为针对所述第一文本样本的各关系标签的概率；

所述基于文本对样本数据集的无偏分布，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重，包括：

确定文本对样本数据集在无偏分布时，所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率；

6.根据权利要求5所述的方法，其特征在于，所述确定文本对样本数据集在无偏分布时，所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率，包括：

基于各关系标签的先验概率的比值、以及所述针对所述第一文本样本的各关系标签的概率，对未知的无偏概率进行迭代处理，得到所述文本对样本中第一文本样本与第二文本样本的各关系标签的无偏概率。

7.根据权利要求5所述的方法，其特征在于，所述根据所述针对所述第一文本样本的各关系标签的概率、以及各关系标签的无偏概率，对针对所述第一文本样本的预测结果进行偏差分析处理，得到针对所述文本对样本的权重，包括：

确定针对所述第一文本样本的第一关系标签的第一概率、以及针对所述第一文本样本的第二关系标签的第二概率、第一关系标签的第一无偏概率以及第二关系标签的第二无偏概率；

8.根据权利要求1所述的方法，其特征在于，所述通过文本对分类模型对所述文本对样本中的第一文本样本以及第二文本样本进行语义关系分类处理，得到针对所述文本对样本的分类结果，包括：

分别对所述第一文本样本以及所述第二文本样本进行词向量转换处理，得到所述第一文本样本的词向量以及所述第二文本样本的词向量；

9.根据权利要求8所述的方法，其特征在于，对所述第一文本样本的词向量进行编码处理，得到包含所述第一文本样本的上下文信息的第一编码向量，包括：

对所述第一文本样本的词向量进行前向编码处理，得到对应所述第一文本样本的第一前向隐向量；

对所述第二文本样本的词向量进行编码处理，得到包含所述第二文本样本的上下文信息的第二编码向量，包括：

10.根据权利要求1所述的方法，其特征在于，所述更新所述文本对分类模型的参数直至所述损失函数收敛，包括：

当所述损失函数的值超出阈值时，基于所述文本对分类模型的损失函数确定相应的误差信号；

11.一种文本对分类方法，其特征在于，所述方法包括：

确定待分类的文本对中的第一文本以及第二文本；

通过文本对分类模型对所述第一文本以及所述第二文本进行语义关系分类处理，得到所述文本对中所述第一文本与所述第二文本的语义关系；

其中，所述文本对分类模型是基于一种文本对分类模型的训练方法得到的，所述训练方法确定的文本对分类模型的参数是通过基于针对文本对样本的权重、以及针对所述文本对样本的分类结果所构建的文本对分类模型的损失函数收敛时得到的，在所述针对所述文本对样本的分类结果为针对所述文本对样本的各关系标签的条件概率时，所述文本对分类模型的损失函数是通过对所述针对所述文本对样本的各关系标签的条件概率的倒数进行对数处理，得到对数结果；将所述对数结果与所述针对所述文本对样本的权重的乘积确定的；

其中，所述针对文本对样本的权重是基于文本对样本数据集的无偏分布，对针对所述文本对样本中的第一文本样本的预测结果进行偏差分析处理得到的。

12.根据权利要求11所述的方法，其特征在于，所述通过所述文本对分类模型对所述第一文本以及所述第二文本进行语义关系分类处理，得到所述文本对中所述第一文本与所述第二文本的语义关系，包括：

通过所述文本对分类模型分别对所述第一文本以及所述第二文本进行词向量转换处理，得到所述第一文本的词向量以及所述第二文本的词向量；

13.一种文本对分类设备，其特征在于，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求11至12任一项所述的文本对分类方法。

14.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至10任一项所述的文本对分类模型的训练方法，或权利要求11至12任一项所述的文本对分类方法。