CN111552802A

CN111552802A - 文本分类模型训练方法和装置

Info

Publication number: CN111552802A
Application number: CN202010158022.6A
Authority: CN
Inventors: 李宁
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-08-18

Abstract

本公开关于一种文本分类模型训练方法、装置、电子设备以及存储介质。该方法包括：获取样本文本；将样本文本输入待训练的文本分类模型，以生成样本文本的正文在不同维度下的正文语义特征向量，和样本文本的标题在不同维度下的标题语义特征向量；从不同维度下的正文语义特征向量和标题语义特征向量中，选取至少一对匹配于相同的文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量；基于样本文本的正负样本类型，采用调整文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值最大化或最小化的方式，执行对待训练的文本分类模型的训练。

Description

文本分类模型训练方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本分类模型训练方法、装置、电子设备以及存储介质。

背景技术

目前，较多新闻、论坛等方便用户获取资讯类的应用程序，通常会包含个性化推荐的功能，以向用户推送用户可能感兴趣的资讯，从而获得更高的用户体验。精准的分类标签是分类大量数据的关键，也是保证推荐内容准确性的基础。目前常用的分类标签，一般是通过人工设定的分类标签，例如：体育、娱乐、音乐、科技等。

但这种分类标签粒度较粗，不能满足向用户实现精准推荐的需求。若通过人工建立细粒度的分类标签，需要人工对大量数据进行标注分类，耗时耗力。

发明内容

本公开提供一种文本分类模型训练方法、装置、电子设备以及存储介质，以至少解决相关技术中人工设定分类标签粒度较粗，不能满足向用户实现精准推荐的需求的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种文本分类模型训练方法，包括：

获取样本文本；单个所述样本文本包括：正文和与正文对应的标题；

将所述样本文本输入待训练的文本分类模型，以生成所述样本文本的正文在不同维度下的正文语义特征向量，和所述样本文本的标题在所述不同维度下的标题语义特征向量；其中，所述不同维度中的最大维度，基于预设的文本分类标签的数量确定；

从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中，选取至少一对匹配于相同的所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对；

基于所述样本文本的正负样本类型，采用调整所述文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对所述待训练的文本分类模型的训练。

在一种可选的实施方式中，所述的基于所述样本文本的正负样本类型，采用调整所述文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对所述带训练的文本分类模型的训练，具体包括：

若所述样本文本的类型为正样本，则采用调整所述文本分类模型的参数，以使得所述第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化的方式，执行所述文本分类模型的训练；

若所述样本文本的类型为负样本，则采用调整所述文本分类模型的参数，以使得所述第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最小化的方式，执行所述文本分类模型的训练。

在一种可选的实施方式中，所述的文本分类模型训练方法，还包括：

从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中，选取至少一对匹配于不同的所述预设文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第二类语义特征向量对；则

所述基于所述样本文本的正负样本类型，采用调整所述文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对所述待训练的文本分类模型的训练，还包括：

若所述样本文本的类型为正样本，则采用调整所述文本分类模型的参数，以使得所述第二类语义特征向量对中的正文语义特征向量的值和所述第二类语义特征向量对中的标题语义特征向量的值最小化的方式，执行所述文本分类模型的训练。

在一种可选的实施方式中，从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中，选取匹配于相同的所述文本分类标签、且具备相同维度的至少一对正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对，具体包括：

按照所述不同维度下的正文语义特征向量的值由大至小的顺序，依次选取指定数量的正文语义特征向量；

按照所述不同维度下的标题语义特征向量的值的由大至小的顺序，依次选取所述指定数量的标题语义特征向量；

从选取的所述指定数量的正文语义特征向量和所述指定数量的标题语义特征向量中，选取至少一对匹配于相同所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对。

在一种可选的实施方式中，根据任一所述的文本分类模型训练方法，所述待训练的文本分类模型包括伪孪生神经网络；则，将所述样本文本输入待训练的文本分类模型，以生成所述样本文本的正文在不同维度下的正文语义特征向量，和所述样本文本的标题在所述不同维度下的标题语义特征向量，具体包括：

将所述样本文本中的正文和标题分别输入到伪孪生神经网络的两侧神经网络中，以得到所述样本文本的正文在不同维度下的正文语义特征向量，以及所述样本文本的标题在所述不同维度下的标题语义特征向量。

根据本公开实施例的第二方面，提供一种文本分类方法，包括：

获取文本数据；所述文本数据包括正文和与正文对应的标题；

将所述文本数据输入到训练好的文本分类模型中，以得到所述文本数据的分类标签。

根据本公开实施例的第三方面，提供一种文本分类模型训练装置，包括：

样本获取模块，被配置为执行获取样本文本；单个所述样本文本包括：正文和与正文对应的标题；

生成模块，被配置为执行将所述样本文本输入待训练的文本分类模型，以生成所述样本文本的正文在不同维度下的正文语义特征向量，和所述样本文本的标题在所述不同维度下的标题语义特征向量；其中，所述不同维度中的最大维度，基于预设的文本分类标签的数量确定；

第一类语义特征向量对生成模块，被配置为执行从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中，选取至少一对匹配于相同的所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对；

执行训练模块，被配置为执行基于所述样本文本的正负样本类型，采用调整所述文本分类模型的参数，以使得所述第一类语义特征向量对生成模块生成的第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对生成模块生成的第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对所述待训练的文本分类模型的训练。

根据本公开实施例的第四方面，提供一种文本分类装置，包括：

获取模块，被配置为执行获取文本数据；所述文本数据包括正文和与正文对应的标题；

分类模块，被配置为执行将所述文本数据输入到训练好的文本分类模型中，以得到所述文本数据的分类标签。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面中任一项文本分类模型训练方法步骤。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中任一项文本分类模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，当其在电子设备上运行时，使得文本分类模型训练电子设备执行：上述第一方面中任一项文本分类模型训练方法的方法步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

在进行文本分类模型的训练时，通过分别生成文本样本的正文语义特征向量和标题语义特征向量，以及从生成的正文语义特征向量和标题语义特征向量中选取第一类语义特征向量对，采用调整模型参数以使得选取的第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值最大化或最小化的方式训练文本分类模型，可以使得模型输出的对该文本样本的正文的分类结果和对该文本样本的标题的分类结果一致，当文本分类模型输出的对该文本样本的正文的分类结果和对该文本样本的标题的分类结果一致时，认为此时为训练好的文本分类模型，该训练好的文本分类模型输出的分类结果可以准确表达该文本样本的类别。进一步的，通过训练好的文本分类模型可以对大量的文本数据进行自动化的精确分类。

另一方面，由于文本分类标签的数量可以预先进行设定的，因此在实际应用中，可以视需求设置较大数量的文本分类标签，这样可以使得通过本发明的方案训练出的文本分类模型可以具备：自动从尽可能丰富的文本分类标签中为文本数据匹配相应的文本分类标签。从而，相较于通过人工标注分类的方式，可以提高文本分类的效率，以及实现精准的文本分类。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本公开的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种文本分类模型训练方法的流程图。

图2是根据一示例性实施例示出的一种神经网络的结构示意图。

图3是根据一示例性实施例示出的一种具体神经网络的结构示意图。

图4是根据一示例性实施例示出的一种文本分类的方法流程图。

图5是根据一示例性实施例示出的一种文本分类模型训练装置的框图。

图6是根据一示例性实施例示出的一种文本分类的装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中提供的技术方案应用于机器学习技术领域，机器学习技术可通过训练模型来实现机器的智能化，广泛应用于分类、聚类等实际场景中。机器学习可利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果。机器学习是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。机器学习通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

图1是根据一示例性实施例示出的一种文本分类模型训练方法的流程图，如图1所示，通过该方法可以实现文本的精确分类。该方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备。其中，所述服务器可以是单个网络服务器或者多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云。该方法可以包括以下步骤：

在步骤11中，获取样本文本。

在本公开一个或多个实施例中，单个样本文本可以包括：正文和与正本对应的标题。比如，样本文本可以是新闻，具体可以包括新闻内容和新闻的标题，或者还可以是论文内容和论文的标题等。

在一种具体的实施方式中，样本文本可以分为正样本和负样本。在本公开一个或多个实施例中，单个正样本可以包括：正文和与正文匹配的标题，可以理解为，文本的正文和该文本的原标题，例如，某新闻内容为“小米手机在某时间某地点举行型号为XX的新款手机发布会”，与该新闻内容匹配的原标题可以为“小米手机发布会”，可以知晓，与正文匹配的标题可以是能反应该正文内容的标题；相应的，单个负样本可以包括：正文和与正文不匹配的标题，可以理解为，文本的正文和与该文本不匹配的非原标题，其中，与该文本不匹配的非原标题可以是除该文本的原标题以外的任一标题，例如，如上某新闻内容为“小米手机在某时间某地点举行型号为XX的新款手机发布会”，与该新闻内容不匹配的非原标题可以是“某歌星演唱会”，可以知晓，与正文不匹配的标题可以是不能反应该正文内容的标题。

在实际应用中，正负样本可以通过人工标注的方式构建。

在步骤12中，将通过步骤11获取的样本文本输入待训练的文本分类模型，以生成样本文本的正文在不同维度下的正文语义特征向量，和样本文本的标题在不同维度下的标题语义特征向量。

在实际应用中，考虑到本公开实施例中会对样本文本的标题和正文分别生成正文语义特征向量和标题语义特征向量以进行模型训练，因此，发明人考察了相关技术中可适用于处理两个输入的模型。经研究，相关技术中存在孪生神经网络和伪孪生神经网络模型两种处理不同输入的模型。其中，前者适用于处理两个输入"比较类似"的情况。后者适用于处理两个输入"有一定差别"的情况。比如，要计算两个句子或者词汇的语义相似度，使用前者；而如果要验证标题与正文的描述是否一致，则考虑使用后者。

基于本公开实施例中的样本文本中包含正文和标题两部分内容，且也会验证标题和正文描述是否一致，因此本公开实施例中的文本分类模型可以是伪孪生神经网络。

通过采用伪孪生神经网络可以分别对正文和标题提取语义特征向量，从而可以实现结合样本文本的正文和标题这两部分特征进行模型训练。

在实际应用中，所述伪孪生神经网络可以包含两个输入以及两侧神经网络，这两侧神经网络的类型可以具体采用卷积神经网络(Convolutional Neural Networks，CNN)或循环神经网络(Recurrent Neural Networks，RNN)等。

该伪孪生神经网络的结构示意图可以如图2所示，具体包括：输入(input)层、嵌入(Embedding)层、神经网络(Neural Networks，NN)层、超高维表示层、匹配层。在实际应用中，伪孪生神经网络的两侧神经网络的可以采用相同类型的神经网络，也可以是不同类型的神经网络，对于具体采用何种类型的神经网络，本申请不做限制。

在本公开一个或多个实施例中，可以将样本文本中的正文和标题分别输入到伪孪生神经网络的两侧神经网络中，从而分别得到该样本文本的正文在不同维度下的正文语义特征向量，以及该样本文本的标题在所述不同维度下的标题语义特征向量。

具体来说，可以将文本样本的正文和标题分别经过两侧神经网络的输入层、嵌入层、NN层以及超高维表示层，分别得到不同维度下的正文语义特征向量和标题语义特征向量。其中，这里的不同维度可以包含1维至L维。其中的最大维度，即L，可以基于预设的文本分类标签的数量确定。比如，L可以与预设的文本分类标签的数量相同——例如，预设的文本分类标签有10000个，则L＝10000。

这里的预设的文本分类标签的数量可以是人工设定的数量。可以理解为，设定将文本样本分为多少类，设定的数量通常可以是百万级等，具体的数量值可以根据实际情况确定。

可以理解的是，文本分类标签的数量越多，模型输出的分类结果则可以越精细，可以实现对文本的进行细粒度分类的效果。

在实际应用中，模型可以采用无监督的学习方式，根据预设的文本分类标签的数量将文本样本分类，即，输出文本样本的分类结果，进一步的可以是对每个文本样本输出该文本样本的文本分类标签。

在实际应用中，文本分类标签的具体形式，可以是通过模型输出的由字符或数字等组成的字符串。

在步骤13中，从不同维度下的正文语义特征向量和不同维度下的标题语义特征向量中，选取匹配于相同的文本分类标签、且具备相同维度的至少一对正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对。

这里的不同维度下的正文语义特征向量和不同维度下的标题语义特征向量可以是通过步骤12生成的。

在实际应用中，不同维度下的正文语义特征向量所表达的正文语义的程度可以不同，或者说，不同维度下的正文语义特征向量的值的大小可以不同。通常情况下，可以认为正文语义特征向量的值相对较大，表明该正文特征向量表达正文语义的准确度较高；同理，标题语义特征向量的值较大，表明该正文特征向量表达标题语义的准确度较高。反之，正文/标题语义特征向量的值相对较小，表明正文/标题语义特征向量表达正文/标题的语义的准确度较低。

在本公开一个或多个实施例中，从不同维度下的正文语义特征向量和不同维度下的标题语义特征向量中，选取匹配于相同的所述文本分类标签、且具备相同维度的至少一对正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对，可以具体包括：

按照不同维度下的正文语义特征向量的值由大至小的顺序，依次选取指定数量的正文语义特征向量；

按照不同维度下的标题语义特征向量的值的由大至小的顺序，依次选取所述指定数量的标题语义特征向量；

从选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中，选取至少一对匹配于相同文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对。

其中，依次选取指定数量的正文语义特征向量，可以包括根据不同维度下的正文语义特征向量的值的大小，将正文语义特征向量的值从大到小排列，依次选取排列结果中前K个正文语义特征向量。这里的K个可以是所述指定数量。在实际应用中，所述指定数量，可以根据实际需求确定，例如可以是1个或者3个等。

相应的，依次选取指定数量的标题语义特征向量，可以包括根据不同维度下的标题语义特征向量的值的大小，将标题语义特征向量的值从大到小排列，依次选取排列结果中前K个标题语义特征向量。

在本公开实施例中，通过选取不同维度下正文语义特征向量的值中较大的正文语义特征向量，以及不同维度下标题语义特征向量的值中较大的标题语义特征向量，进而构成第一类语义特征向量，可以使得用于训练模型的样本中，至少将能够相对准确地表达正文和标题的语义的样本包含在内，以便于在之后的模型训练过程中保证模型输出结果能够尽量与样本文本的实际语义相匹配。

在实际应用中，选取的标题语义特征向量和正文语义特征向量的数量可以相同，以方便后续选取第一类语义特征向量对。

为了便于理解如何选取第一类语义特征向量对，如图3所示，本公开实施例结合超高维表示层和匹配层进行解释说明。

其中，在超高维表示层，选取TopK个正文语义特征向量，即，选取排列结果中前K个正文语义特征向量，若设定指定数量为3个，则在与正文对应的一侧神经网络中，可以按正文语义特征向量的值由大至小排列顺序，选取3个正文语义特征向量。假设这3个正文语义特征向量包括：2维正文语义特征向量、(L-2)维正文语义特征向量以及(L-1)维正文语义特征向量。

在实际应用中，可以认为这3个正文语义特征向量可以是准确表达该正文语义的程度最高的3个正文语义特征向量，或者可以说，此时模型输出的该文本样本的正文的分类结果，可以是与这3个正文语义特征向量对应的分类标签。

相应的，选取TopK个标题语义特征向量，即，选取排列结果中前K个标题语义特征向量，若设定指定数量为3个，在与标题对应的一侧神经网络中，可以按照标题语义特征向量的值由大至小排列顺序，选取3个标题语义特征向量。假设这3个标题语义特征向量包括：2维标题语义特征向量、3维标题语义特征向量以及(L-1)维标题语义特征向量。

在实际应用中，可以认为这3个标题语义特征向量可以是准确表达该标题语义的程度最高的3个标题语义特征向量，或者可以说，此时模型输出的对该标题的分类结果，可以是与这3个标题语义特征向量对应的分类标签。

接下来，在匹配层，依据维度进行映射匹配。

可以得知，在选取的3个正文语义特征向量和3个标题语义特征向量中，2维正文语义特征向量和2维标题语义特征向量是相同维度下的语义特征向量，也即，可以认为2维正文语义特征向量和2维标题语义特征向量是映射匹配上的。当选取的正文语义特征向量和选取的标题语义特征向量中，包含相同维度下的正文语义特征向量和标题语义特征向量时，则可以认为该相同维度下的选取的正文语义特征向量和选取的标题语义特征向量分别对应的文本分类标签是可以共同代表该文本样本的类别，即，该相同维度下的选取的正文语义特征向量和选取的标题语义特征向量分别对应的文本分类标是相同的。那么，选取的2维正文语义特征向量和2维标题语义特征向量可以是匹配于相同的文本分类标签、且具备相同维度的第一类语义特征向量对。可以理解的是，针对正样本而言，一般说来，选取得到的第一类语义特征向量对可以包含至少一对。

在实际应用中，在选取指定数量的正文语义特征向量后，可以将其它未被选中的正文语义特征向量的向量值可以置0，以及在选取指定数量的标题语义特征向量后，可以将其它未被选中的标题语义特征向量的向量值置0，以将选取的指定数量内的正文语义特征向量和标题语义特征向量与其它未被选中的语义特征向量进行区分。

向量值置0后的正文语义特征向量和标题语义特征向量可以认为是不能准确代表正文语义和标题语义的特征向量。

在实际应用中，如图3所示，在选取的正文语义特征向量和选取的标题语义特征向量中，除可以映射匹配上的情况——例如，图3中的2维正文语义特征向量和2维标题语义特征向量，以及，(L-1)维正文语义特征向量和(L-1)维标题语义特征向量之外，还会包含没有映射匹配上的情况，即，同一维度下仅包含选取的正文语义特征向量或仅包含选取的标题语义特征向量——例如，图3中的3维标题语义特征向量和(L-2)维正文语义特征向量。

对于没有映射匹配上的情况，可以认为该标题语义特征向量对应的文本分类标签，仅可以代表文本样本的标题的类别，以及该正文语义特征向量对应的文本分类标签，仅可以代表该文本样本的正文的类别，而不能共同代表该文本样本的类别。

在本公开一个或多个实施例中，在选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中，可以将除组成第一类语义特征向量对以外的正文语义特征向量与同维度下未在指定数量内被选取的标题语义特征向量，作为第二类语义特征向量对。例如，图3中框选出来的(L-2)维正文语义特征向量和该维度下未在指定数据内被选取的标题语义特征向量可以是组成的第二类语义特征向量对。

如上所述，未在指定数量内被选取的标题语义特征向量可以是向量值被置0的标题语义特征向量，也即，向量值被置0的标题语义特征向量对应的文本分类标签不能准确代表标题的类别，而选取的指定数量内的正文语义特征向量可以准确代表正文的类别，那么则可以认为选取的指定数量内的正文语义特征向量和同维度下未在指定数量内被选取的标题语义特征向量，可以是对应不同文本分类标签、且具备相同维度的第二类语义特征向量对。

相应的，在选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中，还可以将除组成第一类语义特征向量对以外的标题语义特征向量与同维度下未在指定数量内被选取的正文语义特征向量，作为第二类语义特征向量对。例如，图3中框选出来的3维标题语义特征向量和该维度下未在指定数据内被选取的正文语义特征向量可以是组成的第二类语义特征向量对。

如上所述，未在指定数量内被选取的正文语义特征向量可以是向量值被置0的正文语义特征向量，也即，向量值被置0的正文语义特征向量对应的文本分类标签不能准确代表正文的类别，而选取的指定数量内的标题语义特征向量对应的文本分类标签可以准确代表标题的类别，那么则可以认为选取的指定数量内的正文语义特征向量和同维度下未在指定数量内被选取的标题语义特征向量，可以是对应不同文本分类标签、且具备相同维度的第二类语义特征向量对。可以理解的是，针对负样本而言，一般说来，选取得到的第二类语义特征向量对可以包含至少一对。

在步骤14中，基于样本文本的正负样本类型，采用调整文本分类模型的参数，以使得通过步骤13选取的第一类语义特征向量对中的正文语义特征向量的值和通过步骤13选取的第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对待训练的文本分类模型的训练。

在实际应用中，在模型的训练过程，对于文本样本的正负样本，期望模型输出的结果通常可以是不同的。

在本公开实施例中，由于正样本可以是正文和与正文匹配的标题组成的样本，则对于正样本的期望输出结果，可以具体包括：期望模型输出的正文的类别和输出的标题的类别是相同的。可以理解为，当模型输出的正文的类别和标题的类别相同时，则认为模型输出的该类别可以准确代表该正样本的类别。若出现不同的类别，则可以认为此时模型是没有训练好的文本分类模型。

对于负样本来说，由于负样本可以是正文和与正文不匹配的标题组成的样本，则对于负样本的期望输出结果，可以具体包括：期望模型输出的正文的类别和输出的标题的类别是不同的。可以理解为，由于正文和标题是不匹配的，那么正文的类别和标题的类别则可以是不同的，当出现相同的类别，也可以认为此时模型是没有训练好的文本分类模型。

在模型的训练过程，由于对于文本样本的正负样本类型，期望模型输出的结果通常可以是不同的，则在本公开一个或多个实施例中，文本分类模型的训练过程可以具体包括：

若该样本文本的类型为正样本，则采用调整文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对中的标题语义特征向量的值最大化的方式，执行所述文本分类模型的训练；

若该样本文本的类型为负样本，则采用调整文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对中的标题语义特征向量的值最小化的方式，执行所述文本分类模型的训练。

其中，调整文本分类模型的参数，可以具体包括：根据目标函数或损失函数等预测的损失值，以及文本样本的正负样本类型，调整第一类语义特征向量对中的正文语义特征向量的值的大小和标题语义特征向量的值的大小。其中，所述预测的损失值，可以具体是预测的相同维度下的文本语义特征向量和标题语义特征向量之间的余弦距离等。

具体来说，对于正样本，通过增大第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值，进行迭代训练，以使得文本分类模型输出的结果中对于正文的类别和标题的类别是相同的，可以理解为，通过迭代训练，以使得选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中包含第一类语义特征向量对，而不包含第二类语义特征向量对。

对于负样本，通过减小第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值，进行迭代训练，以使得待训练的文本分类模型输出的结果中对于正文的类别和标题的类别是不同的，可以理解为，通过迭代训练，以使得选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中包含第二类语义特征向量对，而不包含第一类语义特征向量对。

如上所述，由于在文本分类模型的训练过程中，对于正样本期望模型输出的正文的类别和输出的标题的类别是相同的，则对于正样本，除了对第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值最大化的方式执行文本分类模型的训练，在本公开一个或多个实施例中，文本分类模型的训练过程还可以包括：采用调整文本分类模型的参数，以使得第二类语义特征向量对中的正文语义特征向量的值和第二类语义特征向量对中的标题语义特征向量的值最小化的方式，执行文本分类模型的训练。

具体来说，对于正样本，可以根据目标函数或损失函数等预测的损失值，通过增大第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值，以及减小第二类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值，进行迭代训练，以使得文本分类模型输出的结果中对于正文的类别和标题的类别是相同的。

相应的，所述调整文本分类模型的参数，则还可以包括：根据目标函数或损失函数等预测的损失值，以及文本样本的正负样本类型，调整第二类语义特征向量对中的正文语义特征向量的值的大小和标题语义特征向量的值的大小。

在本公开实施例中，除了第一类语义特征向量对外，匹配于不同文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量所构成的语义特征向量对(称为第二类语义特征向量对)，也可以被选取出来进行模型的训练。

这样做的好处在于：模型性能的好坏，决定因素一般包括两部分：其一是训练样本的特性；其二是训练样本的数量。本公开实施例中通过将第二类语义特征向量对也选取出来作为训练样本，可以使得训练样本的数量足够丰富，从而保证模型有较好的性能。

通过本公开实施例，在进行文本分类模型的训练时，通过分别生成文本样本的正文语义特征向量和标题语义特征向量，以及从生成的正文语义特征向量和标题语义特征向量中选取第一类语义特征向量对和第二类语义特征向量对，根据文本样本的正负样本的类型，采用调整模型参数，执行训练文本分类模型，可以在模型训练过程中，对于正样本使得文本分类模型输出的正文的分类结果和标题的分类结果一致，而对于负样本使得文本分类模型输出的正文的分类结果和标题的分类结果不一致，以得到训练好的文本分类模型。进一步的，通过训练好的文本分类模型可以对大量的文本数据进行自动化的精确分类。

图4是根据一示例性实施例示出的一种基于文本分类模型训练方法的文本分类方法的流程图，如图4所示，该方法可以包括以下步骤：

步骤21：获取文本数据。

所述文本数据可以包括正文和与正文对应的标题，在实际应用中，所述文本数据，可以具体包括正文和与正文匹配的标题。

步骤22：将文本数据输入到训练好的文本分类模型中，以得到文本数据的分类标签。

可选地，训练好的文本分类模型可以但不限于采用上述图1示出的文本分类模型的训练方法训练得到。其中，针对文本分类模型的训练方法的相关描述可参照图1示出的内容，为避免赘述，此处不再说明。

其中，文本分类模型中的所采用的神经网络可以采用上述本公开实施例中所述的伪孪生神经网络，基于采用上述本公开实施例中的伪孪生神经网络的文本分类模型，可以对包含正文和标题两部分内容的文本数据，精确输出该文本数据的分类标签，即，输出该文本数据的类别。

在实际应用中，在对大量文本数据进行分类后，可以用于根据文本数据的分类标签，向线上的用户个性化推荐文本，即，推荐用户可能感兴趣的内容，以提升用户体验。

采用本公开实施例中文本分类方法，可以实现对文本的自动化精准分类，相较于人工标注类别来说，可以将大量文本数据自动分类，且提升了文本分类的精准性和效率。

图5是根据一示例性实施例示出的一种文本分类模型训练装置的框图。参照图5，该装置包括样本获取模块32，生成模块33，第一类语义特征向量对生成模块34，以及执行模块35。

该样本获取模块32，被配置为执行获取样本文本；单个所述样本文本包括：正文和与正文对应的标题；

该生成模块33，被配置为执行将样本文本输入待训练的文本分类模型，以生成样本文本的正文在不同维度下的正文语义特征向量，和样本文本的标题在不同维度下的标题语义特征向量；其中，所述不同维度中的最大维度，基于预设的文本分类标签的数量确定；

该第一类语义特征向量对生成模块34，被配置为执行从不同维度下的正文语义特征向量和不同维度下的标题语义特征向量中，选取至少一对匹配于相同的文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对；

该执行训练模块35，被配置为执行基于样本文本的正负样本类型，采用调整文本分类模型的参数，以使得第一类语义特征向量对生成模块生成的第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对生成模块生成的第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对待训练的文本分类模型的训练。

上述装置实施例的具体工作流程是：样本获取模块32，获取样本文本，生成模块33，将样本文本输入待训练的文本分类模型，以生成样本文本的正文在不同维度下的正文语义特征向量，和样本文本的标题在不同维度下的标题语义特征向量，第一类语义特征向量对生成模块34，从不同维度下的正文语义特征向量和不同维度下的标题语义特征向量中，选取至少一对匹配于相同的文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对，执行训练模块35，基于样本文本的正负样本类型，采用调整文本分类模型的参数，以使得第一类语义特征向量对生成模块生成的第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对生成模块生成的第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对所述待训练的文本分类模型的训练。

在一种实施方式中，所述执行训练模块35，具体包括：

第一正样本训练单元，被配置为执行若样本文本的类型为正样本，则采用调整文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对中的标题语义特征向量的值最大化的方式，执行文本分类模型的训练；

负样本训练单元，被配置为执行若样本文本的类型为负样本，则采用调整文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对中的标题语义特征向量的值最小化的方式，执行文本分类模型的训练。

在一种实施方式中，所述文本分类模型训练装置，还包括：第二类语义特征向量对生成模块；所述第二类语义特征向量对生成模块，被配置执行从不同维度下的正文语义特征向量和不同维度下的标题语义特征向量中，选取至少一对匹配于不同的预设文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第二类语义特征向量对；则，

所述执行训练模块35，还包括：第二正样本训练子单元；所述第二正样本训练子单元，被配置为执行若样本文本的类型为正样本，则采用调整待训练的文本分类模型的参数，以使得第二类语义特征向量对中的正文语义特征向量的值和第二类语义特征向量对中的标题语义特征向量的值最小化的方式，执行文本分类模型的训练。

在一种实施方式中，所述第一类语义特征向量对生成模块34，具体包括：

第一选取单元，被配置为执行按照不同维度下的正文语义特征向量的值由大至小的顺序，依次选取指定数量的正文语义特征向量；

第二选取单元，被配置为执行按照不同维度下的标题语义特征向量的值的由大至小的顺序，依次选取所述指定数量的标题语义特征向量；

第一类语义特征向量对选取单元，被配置为执行从选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中，选取至少一对匹配于相同预设文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对。

在一种实施方式中，所述待训练的文本分类模型包括伪孪生神经网络；则，

所述生成模块33，被配置为具体执行将样本文本中的正文和标题分别输入到伪孪生神经网络的两侧神经网络中，以得到样本文本的正文在不同维度下的正文语义特征向量，以及样本文本的标题在所述不同维度下的标题语义特征向量。

通过本公开实施例，在进行文本分类模型的训练时，通过分别生成文本样本的正文语义特征向量和标题语义特征向量，以及从生成的正文语义特征向量和标题语义特征向量中选取第一类语义特征向量对和第二类语义特征向量对，根据文本样本的正负样本的类型，采用调整模型参数，执行训练文本分类模型，可以在模型训练过程中，以使得对于正样本输出的正文的分类结果和标题的分类结果一致，而对于负样本输出的正文的分类结果和标题的分类结果不一致，以得到训练好的文本分类模型。进一步的，通过训练好的文本分类模型可以对大量的文本数据进行自动化的精确分类。

图6是根据一示例性实施例示出的一种文本分类装置的框图。参照图6，该装置包括获取模块41，分类模块42。

获取模块41，被配置为执行获取文本数据；所述文本数据包括正文和与正文对应的标题；

分类模块42，被配置为执行将文本数据输入到训练好的文本分类模型中，以得到文本数据的分类标签。

上述装置实施例的具体工作流程是，获取模块41，获取文本数据，分类模块42，将文本数据输入到训练好的文本分类模型中，以得到文本数据的分类标签。

采用本公开实施例中文本分类装置，可以实现对文本的自动化精准分类，相较于人工标注类别来说，可以将大量文本数据自动分类，且提升了文本分类的精准性和效率。

本公开实施例还提出了一种电子设备，示意图请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本分类模型训练装置。处理器，执行存储器所存放的程序，并至少用于执行以下操作：

获取样本文本；单个样本文本包括：正文和与正文对应的标题；

将样本文本输入待训练的文本分类模型，以生成样本文本的正文在不同维度下的正文语义特征向量，和样本文本的标题在不同维度下的标题语义特征向量；其中，所述不同维度中的最大维度，基于预设的文本分类标签的数量确定；

从不同维度下的正文语义特征向量和不同维度下的标题语义特征向量中，选取至少一对匹配于相同的文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对；

基于该样本文本的正负样本类型，采用调整文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对待训练的文本分类模型的训练。

上述如本申请图1所示实施例揭示的文本分类模型训练装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Fetwork Processor，FP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中文本分类模型训练装置执行的方法，并实现文本分类模型训练装置在图1所示实施例的功能，本公开实施例在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述文本分类模型训练方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本分类模型训练方法，其特征在于，包括：

2.根据权利要求1所述的文本分类模型训练方法，其特征在于，

基于所述样本文本的正负样本类型，采用调整所述文本分类模型的参数，以使得第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式，执行对所述待训练的文本分类模型的训练，具体包括：

3.根据权利要求2所述的文本分类模型训练方法，其特征在于，所述方法还包括：

从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中，选取至少一对匹配于不同的所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第二类语义特征向量对；则，

4.根据权利要求3所述的文本分类模型训练方法，其特征在于，从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中，选取至少一对匹配于相同的所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量，作为第一类语义特征向量对，具体包括：

5.根据权利要求1～4任一权项所述的文本分类模型训练方法，其特征在于，所述待训练的文本分类模型包括伪孪生神经网络；则，

将所述样本文本输入待训练的文本分类模型，以生成所述样本文本的正文在不同维度下的正文语义特征向量，和所述样本文本的标题在所述不同维度下的标题语义特征向量，具体包括：

6.一种基于权利要求1所述的文本分类模型训练方法的文本分类方法，其特征在于，所述文本分类方法包括：

7.一种文本分类模型训练装置，其特征在于，包括：

8.一种基于权利要求7所述的文本分类模型训练装置的文本分类装置，其特征在于，所述文本分类装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的文本分类模型训练方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的文本分类模型训练方法。