CN110457481A

CN110457481A - 一种分类模型训练的方法、装置、设备以及存储介质

Info

Publication number: CN110457481A
Application number: CN201910770153.7A
Authority: CN
Inventors: 顾立瑞; 胡雨成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-15

Abstract

本申请实施例公开了一种分类模型训练的方法，用于实现对文本的准确分类，不仅提高了文本分类的准确率，还提升了文本分类的召回率。本申请实施例提供的一种分类模型训练的方法，包括：获取N个第一类型的文本和N个第二类型的文本，N为正整数；将N个第一类型的文本或N个第二类型的文本进行两两组合，以得到至少一个目标文本对；根据目标文本对中的两个文本的类型确定目标样本集；对目标样本集执行预设训练操作，得到训练后的目标模型，训练后的目标模型用于对文本进行分类。本申请实施例还提供相应的装置、设备以及存储介质。

Description

一种分类模型训练的方法、装置、设备以及存储介质

技术领域

本申请实施例涉及计算机领域中的训练模型生成技术，具体涉及一种分类模型训练的方法、装置、设备以及存储介质。

背景技术

随着网络的发展以及时代的进步，海量的文本信息公开发表在平台上供用户进行查询和阅读。为了给用户营造一个良好的查询平台，需要对文本进行类型的区分，即用电脑对文本集按照一定的分类体系或标准进行自动分类并对每一类型的文本进行标记。

目前，存在一种对海量的文本信息进行分类的方法，该分类方法主要是将每个文本作为一个独立的样本，从而分别通过人工标注、正样本无标签学习(positive unlabeledlearning，PU-learning)这两种方式进行正负样本的标注，并提取正样本、负样本相应的特征生成分类模型，以此分类模型对新的文本进行分类。

然而，当存在海量的文本的类型时，若是文本之间的区分性无法通过提取特征进行区分时，采用目前的这种分类模型对文本进行分类，分类效果欠佳。

发明内容

本申请实施例提供了一种分类模型训练的方法、装置、设备以及存储介质，用于实现对文本的准确分类，不仅提高了文本分类的准确率，还提升了文本分类的召回率。

第一方面，本申请实施例提供了一种分类模型训练的方法，包括：

获取N个第一类型的文本和N个第二类型的文本，所述N为正整数；

将所述N个第一类型的文本或所述N个第二类型的文本进行两两组合，以得到至少一个目标文本对；

根据所述目标文本对中的两个文本的类型确定目标样本集；

对所述目标样本集执行预设训练操作，得到训练后的目标模型，所述训练后的目标模型用于对文本进行分类。

第二方面，本申请实施例提供了一种分类模型训练装置，该分类模型训练装置包括：

获取单元，用于获取N个第一类型的文本和N个第二类型的文本，所述N为正整数；

组合单元，用于将所述获取单元获取的所述N个第一类型的文本或所述N个第二类型的文本进行两两组合，以得到至少一个目标文本对；

确定单元，用于根据所述组合单元得到的所述目标文本对中的两个文本的类型确定目标样本集；

训练单元，用于对所述确定单元确定的所述目标样本集执行预设训练操作，得到训练后的目标模型，所述训练后的目标模型用于对文本进行分类。

在一种可能的设计中，在本申请实施例的第二方面的第一种可能实现方式中，确定单元，包括：

判断模块，用于判断所述目标文本对中的两个文本的类型是否相同；

第一确定模块，用于在所述判断模块判断出所述目标文本对中的两个文本的类型均为所述第一类型或第二类型时，确定所述目标文本对为正样本；

第二确定模块，用于在所述判断模块判断出所述目标文本对中的两个文本的类型为所述第一类型与所述第二类型的组合，则确定所述目标文本对为负样本；

第三确定模块，用于根据所述第一确定模块确定出的所述正样本与根据所述第二确定模块确定出的所述负样本确定目标样本集。

在一种可能的设计中，在本申请实施例的第二方面的第二种可能实现方式中，训练单元，包括：

获取模块，用于针对所述目标样本集中的任一目标文本对，分别获取所述目标文本对中的两个文本的特征信息，得到第一特征信息和第二特征信息；

计算模块，用于对所述获取模块所述第一特征信息和所述第二特征信息进行特征相似度计算，得到所述目标文本对的特征值；

训练模块，用于通过对所述计算模块计算得到的所述目标文本对的特征值进行训练，得到所述训练后的目标模型。

在一种可能的设计中，在本申请实施例的第二方面的第二种可能实现方式中，所述获取模块包括：

分词子模块，用于分别对所述目标文本对中的两个文本进行分词，得到分词后的第一文本序列、分词后的第二文本序列；

计算子模块，用于确定所述分词子模块得到的所述分词后的第一文本序列中的每个词语对应的第一词向量，以及所述分词子模块得到的所述分词后的第二文本序列中的每个词语对应的第二词向量；

统计子模块，用于统计所述计算子模块得到的所述第一词向量在K维向量空间上的第一平均值，统计所述计算子模块得到的所述第二词向量在所述K维向量空间上的第二平均值，所述K为大于2的整数；

确定子模块，用于将所述统计子模块得到的所述第一平均值作为所述第一特征信息，将所述统计子模块得到的所述第二平均值作为所述第二特征信息。

在一种可能的设计中，在本申请实施例的第二方面的第三种可能实现方式中，所述分类模型训练装置还包括：

第一标注单元，用于在所述第一确定模块确定所述目标文本对为正样本之后，通过第一标签对所述正样本进行标注，所述第一标签用于指示所述正样本的类型。

在一种可能的设计中，在本申请实施例的第二方面的第四种可能实现方式中，所述分类模型训练装置还包括：

第二标注单元，用于在所述第二确定模块确定所述目标文本对为正样本之后，通过第一标签对所述正样本进行标注，所述第一标签用于指示所述正样本的类型。

在一种可能的设计中，在本申请实施例的第二方面的第五种可能实现方式中，所述分类模型训练装置还包括：

提取单元，用于在所述获取单元获取N个第一类型的文本和N个第二类型的文本之后，提取所述第一类型的文本中的第一停用词，提取所述第二类型的文本中的第二停用词；

过滤单元，用于过滤所述提取单元提取出的所述第一停用词和所述第二停用词。

第三方面，本申请实施例提供一种分类模型训练设备，该分类模型训练设备包括：

包括：输入/输出(I/O)接口、处理器和存储器，

存储器中存储有程序指令；

处理器用于执行存储器中存储的程序指令，以用于实现如上述第一方面、第一方面任意一种可能实现方式的方法。

本申请第四方面提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令用于执行如第一方面、第一方面任意一种可能实现方式的方法。

本申请实施例的第五方面提供了一种包含指令的计算机程序产品，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本实施例中，在获取N个第一类型的文本以及等量的N个第二类型的文本后，通过对这N个第一类型的文本或N个第二类型的文本进行两两组合可以得到至少一个目标文本对，进一步对基于目标文本对中的两个文本的类型来确定出的目标样本集进行训练，从而得到训练后的目标模型，使得所述训练后的目标模型可以对文本进行分类。因此，本申请中通过将第一类型的文本或第二类型的文本进行两两组合，而不是将第一类型的文本或第二类型的文本作为独立的文本做训练，使得本申请中训练得到的目标模型最大化地实现对文本的准确分类，不仅提高了文本分类的准确率，还提升了文本分类的召回率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中对文本进行分类的场景示意图；

图2是本申请实施例中提供的分类模型训练的方法的一个实施例示意图；

图3是本申请实施例中提供的分类模型训练的方法的另一个实施例示意图；

图4是本申请实施例中提供的分类模型训练装置一个实施例示意图；

图5是本申请实施例中提供的分类模型训练装置另一个实施例示意图；

图6是本申请实施例中提供的分类模型训练装置另一个实施例示意图；

图7是本申请实施例中提供的分类模型训练设备一个实施例示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

机器学习(machine learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着机器学习技术的发展，机器学习应用在越来越多的场景中，例如对于某个公众号中的海量文本，可以根据机器学习对海量文本进行分类，便利用户对感兴趣的文本进行查找和阅读。

在对文本进行分类的过程中，常用到词向量计算的工具word2vec，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；得到训练结果，即词向量。词向量可以很好地度量每个文本中的词与词之间的相似性，并且能够度量出每个文本的特征信息，从而依据余弦相似度等计算公式确定出每个文本的特征信息之间的相似度，从而根据相似度来建立相关的分类模型。如图1所示，为本申请实施例中对文本进行分类的场景示意图。从图1中可以看出，该公众号中的文章形式各异，包括娱乐类型的文章、体育类型的文章、数码类型的文章、军事类型的文章、科技类型的文章、时尚类型的文章等等。而在这些大类目的文章下面又包含具体的小类目的文章，如数码类型的文章，可以包括：手机、智能硬件、平板电脑、数码家电、虚拟现实、人工智能或汽车科技等等。当用户想要快速查询并阅读到需求的文章，如数码类型文章中的手机这个类目的文章，如果从该公众号中海量的文章中一篇接着一篇文章地查询，很难奏效，针对这种情况，目前存在基于将每个文本作为一个独立的样本，从而分别通过人工标注、正样本无标签学习(positive unlabeled learning，PU-learning)这两种方式进行正负样本的标注，并提取正样本、负样本相应的特征生成分类模型，以此分类模型对新的文本进行分类，然而若是这些文章之间并没有很强的区分性时，这种分类方式的分类效果欠佳。

因此为了解决上述问题，本申请实施例提供一种分类模型训练的方法，该方法可以通过获取N个第一类型的文本以及等量的第二类型的文本，进行两两组合后得到目标文本对，并根据该目标文本对中的两个文本的类型确定目标样本集，进一步地对该目标样本集进行训练，从而得到目标模型，以此目标模型对文本进行分类。

应当理解的是，本申请实施例中对于上述所描述的N的个数不进行限定。

为便于更好地理解本申请实施例所提出的方案，下面对本实施例中的具体流程进行介绍，请参阅图2，为本申请实施例中提供的分类模型训练的方法的一个实施例示意图，该方法包括：

201、获取N个第一类型的文本和N个第二类型的文本。

本实施例中，在网络平台上随处可见不同类型的文本，如：娱乐类型的文章、体育类型的文章、数码类型的文章、军事类型的文章、科技类型的文章、时尚类型的文章等等，然而为了用户可以快速查询并阅读到需求的文章，那么就需要建立分类模型自动对网络平台上的文本进行分类。因此，需要通过获取N个第一类型的文本和N个第二类型的文本，该第一类型的文本是通过人工已经对某种类型的文本进行标注过的文本，该第二类型的文本是已经通过PU-learning的方式对除了上述人工标注的某种类型的文本之外的其他类型的文本进行标注过的文本。

需要说明的一点是，上述所描述的第一类型的文本的个数与第二类型的文本的个数是相等的，即理解成针对第一类型，从中获取文章的数目为N个，那么对于第二类型的文章的数据就必须是N个，为后续的文本进行组合提供便利，使得分类操作简单。

202、将N个第一类型的文本或N个第二类型的文本进行两两组合，以得到至少一个目标文本对。

本实施例中，在获取到N个第一类型的文本以及等量的第二类型的文本之后，可以对这N个第一类型的文本或这N个第二类型的文本进行随机两两组合，从而得到至少一个目标文本对。

应当理解的是，对上述N个第一类型的文本或N个第二类型的文本进行随机两两组合，可以出现三种情况下的目标文本对：即第一种情况下的目标文本对可以是从N个第一类型的文本中，任意地且随机地从中选取两个第一类型的文本进行两两组合；第二种情况下的目标文本对可以是从N个第二类型的文本中，任意地且随机地从中选取两个第二类型的文本进行两两组合；第三种情况下的目标文本对可以是从这N个第一类型的文本中任意选取一个文本，从这N个第二类型的文本中任意地选取一个文本，从而将分别选取出的第一类型的文本与第二类型的文本进行两两组合。需要说明的是，针对目标文本对，到底是从第一类型的文本中进行两两组合得到的，还是从第二类型的文本中进行两两得到的，又或者是从第一类型的文本和第二类型的文本进行两两组合得到的方式，本申请实施例中不做具体限定说明。

203、根据目标文本对中的两个文本的类型确定目标样本集。

本实施例中，在得到目标文本对后，可以通过该目标文本对中所包括的两个文本的类型确定出目标样本集，也就是理解成在对不同类型的文本进行组合后，从组合后的目标文本对中的两个文本的类型来确定出该目标文本对的类型，以此来确定出目标样本集是属于哪种类型的文本或者是混合类型的文本。应当理解的是，该目标样本集可以包括正样本或负样本，所描述的正样本是使用第一标签对目标文本对进行标注得到的样本，通常可以使用“1”来表示该第一标签；同样，需要理解的是，所描述的负样本是使用第二标签对目标文本对进行标注得到的样本，通常可以使用“0”来表示该第二标签。

204、对目标样本集执行预设训练操作，得到训练后的目标模型，训练后的目标模型用于对文本进行分类。

本实施例中，在得到目标样本集之后，通过对该目标样本集中的每个样本均执行预设训练的公式中，具体地，可以通过逻辑回归模型(logistic regression,LR)、支持向量机(support vector machine,SVM)或极限梯度提升(exterme gradient boosting，XGBoost)等对该目标样本集进行训练和评估，从而得到训练后的目标模型。应当理解的是，如果所训练出来的目标模型所对应的曲线下的面积(area under the curve，AUC)高于预先设置的预设阈值，才可以对未标注的新样本进行类型的预测，上述所描述的AUC指的是受试者操作曲线(receiver operating characteristic,ROC)下的面积。

应理解的是，在另一些实施例中，还可以在确定出目标样本集之后，可以从目标样本集中随机抽取出占比为A的样本作为训练集，将占比为B的样本作为评估集，其中，A+B＝1，且A大于B；并借助上述描述的LR、SVM或XGBoost对该训练集进行模型的训练，以得到训练后的目标模型，以及对评估集进行模型的评估。

一些实施例中，在获取到N个第一类型的文本以及等量的第二类型的文本之后，还可以通过分别提取出第一类型的文本中的第一停用词，提取第二类型的文本中的第二停用词，进一步地过滤掉所提取出的第一停用词以及第二停用词。所描述的停用词通常是一些人类语言中包含的功能词，这些功能词并没有什么实际或具体含义，比如：“的”、“是”、“在”等使用频率特别高的单独出现的汉字、连接词、介词或语气助词等等，又或者还可以是数字、数字字符、标点符号等等，这些停用词对于在文本分类中并没有起到关键作用，所以在提取出第一停用词和第二停用词之后，可以通过删除、自动忽略等操作进行过滤。

另外，在另一实施例中，还可以在获取到第一类型的文本以及等量的第二类型的文本之后，对每个文本中的非法数据进行过滤，该非法数据可以包括但不限于涉及非法字符、敏感性信息、国家安全、暴力等等，或者过滤掉文本长度小于200字符的文本等，使得在分类模型的训练过程中避免了垃圾信息的过度干扰，影响模型训练的可靠性。

为了便于理解，下面将进一步地对本申请实施例中的具体流程进行具体介绍，请参阅图3，图3是本申请实施例提供的分类模型训练的方法的另一个实施例示意图。

301、获取N个第一类型的文本和N个第二类型的文本。

302、将N个第一类型的文本或N个第二类型的文本进行两两组合，以得到至少一个目标文本对。

303、判断目标文本对中的两个文本的类型是否相同。

本实施例中，在得到目标文本对后，可以通过该目标文本对中所包括的两个文本的类型确定出目标样本集，也就是理解成在对不同类型的文本进行组合后，从组合后的目标文本对中的两个文本的类型来确定出该目标文本对的类型。例如：针对某一个目标文本对，假设该目标文本对是从N个第一类型的文本中随机进行两两组合后得到的，那么就可以通过判断出文本的类型信息是否相同来确定目标样本集。

例如：假设该目标文本对是从数码类型中的文本进行随机组合，如将手机类和平板电脑类这两个文本进行组合，那么通过获取出手机类的类型信息、平板电脑类的类型信息等等确定这两类中的文本的类型是否相同，很显然，手机类的文本与平板电脑类的文本是均属于数码类中的文本，因此这两者的文本的类型相同。或者如：假设该目标文本对是从第二类型中的文本进行随机组合，即通过PU-learning的方式中标注出的时尚类，一般时尚类的文本可以包括美妆、美容、服装搭配等等，如将美妆类和服装搭配类中的文本进行两两组合，那么通过获取出美妆类的类型信息、服装搭配类的类型信息等等确定这两类中的文本的类型是否相同，很显然，美妆类的文本与服装搭配类的文本是均属于时尚类中的文本，因此这两者的文本的类型相同。又或者还可以是该目标文本对是将第一类型的文本与第二类型中的文本进行随机两两组合，如：分别在数码类中的选取手机类的文本，在时尚类中选取美妆的文本，进一步地将手机类的文本与美妆类的文本进行组合，那么通过获取出美妆类的类型信息、手机类的类型信息等等确定这两类中的文本的类型是否相同，很显然，美妆类的文本属于时尚类的文本，而手机类的文本是属于数码类的文本，因此这两者的文本的类型并不相同。

304、若目标文本对中的两个文本的类型均为第一类型或第二类型，则确定目标文本对为正样本。

本实施例中，所描述的正样本是使用第一标签对目标文本对进行标注得到的样本，通常可以使用“1”来表示该第一标签。例如，在上述步骤303中，很显然可以看出手机类的文本与虚拟现实类的文本所组成的目标文本对就是正样本；另外，美妆类的文本与服装搭配类的文本所组成的目标文本对也同样是正样本。

需要理解的是，在另外一些实施例中，在确定目标文本对为正样本之后，需要使用第一标签对该正样本进行标注，主要是为后续在训练处目标模型之后对新样本进行文本类型的预测，从而在预测新样本的文本类型后，将新样本进行类型的归类。

305、若目标文本对中的两个文本的类型为第一类型与第二类型的组合，则确定目标文本对为负样本。

本实施例中，所描述的负样本是使用第二标签对目标文本对进行标注得到的样本，通常可以使用“0”来表示该第二标签。例如，在上述步骤303中，很显然可以看出手机类的文本与美妆类的文本所组成的目标文本对就是负样本。

需要理解的是，在另外一些实施例中，在确定目标文本对为负样本之后，需要使用第二标签对该负样本进行标注，主要是为后续在训练处目标模型之后对新样本进行文本类型的预测，从而在预测新样本的文本类型后，将新样本进行类型的归类。

应理解的是，对于上述步骤304和步骤305的执行顺序不做限定说明。

306、根据正样本与负样本确定目标样本集。

本实施例中，在得到正样本以及负样本之后，可以选择把所得到的正样本与负样本都作为目标样本集中的样本。

307、针对目标样本集中的任一目标文本对，分别获取目标文本对中的两个文本的特征信息，得到第一特征信息和第二特征信息。

本实施例中，特征信息可以包括词的重要性、词的出现次数、文本的篇数等等，在实际应用中，还可以包括如词语的相似性或替代性等信息，本申请实施例中不做具体限定。应当理解的是，词A在某篇文本中的重要性是与该词A在该篇文本中出现的次数成正比的，而与所有第一类型的文本中包含该词A的文本数是成反比的。

在另一些实施例中，对于如何分别获取目标文本对中的两个文本的特征信息，即获取第一特征信息和第二特征信息，可以分别对目标文本对中的两个文本进行分词，得到分词后的第一文本序列、分词后的第二文本序列，如：分别得到A＝{a1，a2，…，an，…}、B＝{b1,b2,…bm,…}，进一步地通过词到向量Word2Vec算法计算该第一文本序列中的每个词语对应的第一词向量，通过Word2Vec算法计算该第二文本序列中的每个词语对应的第二词向量，再统计第一词向量在K维向量空间上的第一平均值，统计第二词向量在K维向量空间上的第二平均值，将第一平均值作为第一特征信息，将第二平均值作为第二特征信息。也就是说在得到分词后的第一文本序列、第二文本序列之后，通过Word2Vec算法将文本中的词语映射到至少三维的向量空间中，针对每一篇文本中出现的词语，统计该词语所对应的词向量在这至少三维的向量空间上的平均值，以此平均值来代表该篇文本所对应的向量，即该篇文本的特征信息。另外，还有一点是，这至少三维的向量空间上的相似度可以用来表示文本中的词语语义上的相似度。

308、对第一特征信息和第二特征信息进行特征相似度计算，得到目标文本对的特征值。

本实施例中，预设公式可以包括但不限于以下两种公式，即：

第一种，基于余弦相似度公式，具体如下：

其中，表示第一特征信息，表示第二特征信息。

第二种,基于欧几里得距离公式，具体如下：

其中，X表示第一特征信息，Y表示第二特征信息，N表示维度。

因此，基于上述第一种公式或第二种公式计算出第一特征信息与第二特征信息的相似度之后，可以将该相似度作为所对应的目标文本对的特征值S。

309、通过对目标文本对的特征值进行训练，得到训练后的目标模型。

本实施例中，在得到目标样本集的特征值之后，具体地，可以通过LR、SVM或XGBoost等对该目标样本集的特征值进行训练和评估，从而得到训练后的目标模型。应当理解的是，如果所训练出来的目标模型所对应的曲线下的面积(area under the curve，AUC)高于预先设置的预设阈值，才可以对未标注的新样本进行类型的预测，上述所描述的AUC指的是受试者操作曲线(receiver operating characteristic,ROC)下的面积。

本实施例中，在获取N个第一类型的文本以及等量的N个第二类型的文本后，通过对这N个第一类型的文本或N个第二类型的文本进行两两组合可以得到至少一个目标文本对，进一步对基于目标文本对中的两个文本的类型来确定出的目标样本集进行训练，从而得到训练后的目标模型，使得所述训练后的目标模型可以对文本进行分类。因此通过将第一类型的文本或第二类型的文本进行两两组合，而不是将第一类型的文本或第二类型的文本作为独立的文本做训练，使得本申请中训练得到的目标模型最大化地实现对文本的准确分类，不仅提高了文本分类的准确率，还提升了文本分类的召回率。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的分类模型训练装置进行详细描述，请参阅图4，图4为本申请实施例中提供的分类模型训练装置一个实施例示意图，该分类模型训练装置可以包括：

获取单元401，用于获取N个第一类型的文本和N个第二类型的文本，所述N为正整数；

组合单元402，用于将所述获取单元401获取的所述N个第一类型的文本或所述N个第二类型的文本进行两两组合，以得到至少一个目标文本对；

确定单元403，用于根据所述组合单元402得到的所述目标文本对中的两个文本的类型确定目标样本集；

训练单元404，用于对所述确定单元403确定的所述目标样本集执行预设训练操作，得到训练后的目标模型，所述训练后的目标模型用于对文本进行分类。

可选地，在上述图4所对应的实施例的基础上，请参阅图5，为本申请实施例提供的分类模型训练装置的另一个实施例示意图，该确定单元403可以包括：

判断模块4031，用于判断所述目标文本对中的两个文本的类型是否相同；

第一确定模块4032，用于在所述判断模块4031判断出所述目标文本对中的两个文本的类型均为所述第一类型或第二类型时，确定所述目标文本对为正样本；

第二确定模块4033，用于在所述判断模块4031判断出所述目标文本对中的两个文本的类型为所述第一类型与所述第二类型的组合，则确定所述目标文本对为负样本；

第三确定模块4034，用于根据所述第一确定模块4032确定出的所述正样本与根据所述第二确定模块4033确定出的所述负样本确定目标样本集。

可选地，在上述图4或图5所对应的实施例的基础上，请参阅图6，为本申请实施例提供的分类模型训练装置的另一个实施例示意图，该训练单元404可以包括：

获取模块4041，用于针对所述目标样本集中的任一目标文本对，分别获取所述目标文本对中的两个文本的特征信息，得到第一特征信息和第二特征信息；

计算模块4042，用于通过对所述获取模块4041所述第一特征信息和所述第二特征信息进行特征相似度计算，得到所述目标文本对的特征值；

训练模块4043，用于通过对所述计算模块4042计算得到的所述目标文本对的特征值进行训练，得到所述训练后的目标模型。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的分类模型训练装置的另一实施例中，所述获取模块4041包括：分词子模块，用于分别对所述目标文本对中的两个文本进行分词，得到分词后的第一文本序列、分词后的第二文本序列；计算子模块，用于确定所述分词子模块得到的所述分词后的第一文本序列中的每个词语对应的第一词向量，以及所述分词子模块得到的所述分词后的第二文本序列中的每个词语对应的第二词向量；统计子模块，用于统计所述计算子模块得到的所述第一词向量在K维向量空间上的第一平均值，统计所述计算子模块得到的所述第二词向量在所述K维向量空间上的第二平均值，所述K为大于2的整数；确定子模块，用于将所述统计子模块得到的所述第一平均值作为所述第一特征信息，将所述统计子模块得到的所述第二平均值作为所述第二特征信息。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供的分类模型训练装置的另一实施例中，所述分类模型训练装置还包括：第一标注单元，用于在所述第一确定模块确定所述目标文本对为正样本之后，通过第一标签对所述正样本进行标注，所述第一标签用于指示所述正样本的类型。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供的分类模型训练装置的另一实施例中，所述分类模型训练装置还包括：第二标注单元，用于在所述第二确定模块确定所述目标文本对为正样本之后，通过第一标签对所述正样本进行标注，所述第一标签用于指示所述正样本的类型。

可选地，在上述图4至图6中任一对应的实施例的基础上，本申请实施例提供的分类模型训练装置的另一实施例中，所述分类模型训练装置还包括：提取单元，用于在所述获取单元获取N个第一类型的文本和N个第二类型的文本之后，提取所述第一类型的文本中的第一停用词，提取所述第二类型的文本中的第二停用词；过滤单元，用于过滤所述提取单元提取出的所述第一停用词和所述第二停用词。

因此通过组合单元402将第一类型的文本或第二类型的文本进行两两组合，而不是将第一类型的文本或第二类型的文本作为独立的文本做训练，使得本申请中训练得到的目标模型最大化地实现对文本的准确分类，不仅提高了文本分类的准确率，还提升了文本分类的召回率。

上面从模块化功能实体的角度对本申请实施例中的分类模型训练装置进行描述，下面从硬件处理的角度对本申请实施例中的分类模型训练设备进行描述。图7是本申请实施例提供的分类模型训练设备的结构示意图，该分类模型训练设备可以包括上述所描述的分类模型训练装置等，该分类模型训练设备可因配置或性能不同而产生比较大的差异，该分类模型训练设备可以包括至少一个处理器501，通信线路507，存储器503以及至少一个通信接口504。

处理器501可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路507可包括一通路，在上述组件之间传送信息。

通信接口504，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器503可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路507与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器503用于存储执行本申请方案的计算机执行指令，并由处理器501来控制执行。处理器501用于执行存储器503中存储的计算机执行指令，从而实现本申请上述实施例提供的分类模型训练的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该分类模型训练设备可以包括多个处理器，例如图7中的处理器501和处理器502。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该分类模型训练设备还可以包括输出设备505和输入设备506。输出设备505和处理器501通信，可以以多种方式来显示信息。输入设备506和处理器501通信，可以以多种方式接收用户的输入。例如，输入设备506可以是鼠标、触摸屏装置或传感装置等。

上述的分类模型训练设备可以是一个通用装置或者是一个专用装置。在具体实现中，该分类模型训练设备可以是台式机、便携式电脑、nas服务器、无线终端装置、嵌入式装置或有图7中类似结构的装置。本申请实施例不限定该分类模型训练设备的类型。

在本申请实施例中，该分类模型训练设备所包括的处理器501还具有以下功能：

根据所述目标文本对中的两个文本的类型确定目标样本集；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种分类模型训练的方法，其特征在于，包括：

根据所述目标文本对中的两个文本的类型确定目标样本集；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本对中的两个文本的类型确定目标样本集，包括：

判断所述目标文本对中的两个文本的类型是否相同；

若所述目标文本对中的两个文本的类型均为所述第一类型或第二类型，则确定所述目标文本对为正样本；

若所述目标文本对中的两个文本的类型为所述第一类型与所述第二类型的组合，则确定所述目标文本对为负样本；

根据所述正样本与所述负样本确定目标样本集。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述目标样本集执行预设训练操作，得到训练后的目标模型，包括：

针对所述目标样本集中的任一目标文本对，分别获取所述目标文本对中的两个文本的特征信息，得到第一特征信息和第二特征信息；

对所述第一特征信息和所述第二特征信息进行特征相似度计算，得到所述目标文本对的特征值；

通过对所述目标文本对的特征值进行训练，得到所述训练后的目标模型。

4.根据权利要求3所述的方法，其特征在于，所述分别获取所述目标文本对中的两个文本的特征信息，得到第一特征信息和第二特征信息，包括：

分别对所述目标文本对中的两个文本进行分词，得到分词后的第一文本序列、分词后的第二文本序列；

确定所述分词后的第一文本序列中的每个词语对应的第一词向量，以及所述分词后的第二文本序列中的每个词语对应的第二词向量；

统计所述第一词向量在K维向量空间上的第一平均值，统计所述第二词向量在所述K维向量空间上的第二平均值，所述K为大于2的整数；

将所述第一平均值作为所述第一特征信息，将所述第二平均值作为所述第二特征信息。

5.根据权利要求2所述的方法，其特征在于，在确定所述目标文本对为正样本之后，还包括：

通过第一标签对所述正样本进行标注，所述第一标签用于指示所述正样本的类型。

6.根据权利要求2所述的方法，其特征在于，在确定所述目标文本对为负样本之后，还包括：

通过第二标签对所述负样本进行标注，所述第二标签用于指示所述负样本的类型。

7.根据权利要求1-6中任一所述的方法，其特征在于，在获取N个第一类型的文本和N个第二类型的文本之后，还包括：

提取所述第一类型的文本中的第一停用词，提取所述第二类型的文本中的第二停用词；

过滤所述第一停用词和所述第二停用词。

8.一种分类模型训练装置，其特征在于，包括：

9.一种分类模型训练设备，其特征在于，包括：处理器以及存储器，所述处理器以及存储器通过通信总线相连；其中，所述处理器，用于调用并执行所述存储器中存储的程序；所述存储器，用于存储程序，所述程序用于实现如权利要求1至7任意一项所述的分类模型训练的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7任意一项所述的分类模型训练的方法。