CN114238632A

CN114238632A - 一种多标签分类模型训练方法、装置及电子设备

Info

Publication number: CN114238632A
Application number: CN202111498036.3A
Authority: CN
Inventors: 刘畅; 李长亮; 郭馨泽
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-25

Abstract

本申请实施例提供的一种多标签分类模型训练方法、装置及电子设备，应用于模型训练的技术领域，包括：获取目标语料库及预先标注的多个单标签语料；针对任一单标签语料，计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；针对任一指定语料，将该指定语料对应的单标签语料的标签添加为该指定语料的标签；通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并，得到多标签语料；利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。只需要大量未标注的语料和少量预先标注过的语料就可进行多标签文本分类模型训练，降低语料标注成本。

Description

一种多标签分类模型训练方法、装置及电子设备

技术领域

本申请涉及模型训练的技术领域，特别是涉及一种多标签分类模型训练方法、装置及电子设备。

背景技术

语料分类作为文本处理中非常重要的一个部分，其应用已经变的非常广泛，比如：垃圾数据过滤，新闻分类，词性标注等等。通过语料分类可以将语料指定分到某个或某几个类别中。分类体系一般人为划分，例如：1)政治、体育、军事2)水果、蔬菜3)好评、中性、差评。然而在实际分类过程中，往往会存在一个语料对应多个分类，其中，可以用标签来表示分类，例如，一条关于足球比赛的语料即属于体育分类又属于好评分类，可以同时通过体育和好评的标签表示其分类，该语料即为多标签语料，该语料所在文本即为多标签文本。

相关技术中，多标签文本分类通常利用预先训练的多标签分类模型来实现，然而多标签分类模型需要大量标注有多个标签的样本语料进行训练，而样本语料是通过人工对语料进行标注的方式得到的，存在标注成本高，标注效率低的问题，且多标签分类模型的计算精度有待提高。

发明内容

本申请实施例的目的在于提供一种多标签分类模型训练方法、装置及电子设备，用以降低语料标注成本，提高语料标注效率及模型计算精度。具体技术方案如下：

本申请实施的第一方面，首先提供了一种多标签分类模型训练方法，上述方法包括：

获取目标语料库及预先标注的多个单标签语料，其中，目标语料库中包含多个未标注的语料，单标签语料对应有标签；

针对任一单标签语料，计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；

针对任一指定语料，将该指定语料对应的单标签语料的标签添加为该指定语料的标签；

通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并，得到多标签语料；

利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。

可选的，针对任一单标签语料，计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料，包括：

分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码，得到各单标签语料与目标语料库中各单语语料对应的向量；

针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度；

选取目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。

可选的，针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度，包括：

针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的的余弦距离和/或欧几里得距离和/或杰卡德距离；

根据计算得到的余弦距离和/或欧几里得距离和/或杰卡德距离，计算得到该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度。

可选的，针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度之前，上述方法还包括：

对目标语料库中各语料对应的句向量进行降维和/或文件切片，得到处理后的目标语料库；

针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度，包括：

针对任一单标签语料的句向量，计算该单标签语料的句向量与处理后的目标语料库中各单语语料的句向量之间的相似度。

可选的，多标签语料包括对应的多个标签，利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型，包括：

将多标签语料输入待训练的多标签文本分类模型，通过待训练的多标签文本分类模型对多标签语料进行计算，得到多标签语料对应的预测标签；

将多标签语料对应的预测标签与多标签语料对应的多个标签进行对比，得到待训练的多标签文本分类模型当前的损失；

根据当前的损失调整待训练的多标签文本分类模型的参数，返回将多标签语料输入待训练的多标签文本分类模型，通过待训练的多标签文本分类模型对多标签语料进行计算，得到多标签语料对应的预测标签的步骤继续执行，直至当前的损失小于预设阈值，得到训练后的多标签分类模型。

可选的，多标签语料包括对应的多个标签，利用多标签语料对多标签分类模型进行训练，得到训练后的多标签文本分类模型之后，上述方法还包括：

从目标语料库中选取指定语料以外的多个语料，并将选取的多个语料作为待预测语料；

将多个待预测语料输入训练后的多标签分类模型进行标签的预测，得到携带有预测标签的待预测语料；

从多个待预测语料中选取预测标签正确的多个待预测语料作为目标语料；

利用多个目标语料替换预先标注的多个单标签语料，并返回获取目标语料库及预先标注的多个单标签语料的步骤继续执行，直至各待预测语料的预测标签的正确率大于预设正确率阈值，得到最终训练好的多标签分类模型。

本申请实施的第二方面，提供了一种文本数据分类方法，上述方法包括：

获取待分类文本数据；

利用预先训练的多标签分类模型对待分类文本数据进行分析，得到待分类文本数据中各语料的类型，其中，多标签分类模型通过上述任一多标签分类模型训练方法训练得到；

根据待分类文本数据中各语料的类型，得到待分类文本数据的类型。

可选的，在获取待分类文本数据之后，上述方法还包括：

对待分类文本数据进行语种检测，得到待分类文本数据的目标语种类别；

利用目标语种类别对应的语料分割方法，将待分类文本数据分割为多个待分类语料；

利用预先训练的多标签分类模型对待分类文本数据进行分析，得到待分类文本数据中各语料的类型，包括：

利用预先训练的多标签分类模型分别对各待分类语料进行分析，得到各待分类语料的类型。

可选的，根据待分类文本数据中各语料的类型，得到待分类文本数据的类型，包括：

统计待分类文本数据中各类型的语料的数量；

选取语料数量最多的前N个类型，作为待分类文本数据的类型，其中，N为正整数。

可选的，上述方法还包括：

按照待分类文本数据的类型，对待分类文本数据进行指定语种的翻译，得到待分类文本数据对应指定语种的译文。

本申请实施的第三方面，提供了一种客户端设备，客户端设备用于：

获取用户在翻译框中输入的待分类文本数据；

基于待分类文本数据，获取待分类文本数据的类型，其中，待分类文本数据的类型是通过上述任一文本数据分类方法得到的；

在预设的显示位置显示待分类文本数据对应的至少一个类型；

获取用户选取的类型作为目标类型，按照目标类型，对待分类文本数据进行翻译，得到待分类文本数据的译文。

本申请实施的另一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一多标签分类模型训练方法步骤。

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一文本数据分类方法步骤。

本申请实施的另一方面，还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一多标签分类模型训练方法步骤。

本申请实施的另一方面，还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一文本数据分类方法步骤。

本申请实施例有益效果：

本申请实施例提供的多标签分类模型训练方法，包括：获取目标语料库及预先标注的多个单标签语料，其中，目标语料库中包含多个未标注的语料，单标签语料对应有标签；针对任一单标签语料，计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；针对任一指定语料，将该指定语料对应的单标签语料的标签添加为该指定语料的标签；通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并，得到多标签语料；利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。通过计算单标签语料与目标语料库中各语料的相似度，对目标语料库中未标注的语料进行标注，从而通过标注的指定语料进行模型的训练，实现通过未标注的语料对模型的训练，实现只需要大量未标注的语料和少量预先标注过的语料就可以进行多标签文本分类模型的训练，从而减少模型训练过程中需要标注的语料的数量，降低语料标注成本，提高语料标注效率及模型精度。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的多标签分类模型训练方法的一种流程示意图；

图2为本申请实施例提供的获取指定语料的流程示意图；

图3为本申请实施例提供的计算单标签语料和单语语料的相似度的流程示意图；

图4为本申请实施例提供的对多标签分类模型进行训练的流程示意图；

图5为本申请实施例提供的获取训练好的多标签分类模型的流程示意图；

图6为本申请实施例提供的文本数据分类方法的一种流程示意图；

图7为本申请实施例提供的获取待分类语料的类型的流程示意图；

图8为本申请实施例提供的对待分类文本数据进行翻译的流程示意图；

图9a为本申请实施例提供的对文本数据进行翻译的一种界面示意图；

图9b为本申请实施例提供的对文本数据进行翻译的另一种界面示意图；

图9c为本申请实施例提供的对文本数据进行翻译的又一种界面示意图；

图10为本申请实施例提供的多标签文本分类模型训练方法的一种实例图；

图11为本申请实施例提供的电子设备的一种结构示意图；

图12为本申请实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请实施例中可能应用到的名词进行解释：

弱监督：弱监督学习可以分为三种典型的类型，不完全监督(Incompletesupervision)，不确切监督(Inexact supervision)，不精确监督(Inaccuratesupervision)。不完全监督是指，训练数据中只有一部分数据被给了标签，有一些数据是没有标签的。不确切监督是指，训练数据只给出了粗粒度标签，例如，输入为一个包，该包里面有一些示例，只知道这个包的标签，Y或N，但是不知道每个示例的具体标签。不精确监督是指，给出的标签不总是正确的，比如本来应该是Y的标签被错误标记成了N。在实际操作中，这三种弱监督类型经常同时发生。

信息检索(Information Retrieval)：是用户进行信息查询和获取的主要方式，是查找信息的方法和手段。狭义的信息检索仅指信息查询(Information Search)。即用户根据需要，采用一定的方法，借助检检索工具，从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来，再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。本申请实施例中的信息检索指的就是广义的信息检索。

多标签分类(Multi-label Classification)：存在两个或多个标签，需要进行分类的数据可能属于其中一个类别，可能属于全部类别或者不属于其中任何一个类别。

Transformer是一个完全依赖自注意力(self-attention)来计算输入和输出的表示，而不使用序列对齐的递归神经网络或卷积神经网络的转换模型。

BERT(Bidirectional Encoder Representation from Transformers)，是一个预训练的语言表征模型。强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的MLM(masked language model)，以致能生成深度的双向语言表征。

Milvus是一款开源的向量数据库，支持针对TB(太字节)级向量的增删改操作和近实时查询，具有高度灵活、稳定可靠以及高速查询等特点。Milvus集成了Faiss、NMSLIB、Annoy等广泛应用的向量索引库，提供了一整套简单直观的API，可以针对不同场景选择不同的索引类型。此外，Milvus还可以对标量数据进行过滤，进一步提高了召回率，支持主流索引库、距离计算方式和监控工具，增强了搜索的灵活性。

为了降低语料标注成本，提高语料标注效率及模型精度，本申请实施例的第一方面，首先提供一种多标签分类模型训练方法，包括：

获取目标语料库及预先标注的多个单标签语料，其中，目标语料库中包含多个未标注的语料，单标签语料对应标注有标签；

针对任一单标签语料，分别计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；

可见，通过本申请实施例的方法，可以通过计算单标签语料与目标语料库中各语料的相似度，对目标语料库中未标注的语料进行标注，从而通过标注的指定语料进行模型的训练，实现只需要大量未标注的语料和少量预先标注过的语料就可以进行多标签文本分类模型的训练，从而减少模型训练过程中需要标注的语料的数量，降低语料标注成本，提高语料标注效率。

参见图1，图1为本申请实施例提供的多标签分类模型训练方法的一种流程示意图，包括：

步骤S11，获取目标语料库及预先标注的多个单标签语料。

本申请实施例中的多标签分类模型可以应用于翻译，新闻分类等领域。上述目标语料库可以是预先收集得到的语料库，如根据历史训练任务的样本数据进行统计收集得到的语料库，也可以是第三方语料库，如BCC语料库(北语语料库)、树图语料库等。上述目标语料库及预先标注的多个单标签语料中的语料可以是用于进行翻译或分类的文本语料，其中，目标语料库中的语料为单语语料，即单语种语料，在实际使用过程中目标语料库中的语料的数量可以达到3亿条。本申请实施例中语料的标注，可以按照语料的分类大类进行标注，如语料对应的领域大类，预先标注的单标签语料是指仅标注一种标签的语料。具体的，可以通过人工的方式对语料进行单标签的标注，得到预先标注的多个单标签语料。可以理解，该单标签语料也是单语种语料，且该单标签语料的语种与目标语料库中单语语料的语种一致。其中，本申请实施例中的目标语料库具有与预先标注的多个单标签语料内容重叠的语料。

步骤S12，针对任一单标签语料，计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料。

其中，针对任一单标签语料，分别计算该单标签语料与目标语料库中各语料的相似度，可以依次选取目标语料库中的各语料，然后计算每个单标签语料和该选取的语料之间的相似度。其中，计算单标签语料和选取的语料之间的相似度，可以分别获取单标签语料和选取的语料对应的特征向量，然后计算单标签语料的特征向量和选取的语料对应的特征向量之间的相似度。具体的，可以计算单标签语料的特征向量和选取的语料对应的特征向量之间的距离，如：余弦距离、欧几里得距离、杰卡德距离等，然后通过计算得到的余弦距离、欧几里得距离、杰卡德距离等确定两者之间的相似度，本申请实施例中优选的采用杰卡德距离进行相似度的计算。在实际应用过程中两个特征向量之间的距离越小表明该两者之间的相似度越大，在通过计算得到的向量之间的距离确定相似度时，例如，可以通过计算得到的距离的倒数表示相似度。然后，将得到的相似度与预设相似度阈值进行比较，当相似度大于预设相似度阈值时，则将该单语语料作为该单标签语料对应的指定语料。其中，当相似度大于预设相似度阈值的语料为多个语料时，可以从对应的多个语料中选取对应的相似度最大语料作为指定语料，在一种可能的情况下，当对应的相似度最大语料为多个语料时，可以从中随机选取一个作为该指定语料。其中，预设相似度阈值可以为某一预设数值，如0.95、0.98等。

步骤S13，针对任一指定语料，将该指定语料对应的单标签语料的标签添加为该指定语料的标签。

将该指定语料对应的单标签语料的标签添加为该指定语料的标签，可以根据单标签语料的标签对对应的指定语料打标签。例如，对于某一指定语料，通过步骤S12中相似度确定的过程，可知该指定语料对应的单标签语料的标签为“法律”，则可以利用该单标签语料的“法律”标签对该指定语料打标签，得到该指定语料的标签也为“法律”。

步骤S14，通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并，得到多标签语料。

将标注后的指定语料与预先标注的多个单标签语料进行合并，可选的，可以将标注后的指定语料和对应的预先标注的单标签语料中相似的语料进行语料合并，具体的，可以针对指定语料与预先标注的多个单标签语料中的任一语料，可以将与该语料相似的语料的标签添加到该语料上。其中，预设语料合并方式可以是将标注后的指定语料与对应的预先标注的单标签语料通过onehot编码形式表示后，再将onehot编码形式表示后的语料进行合并，并将合并前的语料的标签作为合并后的语料的标签。另一个实施例中，预设语料合并方式可以是将标注后的指定语料与对应的预先标注的单标签语料并集合并，合并后的语料通过onehot编码形式进行表示，得到多标签语料。其中onehot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

步骤S15，利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。

其中，本申请实施例中的多标签文本分类模型可以是多种类型的模型，例如朴素贝叶斯、KNN(K-NearestNeighbor，邻近算法)方法、决策树、支持向量机、GBDT(梯度提升树算法)/XGBOOST(一种优化的分布式梯度增强库)、RNN(Recurrent Neural Network，循环神经网络)，TextCNN，BERT(Bidirectional Encoder Representations from Transformers)等。其中，利用多标签语料对多标签文本分类模型进行训练，可以将多标签语料输入多标签分类模型，然后通过多标签分类模型进行多标签语料的分类，得到分类结果，根据分类结果进行损失的计算，并对多标签分类模型进行参数的调整，直至损失小于预设阈值得到训练后的多标签分类模型。

本申请实施例的方法应用于服务器或处理器等，通过服务器或处理器可以进行多标签分类模型的训练。一个例子中，服务器或处理器可以仅用于多标签分类模型的训练，得到训练完成的多标签分类模型之后，可以将该训练完成的多标签分类模型导入到另一服务器或处理器进行多标签分类模型的使用。在另一个例子中，服务器或处理器用于多标签分类模型的训练，得到训练完成的多标签分类模型之后，可以通过该服务器或处理器进行多标签分类模型的使用。

可选的，参见图2，步骤S12针对任一单标签语料，分别计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料，包括：

步骤S121，分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码，得到各单标签语料与目标语料库中各单语语料对应的句向量；

步骤S122，针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度；

步骤S123，选取目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。

其中，分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码，可以对各单标签语料与目标语料库中各单语语料进行向量化。具体的，可以通过逻辑表示法、连接法、语义空间法等，如采用BERT(Bidirectional Encoder Representation fromTransformers)模型对各单标签语料与目标语料库中各单语语料进行句向量编码，得到各单标签语料与目标语料库中各单语语料对应的句向量。

可选的，针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度，包括：针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的余弦距离和/或欧几里得距离和/或杰卡德距离；根据计算得到的余弦距离和/或欧几里得距离和/或杰卡德距离，计算得到该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度。

选取相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料，可以通过计算单标签语料与目标语料库中各语料对应的向量之间的余弦距离和/或欧几里得距离和/或杰卡德距离等，然后通过计算得到的距离确定相似度，再将计算得到的相似度与预设相似度阈值进行对比，选取相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。其中，当同时采用多种计算方式计算单标签语料与目标语料库中各语料对应的向量之间的距离时，可以通过预设权重进行加权求和的方式，即对不同计算方式计算得到的多个结果按照预设权重进行加权求和，得到单标签语料与目标语料库中各语料对应的向量之间的相似度。

可见，通过本申请实施例的方法，可以分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码，然后计算该单标签语料与目标语料库中各语料对应的向量之间的相似度，最后选取相似度大于预设相似度阈值的语料作为该单标签语料对应的目标语料，从而根据目标语料进行标注，实现通过未标注的语料对模型的训练，从而减少模型训练过程中需要标注的语料的数量，降低语料标注成本。

可选的，参见图3，步骤S122针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度之前，上述方法还包括：

步骤S31，对目标语料库中的各语料对应的句向量进行降维和/或文件切片处理，得到处理后的目标语料库；

针对任一单标签语料，计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度，包括：步骤S32，针对任一单标签语料的句向量，计算该单标签语料的句向量与处理后的目标语料库中各单语语料的句向量之间的相似度。从而选取处理后的目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。

其中，通过对目标语料库中的单语语料对应的句向量进行降维，可以采用PCA(Principal Component Analysis)降维方法。本申请实施例中，可以将降维后的单语语料对应的句向量导入Milvus向量数据库中，通过Milvus向量数据库进行步骤S32所述的句向量的相似度计算。通过对目标语料库中的单语语料对应的句向量进行降维和/或文件切片，可以减少单语语料对应的句向量的空间占用和内存占用率，便于将处理后的目标语料库导入Milvus向量数据库中，将单标签语料的句向量与Milvus向量数据库中的各单语语料的句向量进行相似度计算，突显Milvus向量数据库处理TB级向量数据的优势。

可选的，参见图4，多标签语料包括对应的多个标签，利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型，包括：

步骤S41，将多标签语料输入待训练的多标签文本分类模型，通过待训练的多标签文本分类模型对多标签语料进行计算，得到多标签语料对应的预测标签；

步骤S42，将多标签语料对应的预测标签与多标签语料对应的多个标签进行对比，得到待训练的多标签文本分类模型当前的损失；

步骤S43，根据当前的损失调整待训练的多标签文本分类模型的参数，返回步骤S41继续执行，直至当前的损失小于预设阈值，得到训练后的多标签分类模型。

其中，将多标签语料输入待训练的多标签文本分类模型，通过待训练的多标签文本分类模型对多标签语料进行计算，得到多标签语料对应的预测标签，可以通过多标签二分类方法进行预测。例如，针对某一语料首先判断是否对应第一标签，然后判断是否对应第二标签等。具体的，如，针对语料C首先判断是否对应标签：法律，若为是；然后判断是否对应标签：专利，若为是；然后判断是否对应标签：商标，若为否，则该语料C对应的标签为法律及专利。

其中，将多标签语料对应的预测标签与多标签语料对应的多个标签进行对比，得到待训练的多标签文本分类模型当前的损失，可以使用交叉熵损失/二进制交叉熵损失/对数损失等多种预设损失函数，计算待训练的多标签文本分类模型当前的损失。

可见，通过本申请实施例的方法，可以根据当前的损失调整待训练的多标签文本分类模型的参数，得到训练后的多标签分类模型，从而实现多标签分类模型的训练。

可选的，参见图5，利用多标签语料对多标签文本分类模型进行训练，得到初步训练后的多标签分类模型之后，上述方法还包括：

步骤S51，从目标语料库中选取指定语料以外的多个语料，并将选取的多个语料作为待预测语料；

步骤S52，将多个待预测语料输入训练后的多标签分类模型进行标签的预测，得到携带有预测标签的待预测语料；

步骤S53，从多个待预测语料中选取预测标签正确的多个待预测语料作为目标语料；

步骤S54，利用多个目标语料替换预先标注的多个单标签语料，并返回获取目标语料库及预先标注的多个单标签语料的步骤继续执行，直至各待预测语料的预测标签的正确率大于预设正确率阈值，得到最终训练好的多标签分类模型。

可见，通过本申请实施例的方法，可以利用目标语料库中选取指定语料以外的多个语料对训练后的多标签分类模型继续进行训练，从而得到最终训练好的多标签分类模型。

本申请实施的第二方面，提供了一种文本数据分类方法，参见图6，该方法包括：

步骤S61，获取待分类文本数据；

步骤S62，利用预先训练的多标签分类模型对待分类文本数据进行分析，得到待分类文本数据中各语料的类型，其中，多标签分类模型通过任一多标签分类模型训练方法训练得到；

步骤S63，根据待分类文本数据中各语料的类型，得到待分类文本数据的类型。

可选的，上述方法还包括：按照待分类文本数据的类型，对待分类文本数据进行指定语种的翻译，得到待分类文本数据对应指定语种的译文。

本申请实施例中的待分类文本数据可以是多种类型的数据，例如待翻译的文本数据，或待分类的文本数据等。本申请实施例的方法应用于运行多标签分类模型的智能设备。该智能设备可以接收服务器传输的数据，从而根据服务器传输的数据进行模型的训练。

可选的，根据待分类文本数据中各语料的类型，得到待分类文本数据的类型，包括：统计待分类文本数据中各类型的语料的数量；选取语料数量最多的前N个类型，作为待分类文本数据的类型，其中，N为正整数。利用预先训练的多标签分类模型对待分类文本数据进行分析，得到待分类文本数据中各语料的类型，可以通过训练好的多标签分类模型对待分类文本数据进行标签的预测，得到该待分类文本数据对应的标签，通过该待分类文本数据对应的标签，确定待分类文本数据中各语料的类型。例如，通过训练好的多标签分类模型对“这道菜很好吃”进行标签的预测，得到对应的标签是好评，则待分类文本数据中该语料的类型为好评。

根据待分类文本数据中各语料的类型，得到待分类文本数据的类型，可以通过统计待分类文本数据中各语料的类型，将对应的类型的数量较多的作为待分类文本数据的类型。

可见，通过本申请实施例的方法，可以利用预先训练的多标签分类模型对待分类文本数据进行分析，得到待分类文本数据中各语料的类型，根据待分类文本数据中各语料的类型，得到待分类文本数据的类型。

可选的，参见图7，在获取待分类文本数据之后，上述方法还包括：

步骤S71，对待分类文本数据进行语种检测，得到待分类文本数据的目标语种类别；

步骤S72，基于目标语种类别，对待分类文本数据进行语料分割，得到多个待分类语料；

步骤S73，利用预先训练的多标签分类模型分别对各待分类语料进行分析，得到各待分类语料的类型。

对待分类文本数据进行语种检测，得到待分类文本数据的目标语种类别，该目标语种类别可以是多种类型的语种，例如，可以是汉语、英语、日语等。对待分类文本数据进行语种检测，得到待分类文本数据的目标语种类别，可以通过预设的语种检测工具进行检测，或通过预先训练得到的语种检测模型进行检测。其中，待分类文本数据可以为单语种文本数据，或包括至少两种语种的文本数据。

利用目标语种类别对应的语料分割方法，将待分类文本数据分割为多个待分类语料，可以为根据检测得到的语种，以句为单位进行分割，将待分类文本数据分割为对应的语句。例如，如中英文的文本，将中文和英文切割成中文语句和英文语句。

利用预先训练的多标签分类模型分别对各待分类语料进行分析，得到各待分类语料的类型，可以将分割后的多个待分类语料输入到预先训练的多标签分类模型，通过预先训练的多标签分类模型分别对各待分类语料进行分析。例如，中文分类模型只对中文语料进行分类，英文分类模型只对英文语料进行分类，得到各待分类语料的类型。

具体的，可以按照语种对各语料进行分类，即按照语种对待分类语料进行区分，再确定包含单一语种的该语料对应的分类领域，如新闻、体育。当一个待分类文本数据中包含至少两种语种时，可以将文本分割成多个语种语料，如英文、中文。一个例子中，英文模型得到的英文语料属于新闻、体育，中文模型得到的中文语料属于新闻、政治，则可以对中、英文模型输出的分类结果进行加权求和来确定该语料对应的分类领域，可选的，将不同语种模型输出的分类结果进行加权和得到的结果中数值最高的一类或几类作为该待分类语料的分类结果，即得到待分类语料的类型。

可见，通过本申请实施例的方法，可以利用目标语种类别对应的语料分割方法，将待分类文本数据分割为多个待分类语料，利用预先训练的多标签分类模型分别对各待分类语料进行分析，得到各待分类语料的类型，从而实现待分类语料的类型的分类。

本申请实施的第三方面，参见图8，提供了一种客户端设备，客户端设备用于：

步骤S81，获取用户在翻译框中输入的待分类文本数据；

步骤S82，基于待分类文本数据，获取待分类文本数据的类型，其中，待分类文本数据的类型是通过上述任一文本数据分类方法得到；

步骤S83，在预设的显示位置显示待分类文本数据对应的至少一个类型；

步骤S84，获取用户选取的类型作为目标类型，按照目标类型，对待分类文本数据进行翻译，得到待分类文本数据的译文。

本申请实施例中翻译框可以是预先创建的用户界面中的用于输入待分类文本数据的区域。具体的，该待分类文本可以是待翻译的文本数据，如，中文数据或英文数据等。具体的，参见图9a，用户在翻译框中输入的待分类文本数据之前或之后，还可以选择待分类文本数据对应的转换语种，如由中文简体文本翻译为英文文本，以及选择待分类文本书数据的类型，如待分类文本数据对应的领域类型为：体育、专利、资讯、建筑等，然后通过该领域类型对照选择的语种进行翻译，得到待分类文本数据对应的译文。

基于待分类文本数据，获取待分类文本数据的类型，可以对待分类文本数据进行类型的识别，具体的，识别待分类文本数据的类型，可以通过上述任一文本数据分类方法进行识别，并在预设的显示位置显示待分类文本数据对应的多个类型。例如，参见图9b，将需要翻译的文本数据输入左侧中文简体翻译为英语的文本框，右侧的文本框按照领域类型呈现对应的翻译后的译文结果，并且，右侧框上侧会显示该文本的分类类型，即选择不同的分类类型呈现与该分类类型对应的翻译译文。

获取用户选取的目标类型，按照目标类型，对待分类文本数据进行翻译，得到待分类文本数据的译文。例如，参见图9c，将待翻译文本数据输入上侧框，下侧呈现该待翻译文本数据对应的多个分类类型，如体育、专利、资讯，呈现的分类类型由上述任一文本分类方法识别得出，用户可以选取其中一个作为目标类型，该类型对应的文本数据为待分类文本数据的译文。

由于在实际使用过程中，不同类型往往会存在一些专有名词，即待分类文本数据所属的不同分类领域，会对对应领域内的专有名词有不同翻译结果，通过识别待分类文本数据的类型，然后基于该类型进行待分类文本数据的分类进行翻译，所得到的译文结果会更加准确。

可见，通过本申请实施例的方法，可以基于待分类文本数据，获取待分类文本数据的类型，在预设的显示位置显示待分类文本数据对应的多个类型，获取用户选取的目标类型，按照目标类型及选择的语种得到待分类文本数据对应的译文，从而提高待分类文本数据翻译的准确率。

为了说明本申请实施例的方法，以下结合具体实施例进行说明，参见图10，图10为本申请实施例提供的多标签文本分类模型训练方法的一种实例图，包括：

1、获取已有大数据单语语料A(即上述目标语料库中的语料)，少量人工标注的单标签语料B(即上述预先标注的单标签语料)；

2、将两者分别使用BERT模型(Bidirectional Encoder Representation fromTransformers，一个预训练的语言表征模型)进行句向量编码，得到编码后的数据A_encoded(即上述目标语料库中的语料对应的句向量)，以及编码后的标注数据B_encoded(即上述预先标注的单标签语料对应的句向量)；

3、将A_encoded进行处理(为了方便导入Milvus(一款开源的向量数据库)向量数据库中，还可以进行PCA(Principal Component Analysis)降维或文件切片等)，导入Milvus中；

4、使用B_encoded对Milvus中的A_encoded进行向量相似度计算(可以通过计算余弦距离、欧几里得距离、杰卡德距离等方法进行计算)，根据相似度阈值取得与B_encoded相关度大于预设相似度阈值的向量集合C_encoded(即上述指定语料对应的句向量集合)，其中C_encoded∈A_encoded；为C_encoded添加标签，标签与对应的B_encoded一致，仍为单标签。

5、根据C_encoded数据集，从单语语料中找到高相似度的文本数据C(即上述指定语料)；

6、将预先标注的单标签语料B和文本数据C合并，将合并后的数据集转换为onehot形式表达，均转换为多标签；然后通过合并得到的多标签数据集进行多标签分类模型MLC_model的训练。

7、从单语语料A的数据集中抽取少部分语料数据D，其中D∈A，D不属于C；

8、使用多标签分类模型MLC_model对语料数据D进行推理，得到多标签数据集D_labeled；

9、人工审核多标签数据集D_labeled，去除其中标签错误的数据，得到带有正确分类标签的数据集E_labeled(仅存在多标签数据)；

10、使用数据集E_labeled代替单标签数据集B，重复步骤1-9；

11、最终当多标签分类模型MLC_model的分类准确率达到预设准确率阈值后，结束训练，最终得到训练好的多标签分类模型MLC_model。

本申请实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

本申请实施例还提供了一种电子设备，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现如下步骤：

获取待分类文本数据；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一多标签分类模型训练方法的步骤。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一文本数据分类方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一多标签分类模型训练方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一文本数据分类方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于客户端设备、电子设备、存储介质及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种多标签分类模型训练方法，其特征在于，所述方法包括：

获取目标语料库及预先标注的多个单标签语料，其中，所述目标语料库中包含多个未标注的语料，所述单标签语料对应有标签；

针对任一单标签语料，计算该单标签语料与所述目标语料库中各语料的相似度，并选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；

利用所述多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。

2.根据权利要求1所述的方法，其特征在于，所述针对任一单标签语料，计算该单标签语料与所述目标语料库中各语料的相似度，并选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料，包括：

分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码，得到各单标签语料与所述目标语料库中各单语语料对应的向量；

针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度；

选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。

3.根据权利要求2所述的方法，其特征在于，所述针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度，包括：

针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的的余弦距离和/或欧几里得距离和/或杰卡德距离；

根据计算得到的所述余弦距离和/或欧几里得距离和/或杰卡德距离，计算得到该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度。

4.根据权利要求2所述的方法，其特征在于，所述针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度之前，所述方法还包括：

对所述目标语料库中各语料对应的句向量进行降维和/或文件切片，得到处理后的目标语料库；

所述针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度，包括：

针对任一单标签语料的句向量，计算该单标签语料的句向量与所述处理后的目标语料库中各单语语料的句向量之间的相似度。

5.根据权利要求1所述的方法，其特征在于，所述多标签语料包括对应的多个标签，所述利用所述多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型，包括：

将所述多标签语料输入待训练的多标签文本分类模型，通过所述待训练的多标签文本分类模型对所述多标签语料进行计算，得到所述多标签语料对应的预测标签；

将所述多标签语料对应的预测标签与所述多标签语料对应的多个标签进行对比，得到所述待训练的多标签文本分类模型当前的损失；

根据所述当前的损失调整所述待训练的多标签文本分类模型的参数，返回所述将所述多标签语料输入待训练的多标签文本分类模型，通过所述待训练的多标签文本分类模型对所述多标签语料进行计算，得到所述多标签语料对应的预测标签的步骤继续执行，直至所述当前的损失小于预设阈值，得到所述训练后的多标签分类模型。

6.根据权利要求5所述的方法，其特征在于，所述多标签语料包括对应的多个标签，所述利用所述多标签语料对多标签分类模型进行训练，得到训练后的多标签文本分类模型之后，所述方法还包括：

从所述目标语料库中选取所述指定语料以外的多个语料，并将选取的多个语料作为待预测语料；

将多个所述待预测语料输入所述训练后的多标签分类模型进行标签的预测，得到携带有预测标签的待预测语料；

从多个所述待预测语料中选取预测标签正确的多个待预测语料作为目标语料；

利用多个目标语料替换所述预先标注的多个单标签语料，并返回所述获取目标语料库及预先标注的多个单标签语料的步骤继续执行，直至各所述待预测语料的预测标签的正确率大于预设正确率阈值，得到最终训练好的多标签分类模型。

7.一种文本数据分类方法，其特征在于，所述方法包括：

获取待分类文本数据；

利用预先训练的多标签分类模型对所述待分类文本数据进行分析，得到所述待分类文本数据中各语料的类型，其中，所述多标签分类模型通过权利要求1-6任一所述的方法训练得到；

根据所述待分类文本数据中各语料的类型，得到所述待分类文本数据的类型。

8.根据权利要求7所述的方法，其特征在于，在所述获取待分类文本数据之后，所述方法还包括：

对待分类文本数据进行语种检测，得到所述待分类文本数据的目标语种类别；

利用所述目标语种类别对应的语料分割方法，将所述待分类文本数据分割为多个待分类语料；

所述利用预先训练的多标签分类模型对所述待分类文本数据进行分析，得到所述待分类文本数据中各语料的类型，包括：

利用预先训练的多标签分类模型分别对各所述待分类语料进行分析，得到各所述待分类语料的类型。

9.根据权利要求7所述的方法，其特征在于，所述根据所述待分类文本数据中各语料的类型，得到所述待分类文本数据的类型，包括：

统计所述待分类文本数据中各类型的语料的数量；

选取语料数量最多的前N个类型，作为所述待分类文本数据的类型，其中，N为正整数。

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：

按照所述待分类文本数据的类型，对所述待分类文本数据进行指定语种的翻译，得到所述待分类文本数据对应指定语种的译文。

11.一种客户端设备，其特征在于，所述客户端设备用于：

获取用户在翻译框中输入的待分类文本数据；

基于所述待分类文本数据，获取所述待分类文本数据的类型，其中，所述待分类文本数据的类型是通过权利要求7-10任一所述的方法得到；

在预设的显示位置显示所述待分类文本数据对应的至少一个类型；

获取用户选取的类型作为目标类型，按照所述目标类型，对所述待分类文本数据进行翻译，得到所述待分类文本数据的译文。

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6或7-10任一所述的方法步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6或7-10任一所述的方法步骤。