CN111723209A

CN111723209A - 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质

Info

Publication number: CN111723209A
Application number: CN202010599107.8A
Authority: CN
Inventors: 刘江宁; 鞠剑勋; 李健
Original assignee: Shanghai Zhilv Information Technology Co ltd
Current assignee: Shanghai Zhilv Information Technology Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-09-29
Anticipated expiration: 2040-06-28
Also published as: CN111723209B

Abstract

本发明提供一种半监督文本分类模型训练方法、文本分类方法、系统、设备及介质，该训练方法包括：获取初始样本集；对未标注样本增强得到数据增强样本；将未标注样本和数据增强样本输入文本分类模型，得到嵌入向量以及属于各分类标签的预测概率；针对各未标注样本，获取其与对应数据增强样本的嵌入向量均值作为新样本；针对各未标注样本，获取其与对应数据增强样本属于各分类标签的预测概率均值锐化后作为新样本的标签估计结果；校验新样本是否可信，若可信标记为可信任新样本；根据标注样本及可信任新样本构建置信样本集并进行扩充得到目标样本集；根据目标样本集对文本分类模型进行训练。本发明在标注样本缺乏的情况下提高文本分类的准确性。

Description

半监督文本分类模型训练方法、文本分类方法、系统、设备及介质

技术领域

本发明涉及深度学习领域，尤其涉及一种半监督文本分类模型训练方法、文本分类方法、系统、设备及介质。

背景技术

机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能，机器学习方法例如监督学习方法，通常要求历史数据都有明确的标注(称为有标注数据)且要求有大量的有标注数据。然而，在很多现实任务中，由于标注数据的获取需要耗费大量的人力物力资源，因此标注数据通常是稀少的，而大量没有标注的历史数据(称为未标注数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题，而半监督学习方法是该方面的两大主流技术之一。

文献10提出了用于半监督学习的插值一致性训练(ICT)方法，该方法鼓励模型对未标注数据插值的预测值与该数据预测值的插值保持一致。在此基础上，文献2【DavidBerthelot,Nicholas Carlini,Ian Goodfellow,Nicolas Papernot,Avital Oliver,andColin Raffel.Mixmatch:A holistic approach to semi-supervised learning.arXivpreprint arXiv:1905.02249,2019.】提出了MixMatch方法，该方法首先对未标注样本进行数据增强，而后猜测数据增强的未标注样本的低熵标签，最后使用文献3【Zhang,H.,Cisse,M.,Dauphin,Y.N.,and Lopez-Paz,D.mixup:Beyond empirical risk minimization.InInternational Conference on Learning Representations,2018.】公开的MixUp方法混合标注和未标注样本，以扩展训练样本。

然而，上述两种半监督方法专用于图像数据处理，并不能直接用于进行文本分类，以在标注样本缺乏的情况下提高文本分类的准确性。此外，以上两种半监督方法均未考虑模型对未标注样本预测值的置信度，可能将低熵标签不可靠的未标注样本用于进行样本扩展，影响训练模型的准确度。

发明内容

针对上述现有技术的不足，本发明提供一种半监督文本分类模型训练方法、文本分类方法、系统、设备及介质，以解决上述技术问题。

为了实现上述目的，本发明提供一种半监督文本分类模型训练方法，包括：

获取初始样本集，所述初始样本集包括若干标注样本和未标注样本，所述标注样本标注有分类标签；

对各所述未标注样本进行文本数据增强处理，得到对应的数据增强样本；

将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理，得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率；

针对每个所述未标注样本，获取该未标注样本与对应的所述数据增强样本的嵌入向量均值，并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量；

针对每个所述未标注样本，获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值，而后对所述预测概率均值进行锐化处理，得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果；

校验各所述新样本的标签估计结果是否可信，当可信时，将对应所述新样本标记为可信任新样本；

根据所述标注样本的嵌入向量与分类标签、以及所述可信任新样本的嵌入向量与标签估计结果，构建置信样本集；

对所述置信样本集进行数据扩充处理，得到目标样本集；

根据所述目标样本集，对所述文本分类模型进行训练，得到目标文本分类模型。

在本发明一个优选实施例中，所述校验各所述新样本的标签估计结果是否可信的步骤包括：

针对每个所述未标注样本，校验该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值中最大的一个是否大于预先获取的置信度阈值，若是，则判定与该未标注样本对应的新样本可信，否则，判定与该未标注样本对应的新样本不可信。

在本发明一个优选实施例中，在对各所述未标注样本进行文本数据增强处理之前，所述方法还包括：对所述标注样本和未标注样本进行数据清洗处理。

在本发明一个优选实施例中，所述对各所述未标注样本进行文本数据增强处理的步骤包括：

对各所述未标注样本进行反译处理，并将反译处理结果作为对应的数据增强样本。

利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词；

对各所述未标注样本中的非关键词进行词替换处理，并将词替换处理结果作为对应的数据增强样本。

在本发明一个优选实施例中，所述对所述置信样本集进行数据扩充处理，得到目标样本集的步骤包括：

将所述置信样本集分成两部分，第一部分样本包含的样本数量与所述标注样本的数量一致，除所述第一部分样本以外的样本作为第二部分样本；

利用MixUp算法对所述第一部分样本与所述标注样本进行处理，得到第一插值样本集；

利用MixUp算法对所述第二部分样本与所述新样本进行处理，得到第二差值样本集；

将所述第一插值样本集与所述第二差值样本集合并成所述目标样本集。

为了实现上述目的，本发明还提供一种文本分类方法，包括：

获取目标文本；

将所述目标文本输入根据所述文本分类模型训练方法训练得到的目标文本分类模型中进行处理，得到所述目标文本属于各分类标签的预测概率，并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。

为了实现上述目的，本发明还提供一种半监督文本分类模型训练系统，包括：

初始样本集获取模块，用于获取初始样本集，所述初始样本集包括若干标注样本和未标注样本，所述标注样本标注有分类标签；

增强模块，用于对各所述未标注样本进行文本数据增强处理，得到对应的数据增强样本；

模型处理模块，用于将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理，得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率；

新样本构建模块，用于针对每个所述未标注样本，获取该未标注样本与对应的所述数据增强样本的嵌入向量均值，并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量；

标签估计模块，用于针对每个所述未标注样本，获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值，而后对所述预测概率均值进行锐化处理，得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果；

校验模块，用校验各所述新样本的标签估计结果是否可信；

可信任样本获取模块，用于在某新样本的标签估计结果可信时，将对应所述新样本标记为可信任新样本；

置信样本集构建模块，用于根据所述标注样本的嵌入向量与分类标签、以及所述可信任新样本的嵌入向量与标签估计结果，构建置信样本集；

扩充模块，用于对所述置信样本集进行数据扩充处理，得到目标样本集；

模型训练模块，用于根据所述目标样本集，对所述文本分类模型进行训练，得到目标文本分类模型。

在本发明一个优选实施例中，所述校验模块具体用于：

在本发明一个优选实施例中，所述系统还包括：清洗模块，用于在对各所述未标注样本进行文本数据增强处理之前，对所述标注样本和未标注样本进行数据清洗处理。

在本发明一个优选实施例中，所述增强模块包括：反译单元，用于对各所述未标注样本进行反译处理，并将反译处理结果作为对应的数据增强样本。

在本发明一个优选实施例中，所述增强模块包括：TF-IDF增强单元，用于利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词，对各所述未标注样本中的非关键词进行词替换处理，并将词替换处理结果作为对应的数据增强样本。

在本发明一个优选实施例中，所述的扩充模块具体用于：

为了实现上述目的，本发明还提供一种文本分类系统，包括：

目标文本获取模块，用于获取目标文本；

分类模块，用于将所述目标文本输入根据所述文本分类模型训练方法训练得到的目标文本分类模型中进行处理，得到所述目标文本属于各分类标签的预测概率，并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。

为了实现上述目的，本发明还提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述半监督文本分类模型训练方法或文本分类方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述半监督文本分类模型训练方法或文本分类方法的步骤。

通过采用上述技术方案，本发明具有如下有益效果：

本发明首先构建可信任新样本，而后基于标注样本和可信任新样本构建置信样本集并进行扩充，最后利用扩充后的样本集对文本分类模型进行训练，从而缓解了标注样本缺乏问题，提升了文本分类模型的性能。此外，通过校验各所述新样本的标签估计结果是否可信，可以避免不可信新样本对模型的影响，能够进一步提高文本分类模型的准确性。

附图说明

图1为本发明实施例1的半监督文本分类模型训练方法的流程图；

图2为本发明实施例2的文本分类方法的流程图；

图3为本发明实施例3的半监督文本分类模型训练系统的结构框图；

图4为本发明实施例4的文本分类系统的结构框图；

图5为本发明实施例5的电子设备的硬件架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

实施例1

本实施例提供一种半监督文本分类模型训练方法，如图1所示，该方法包括以下步骤：

S101，获取初始样本集，初始样本集包含标注样本集

和未标注样本集

其中，x_i表示第i个标注样本，u_i表示第i个未标注样本，n表示标注样本的数量，m表示未标注样本的数量。在本实施例中，标注样本是指标注有分类标签的样本，未标注样本是指未标注分类标签的样本。

S102，对各标注样本x_i和未标注样本u_i进行数据清洗处理。例如，假设需要训练针对某一种语言(如中文)的文本分类模型，则删除样本中非该语言的字词。此外，还可以进行停用词过滤等清洗处理，停用词过滤是指将“的、了、过”之类无意义的字词汇总在预设的停用表中，当样本中出现上述字词，则删除该样本中的上述字词。需说明的是，本实施例并不对数据清洗的具体方式作任何限定。

S103，对各未标注样本u_i进行文本数据增强处理，得到对应的数据增强样本。在本实施例中，可以采用以下两种方式进行文本数据增强处理：

第一种，对未标注样本u_i进行反译(back translation)处理，先将未标注样本从初始语言(如中文)翻译成另一种语言(英文)，再从另一种语言重新翻译成初始语言，得到未标注样本u_i对应的第一数据增强样本

其中，Augment_{back_translation}()表示反译增强算法。

第二种，首先利用TF-IDF算法获取各未标注样本u_i中的关键词(TF-IDF分数较高的为关键词)和非关键词(TF-IDF分数较低的为关键词)；而后对各未标注样本u_i中的非关键词进行词替换处理，得到未标注样本u_i对应的第二数据增强样本

其中，Augment_TF-IDF()表示TF-IDF增强算法。具体地，在对各未标注样本u_i中的非关键词进行词替换处理时，将该样本中待替换的非关键词替换成另一个非关键词即可。

在本实施例中，优选采用上述两种方式同时对未标注文本进行数据增强处理。同时应该理解，除上述两种方式以外，本发明还可以采用其它合适的方法进行文本数据增强处理，本发明并不对增强方式作任何限定。

S104，将各未标注样本和各数据增强样本分别输入预训练的文本分类模型进行处理，得到各未标注样本和各数据增强样本的嵌入向量

以及属于各分类标签的预测概率

其中，

Embedding_model()表示文本分类模型的嵌入算法，

表示文本分类模型，y表示对应样本属于各分类标签的预测概率，θ表示文本分类模型的权重系数。

在本实施例中，文本分类模型优选采用BERT模型，当然也可以采用其它任意合适的文本分类模型，本发明并不对采用的文本分类模型的类型作任何限定。

S105，针对每个未标注样本，获取该未标注样本u_i与对应的数据增强样本

的嵌入向量均值

并将嵌入向量均值

作为与该未标注样本u_i对应的新样本的嵌入向量。

S106，针对每个未标注样本u_i，获取该未标注样本u_i与对应的数据增强样本

属于各分类标签的预测概率均值

而后对预测概率均值

进行锐化处理，得到锐化概率均值

作为与该未标注样本u_i对应的新样本

的标签估计结果。其中，Sharpen()表示锐化算法，T为超参数，用于控制锐化程度，当T←0时，锐化方法可以使得概率分布近似于one-hot分布。在本实施例中，锐化方法优选采用前述文献2中的锐化算法进行处理。

本步骤假定未标注样本u_i与对应的数据增强样本

的嵌入向量均值

落在未标注样本u_i的邻域或聚类中。根据前述文献1的聚类假设，如果两个样本在输入分布中属于同一个聚类，那么它们很可能属于同一个类别，设定

的标签为q_i。通过采用未标注样本u_i与对应的数据增强样本

属于各分类标签的预测概率均值

进行标签估计，从而使得到的标签估计结果更接近对应新样本

的真实标签。

S107，校验各新样本的标签估计结果是否可信，当可信时，将对应新样本标记为可信任新样本

具体来说，针对每个未标注样本u_i，校验该未标注样本与对应的数据增强样本属于各分类标签的预测概率均值中概率最大的一个

是否大于预先获取的置信度阈值μ，若是，则判定与该未标注样本u_i对应的新样本

可信，否则，判定与该未标注样本u_i对应的新样本

不可信。

为了降低标签估计结果误差对后续插值处理结果的影响，本实施例引入置信度阈值，用以控制后续标注样本仅与标签估计结果可信的新样本进行插值处理。本实施例可以采用如下四种方式中的任意一种生成置信度阈值：

第一种，置信度阈值μ设置为固定值，如0.8；

第二种，置信度阈值μ_linear随模型训练步数成线性增长，即

第三种，置信度阈值μ_exp随模型训练步数成指数增长，即

第四种，置信度阈值μ_log随模型训练步数成对数增长，即

其中，z表示当前模型的训练步数，Z表示模型总的训练步数，μ_max表示最大的置信度阈值，L为标签数量。应该理解，除了上述四种方式以外，还可以采用其它合适方法生在置信度阈值，本发明并不对置信度阈值的生成方法进行任何限定。

S108，根据标注样本的嵌入向量

与分类标签p_i、以及可信任新样本的嵌入向量

与标签估计结果

构建置信样本集

其中，

k表示可信任新样本的总数，

表示将

合并，

表示将

合并后的结果中各样本的位置随机打乱。

S109，对置信样本集进行数据扩充处理，得到目标样本集，具体数据扩充处理过程如下：

首先，将置信样本集分成两部分，第一部分样本W_i包含的样本数量与标注样本的数量一致，即

将除第一部分样本以外的样本作为第二部分样本

而后，利用前述文献2中采用的MixUp算法对第一部分样本与标注样本进行处理，得到第一插值样本集

同时，利用前述MixUp算法对第二部分样本与新样本进行处理，得到第二差值样本集

其中，MixUp()表示MixUp算法。

最后，将第一插值样本集X′与第二差值样本集U′合并成目标样本集。

在本实施例中，MixUp算法用于生成样本的线性插值。具体地，对于样本(x₁,p₁)和(x₂,p₂)来说，其生成线性插值的公式如下：

γ＝Beta(a,a) (1)

γ′＝max(γ,1-γ) (2)

x′＝γ′x₁+(1-γ′)x₂ (3)

p′＝γ′p₁+(1-γ′)p₂ (4)

其中，a是超参数，控制特征-目标对之间的插值强度；当a←0时，γ＝1，邻域风险最小化(Vicinal Risk Minimization,VRM)恢复为经验风险最小化(Empirical RiskMinimization,ERM)。

S110，根据目标样本集，对文本分类模型进行迭代训练，直至设置的损失函数收敛，得到目标文本分类模型。

在本实施例中，定义了文本分类模型的损失函数L定义如下：

L＝L_X+L_U (7)

其中，C(p,P_model(y|x；θ))表示p与P_model(y|x；θ)的交叉熵，D_KL(q,P_model(y|u；θ))表示q与(y|u；θ)的KL散度。

本实施例在中文情感分析语料chnsenticorp上验证方法的有效性，结果如表1所示。本发明从9600条训练数据中采样了200条标注样本和3000条未标注样本、以及960条标注样本和3000条未标注样本两组样本，并分别根据两组样本测试了BERT模型采用有监督训练方法和采用本实施例的半监督训练方法的准确率，结果如下表1所示：

表1

可见，本实施例中的半监督文本分类模型训练方法能够提高BERT模型的准确度。并且根据实验，相比于不采用置信度阈值进行样本过滤，采用置信度阈值进行样本过滤后训练的模型准确度更高，其中，当采用随模型训练步数成对数增长的动态置信度阈值作用于模型，效果尤为显著。

实施例2

本实施例提供一种文本分类方法，如图2所示，包括以下步骤：

S201，获取待分类的目标文本；

S202，将目标文本输入根据前述文本分类模型训练方法训练得到的目标文本分类模型中进行处理，得到目标文本属于各分类标签的预测概率，并将预测概率最大值所对应的分类标签作为目标文本的分类结果。

由于根据前述文本分类模型训练方法训练得到的目标文本分类模型的准确性高，所以本实施例得到的分类结果更加准确。

实施例3

本实施例提供一种半监督文本分类模型训练系统，如图3所示，该系统10包括：初始样本集获取模块101、清洗模块102、增强模块103、模型处理模块104、新样本构建模块105、标签估计模块106、校验模块107、可信任样本获取模块108、置信样本集构建模块109、扩充模块110以及模型训练模块111。下面分别对每个模块进行详细描述：

初始样本集获取模块101用于获取初始样本集，初始样本集包含标注样本集

和未标注样本集

清洗模块102用于对各标注样本x_i和未标注样本u_i进行数据清洗处理。例如，假设需要训练针对某一种语言(如中文)的文本分类模型，则删除样本中非该语言的字词。此外，还可以进行停用词过滤等清洗处理，停用词过滤是指将“的、了、过”之类无意义的字词汇总在预设的停用表中，当样本中出现上述字词，则删除该样本中的上述字词。需说明的是，本实施例并不对数据清洗的具体方式作任何限定。

增强模块103用于对各未标注样本u_i进行文本数据增强处理，得到对应的数据增强样本。增强模块103可以通过以下两个单元中的任何一个或两个进行文本数据增强处理：

反译增强单元，用于对未标注样本u_i进行反译(back translation)处理，先将未标注样本从初始语言(如中文)翻译成另一种语言(英文)，再从另一种语言重新翻译成初始语言，得到未标注样本u_i对应的第一数据增强样本

其中，Augment_{back_translation}()表示反译增强算法。

TF-IDF增强单元，其首先利用TF-IDF算法获取各未标注样本u_i中的关键词(TF-IDF分数较高的为关键词)和非关键词(TF-IDF分数较低的为关键词)；而后对各未标注样本u_i中的非关键词进行词替换处理，得到未标注样本u_i对应的第二数据增强样本

在本实施例中，优选采用上述两个单元同时对未标注文本进行数据增强处理。应该理解，除上述两种方式以外，本发明还可以采用其它合适的方法进行文本数据增强处理，本发明并不对增强方式作任何限定。

模型处理模块104用于将各未标注样本和各数据增强样本分别输入预训练的文本分类模型进行处理，得到各未标注样本和各数据增强样本的嵌入向量

以及属于各分类标签的预测概率

其中，

Embedding_model()表示文本分类模型的嵌入算法，

新样本构建模块105用于针对每个未标注样本，获取该未标注样本u_i与对应的数据增强样本

的嵌入向量均值

并将嵌入向量均值

作为与该未标注样本u_i对应的新样本的嵌入向量。

标签估计模块106用于针对每个未标注样本u_i，获取该未标注样本u_i与对应的数据增强样本

属于各分类标签的预测概率均值

而后对预测概率均值

进行锐化处理，得到锐化概率均值

作为与该未标注样本u_i对应的新样本

本步骤假定未标注样本u_i与对应的数据增强样本

的嵌入向量均值

的标签为q_i。通过采用未标注样本u_i与对应的数据增强样本

属于各分类标签的预测概率均值

的真实标签。

校验模块107用于校验各新样本的标签估计结果是否可信。具体来说，针对每个未标注样本u_i，校验该未标注样本与对应的数据增强样本属于各分类标签的预测概率均值中概率最大的一个

可信，否则，判定与该未标注样本u_i对应的新样本

不可信。

第一种，置信度阈值μ设置为固定值，如0.8；

第二种，置信度阈值μ_linear随模型训练步数成线性增长，即

第三种，置信度阈值μ_exp随模型训练步数成指数增长，即

第四种，置信度阈值μ_log随模型训练步数成对数增长，即

可信任样本获取模块108用于在某新样本的标签估计结果可信时，将对应新样本标记为可信任新样本

置信样本集构建模块109用于根据标注样本的嵌入向量

与分类标签p_i、以及可信任新样本的嵌入向量

与标签估计结果

构建置信样本集

其中，

k表示可信任新样本的总数，

表示将

合并，

表示将

合并后的结果中各样本的位置随机打乱。

扩充模块110对置信样本集进行数据扩充处理，得到目标样本集，具体数据扩充处理过程如下：

将除第一部分样本以外的样本作为第二部分样本

其中，MixUp()表示MixUp算法。

γ＝Beta(a,a) (1)

γ′＝max(γ,1-γ) (2)

x′＝γ′x₁+(1-γ′)x₂ (3)

p′＝γ′p₁+(1-γ′)p₂ (4)

模型训练模块111根据目标样本集，对文本分类模型进行迭代训练，直至设置的损失函数收敛，得到目标文本分类模型。

在本实施例中，定义了文本分类模型的损失函数L定义如下：

L＝L_X+L_U (7)

表1

需要说明的是，对于本实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

实施例4

本实施例提供一种文本分类系统，如图4所示，该系统20包括：

目标文本获取模块201，用于获取待分类的目标文本；

分类模块202，用于将目标文本输入根据前述文本分类模型训练系统训练得到的目标文本分类模型中进行处理，得到目标文本属于各分类标签的预测概率，并将预测概率最大值所对应的分类标签作为目标文本的分类结果。

由于根据前述文本分类模型训练系统训练得到的目标文本分类模型的准确性高，所以本实施例得到的分类结果更加准确。

实施例5

本实施例提供一种电子设备，电子设备可以通过计算设备的形式表现(例如可以为服务器设备)，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中处理器执行计算机程序时可以实现实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法。

图5示出了本实施例的硬件结构示意图，如图5所示，电子设备9具体包括：

至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93，其中：

总线93包括数据总线、地址总线和控制总线。

存储器92包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法。

电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备9使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种半监督文本分类模型训练方法，其特征在于，包括：

对所述置信样本集进行数据扩充处理，得到目标样本集；

2.根据权利要求1所述的半监督文本分类模型训练方法，其特征在于，所述校验各所述新样本的标签估计结果是否可信的步骤包括：

3.根据权利要求1所述的半监督文本分类模型训练方法，其特征在于，在对各所述未标注样本进行文本数据增强处理之前，所述方法还包括：对所述标注样本和未标注样本进行数据清洗处理。

4.根据权利要求1所述的半监督文本分类模型训练方法，其特征在于，所述对各所述未标注样本进行文本数据增强处理的步骤包括：

5.根据权利要求1所述的半监督文本分类模型训练方法，其特征在于，所述对各所述未标注样本进行文本数据增强处理的步骤包括：

6.根据权利要求1所述的半监督文本分类模型训练方法，其特征在于，所述对所述置信样本集进行数据扩充处理，得到目标样本集的步骤包括：

7.一种文本分类方法，其特征在于，包括：

获取目标文本；

将所述目标文本输入根据前述权利要求1-6中任意一项所述的文本分类模型训练方法训练得到的目标文本分类模型中进行处理，得到所述目标文本属于各分类标签的预测概率，并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。

8.一种半监督文本分类模型训练系统，其特征在于，包括：

校验模块，用校验各所述新样本的标签估计结果是否可信；

9.根据权利要求8所述的半监督文本分类模型训练系统，其特征在于，所述校验模块具体用于：

10.根据权利要求8所述的半监督文本分类模型训练系统，其特征在于，所述系统还包括：清洗模块，用于在对各所述未标注样本进行文本数据增强处理之前，对所述标注样本和未标注样本进行数据清洗处理。

11.根据权利要求8所述的半监督文本分类模型训练系统，其特征在于，所述增强模块包括：反译单元，用于对各所述未标注样本进行反译处理，并将反译处理结果作为对应的数据增强样本。

12.根据权利要求8所述的半监督文本分类模型训练系统，其特征在于，所述增强模块包括：TF-IDF增强单元，用于利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词，对各所述未标注样本中的非关键词进行词替换处理，并将词替换处理结果作为对应的数据增强样本。

13.根据权利要求8所述的半监督文本分类模型训练系统，其特征在于，所述的扩充模块具体用于：

14.一种文本分类系统，其特征在于，包括：

目标文本获取模块，用于获取目标文本；

分类模块，用于将所述目标文本输入根据前述权利要求8-13中任意一项所述的述文本分类模型训练系统训练得到的目标文本分类模型中进行处理，得到所述目标文本属于各分类标签的预测概率，并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。

15.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述半监督文本分类模型训练方法的步骤。

16.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求7所述文本分类方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述半监督文本分类模型训练方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求7所述文本分类方法的步骤。