CN111444342B

CN111444342B - 一种基于多重弱监督集成的短文本分类方法

Info

Publication number: CN111444342B
Application number: CN202010211121.6A
Authority: CN
Inventors: 修保新
Original assignee: Hunan Dongyin Information Technology Co ltd
Current assignee: Hunan Dongyin Information Technology Co ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-12-10
Anticipated expiration: 2040-03-24
Also published as: CN111444342A

Abstract

本发明公开了一种基于多重弱监督集成的短文本分类方法，包括：获取原始数据集和知识库，并进行数据预处理；对预处理后的数据进行知识抽取；将抽取的知识表示为标注函数，并用于数据标注；通过条件独立模型，进行标签集成；基于全连接神经网络，训练分类模型；对所述分类模型进行评估及优化，获得最优模型；利用最优模型进行短文本分类。本发明基于多重弱监督集成的短文本分类方法：利用关键词匹配、正则表达式和远监督聚类相结合的方式，完整表达了显性知识和隐性知识；借助标签集成机制产生的概率标签，不仅实现了无标签数据的自动化标注，缓解了短文本的数据稀疏问题，而且有效解决了短文本的不平衡分类问题。

Description

一种基于多重弱监督集成的短文本分类方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于多重弱监督集成的短文本分类方法。

背景技术

移动互联背景下，即时通讯的发展在促进短文本激增的同时，也使短文本分类的研究与应用愈发重要。

有监督的机器学习，主要依赖手工标记的数据和良好的特征表达。良好的特征表达，借助深度学习可以自动学得。但由于需要学习的参数数以千计，有监督的深度学习，仍离不开大量的有标签数据。事实上，有监督学习的训练数据仍然以手动标注为主。而手动标注是非常昂贵和耗时的。此外，随着现实应用的不断变化，数据标签的需求通常变化很快。例如，标记规则(指导方针)、标注粒度及下游应用的变化，都会导致重新标记。而这种标签瓶颈，随着移动互联下即时通讯的蓬勃发展，在短文本分类中尤为突出。数据稀疏性，作为短文本分类的另一挑战，也大大限制了分类模型的性能。加之无标签数据缺乏类别标签，其类别分布难以精确测量，很可能为不平衡分类问题。由此可见，短文本分类，几乎同时面临标签不足、数据稀疏和不平衡分类三大挑战。

现有技术中关于数据标注、数据稀疏和不平衡分类的整体研究较少，研究者通常侧重其中一个方面：使用单一的弱监督来源自动标注数据；基于手动标注的数据进行短文本分类；单独研究不平衡分类。以下将逐一介绍弱监督学习、短文本分类、不平衡分类的技术背景。

针对标签不足的问题，诸多研究提出以编程方式标注训练数据。通常，这些标注方式被称为弱监督学习：基于领域知识产生噪声标签。其中，最常用的是远监督学习，通过将数据点与外部知识库“对齐”实现自动标注。此外，众包、启发式规则等模式也是弱监督学习的常用来源。即弱监督来源主要包括：远监督学习、众包和启发式规则等。然而，单独使用这三种弱监督学习来源的任何一个，其表达能力和标签质量都是十分有限的。可以说，单一的弱监督来源，已难以满足机器学习领域对大规模高质量数据标签的迫切现实需求。

在移动互联背景下，即时通讯使得短文本不断增加的同时，也带来了数据稀疏和拼写错误(不规范写作)的挑战。这严重限制了机器学习在短文本分类中的应用。为解决此问题，现有研究提出了两种视角的解决思路：特征角度和算法角度。以特征选择为例，现有研究通常采用基于过滤器的卡方度量(chi-squared，CHI2)、信息增益(Information Gain，IG)、相关系数(Correlation Coefficient，CC)、平衡精度(Accuracy Balanced，Acc2)、逐点的互信息(Pointwise Mutual Information，PMI)、优势比(Odds Ratio，OR)和多分类优势比(Multi-Class Odds Ratio,MOR)等指标。

不平衡分类主要有两大解决思路：数据策略和算法策略。总体来看，数据策略很容易破坏数据的原始分布，需要适当的采样方法。但算法策略往往需要针对某一特定问题专门设计，推广应用成本很高。

针对短文本分类中的标签不足、数据稀疏和不平衡分类三大问题。现有研究通常聚焦于标签瓶颈、数据稀疏、不平衡分类中的某一个方面，而缺少整体性的解决方案。因此，现有方法难以直接应用于无标签短文本的不平衡分类问题；在弱监督学习子领域，自动标注的弱监督来源十分单一，且在知识表达上，通常只涵盖显性知识或隐性知识，导致标签的质量偏低，限制了工业应用及推广；针对不平衡分类问题，现有研究没有立足“不平衡源自离散标签”这一基本点，往往达不到理想效果，不利于解决问题和学术研究。

发明内容

有鉴于此，本发明致力于提供一种基于多重弱监督集成的短文本分类方法，从整体上解决短文本分类中的标签瓶颈、数据稀疏和不平衡分类等问题。本发明方法不仅针对短文本的特殊性，创新性地将三种弱监督来源：关键词匹配、正则表达式和远监督聚类，引入到短文本标注中；而且提出了基于条件独立模型的多重弱监督集成方法，将多重弱监督直接输出的离散标签集成为概率标签，以期解决不平衡分类问题。其中，远监督聚类用于隐性知识的定量表示，而关键词匹配和正则表达式则属于启发式规则，旨在形式化表达显性知识。

基于上述目的，本发明提供了一种基于多重弱监督集成的短文本分类方法，包括以下步骤：

步骤1，获取原始数据集和知识库，进行数据预处理；

步骤2，结合拟采取的弱监督来源，对预处理后的数据进行知识抽取；

步骤3，将抽取的知识编程表示为标注函数，并用于数据标注；

步骤4，通过条件独立模型，进行标签集成，生成概率标签；

步骤5，基于全连接神经网络，训练分类模型；

步骤6，对所述分类模型进行评估及优化，获得最优模型；

步骤7，利用最优模型进行短文本分类。

具体地，步骤1中所述的原始数据集，包括大规模无标记数据集Train，小规模有标记数据集Dev、Valid和Test；所述的知识库包括维基百科，所述的预处理包括依序进行基于概率语言模型的分词和基于词频统计的向量化，预处理得到分词后的数据和向量化的数据。

具体地，步骤2根据短文本的特点，兼顾显性知识和隐性知识，步骤2选取了关键词匹配、正则表达式和远监督聚类作为弱监督来源，所述的关键词匹配和正则表达式均基于各个类别的关键词，属于启发式规则，对应显性知识；所述远监督聚类，指基于样本点与知识库之间相似度的聚类方法，用于表示隐形知识。

具体地，所述远监督聚类的具体步骤为：首先，确定相似度阈值；然后，逐一计算样本与知识库的相似度；最后，进行相似度比较：如果某一样本与知识库的相似度不低于阈值，样本点获得与知识库一致的类别标签，否则弃权。

具体地，所述的关键词是基于小规模标记数据集Dev，并采用潜在狄利克雷分布模型抽取，而所述的相似度阈值，则通过逐一计算知识库与小规模标记数据集Dev同一类别数据的余弦相似度，并取最大值获得。

具体地，步骤3中所述的数据标注包括：将抽取的关键词，形式化表达为关键词匹配和正则表达式的形式，将相似度阈值定量表示为远监督聚类的形式，得到标注函数族；之后以编程方式逐一将类别标签分配给未标记数据集Train：只有包含特定关键词或相似度大于相似度阈值的样本才能被分配类别标签，在不满足的情况下，数据点只会得到弃权标签，由此获得数据的离散标签矩阵；其中，离散标签矩阵的每一行对应一条数据样本，每一列对应一个弱监督来源，其元素取值为整数。

具体地，在步骤4所述的标签集成的过程中，假设离散标签矩阵的某一列(弱监督来源)的弱标签，条件依赖于其他列(弱监督来源)的弱标签，从而对离散标签矩阵逐列构建条件独立模型；之后，借助这一条件独立模型将离散标签矩阵转化为概率标签矩阵；不同于离散标签矩阵，概率标签矩阵的每一列对应一个类别，元素取值为概率。

具体地，步骤5所述模型训练，以概率标签矩阵、无标签数据集Train和小规模标记数据集Valid为输入，基于sigmoid/softmax激活函数的全连接神经网络进行；其中，二分类问题采用sigmoid激活函数，多分类问题采取softmax激活函数。

优选地，步骤6中所述模型评估，在小规模标记数据集Test上进行分类实验，以精度、召回率和F1得分等指标为度量；若模型的评估结果达不到预设的指标阈值，则返回步骤2，优化知识抽取，直至评估结果达到目标阈值，输出最优模型。

优选地，所述步骤1中的分词过程为，首先对所述的原始数据集Train、Dev、Valid、Test和知识库，进行查词典操作，生成所有可能的分词结果，之后查找分词产生词语出现的频率，以频率估计概率，选取最大概率的切分组合；所述的向量化则基于分词后的数据，进行词频统计，输出词频向量形式的数据。

本发明方法将潜在狄利克雷分布(LDA)和余弦相似度引入知识抽取环节，用于抽取与特定主题(类别)相关的关键词模式和相似度阈值。这区别于基于用户或领域专家的领域知识，使得发明的可迁移性和效率大大提升，也为领域知识的抽取提供了新思路。本发明方法从多重弱监督集成的视角出发，提出将多重弱监督生成的离散标签集成为概率标签，有效处理了短文本领域的不平衡分类问题，为不平衡分类问题的解决提供了新的可能。本发明分析和建立了基于多重弱监督集成的短文本分类方法：采取关键词匹配、正则表达式和远监督聚类相结合的方式，通过编程表达的显性知识和隐性知识，实现了无标签数据的自动化标注，并通过条件独立模型实现了概率标签生成，缓解了短文本的数据稀疏问题，有效解决了短文本的不平衡分类问题。

附图说明

图1为本发明方法的整体流程示意图；

图2为本发明实施例中数据预处理的流程示意图；

图3为本发明实施例中知识抽取的流程示意图；

图4为本发明实施例中潜在狄利克雷分布的示意图；

图5为弱监督来源-领域知识对应关系图；

图6为本发明实施例中数据标注的流程示意图；

图7为本发明实施例中标签集成的流程示意图；

图8为本发明实施例中模型训练的流程示意图；

图9为本发明实施例中模型评估的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，一种基于多重弱监督集成的短文本分类方法，包括以下步骤：

步骤1，获取原始数据集和知识库，进行数据预处理；

步骤2，对预处理后的数据采用多重弱监督方式进行知识抽取；

步骤4，通过条件独立模型，进行标签集成，生成概率标签；

步骤5，基于全连接神经网络，训练分类模型；

步骤6，对所述分类模型进行评估及优化，获得最优模型；

步骤7，利用最优模型进行短文本分类。

如图2所示，数据预处理面向原始数据集(Train,Dev,Valid,Test)和知识库(维基百科等)，旨在将其转化为可直接计算的形式。其中，Train为大规模的无标记数据集，Dev、Valid和Test均为有标记的小规模数据集。数据预处理主要是依次进行基于概率语言模型的分词和基于词频统计的向量化，以此得到分词后的数据和向量化的数据。分词过程首先以原始数据集(Train、Dev、Valid、Test)和知识库，通过查词典生成所有可能的分词结果，之后查找分词产生词语出现的频率(次数/总数)，以频率估计概率，选取最大概率的切分组合(分词后的数据)；向量化则是基于分词后的数据，进行词频统计，输出词频向量形式的数据(向量化的数据)。

如图3所示，知识提取主要包括抽取关键词和确定相似度阈值。然而，关键词和相似度阈值的确定都需要小规模的标记数据集Dev。其中，关键词抽取以分词后的Dev为输入，借助LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)，输出各个类别的前十关键词；而相似度阈值的确定，以向量化的知识库和向量化的Dev为输入，通过逐一计算余弦相似度，并选取最大值输出为相似度阈值。值得注意的是，LDA的创新性引入，在知识抽取关键词中起到了重要作用。如图4所示，LDA假设每个文档由一个话题分布决定，每个话题由一个词语分布决定，并以狄利克雷分布为话题分布参数的先验分布，多项分布为话题的先验分布。在图4中，Dir(α)为基于参数α的狄利克雷分布，Multinomial(θ)则指代基于参数θ的多项分布。具体地，LDA以分词后的Dev为输入，通过拟合参数确定各个分布，输出与类别相关的关键词及概率。其中每个类别出现概率最大的十个词，便是抽取的关键词。

如图5所示，不同的领域知识与不同的弱监督来源具有一定的对应关系：显性知识对应于启发式规则，隐性知识则对应于远监督学习和众包标签。按照这一划分，基于关键词的关键词匹配和正则表达式，对应启发式规则，用于形式化表示显性知识；而远监督聚类可以被定量表示为隐性知识。这样的设计巧妙地结合了显性知识(启发式规则)和隐性知识(远监督聚类)，使得知识来源更多样，标签质量更高。不过，不同于传统远监督的“对齐”策略，此处的远监督聚类主要是指基于样本点与知识库之间相似度的聚类方法。首先，基于小规模的标记数据集和知识库，确定相似度阈值；然后，逐一计算大规模无标记样本与知识库的相似度；最后，比较样本相似度与相似度阈值，如果某一样本点与语料库的相似度不低于相似度阈值，样本获得与知识库一致的类别标签，否则，获得弃权标签。

如图6所示，数据标注首先将抽取的知识，编程表示为三种形式(关键词匹配、正则表达式和远监督聚类)的标注函数，之后据此对输入的数据，逐一自动标注，产生离散标签矩阵。特别地，只有满足特定模式的数据点才能被分配类别(主题)标签。在不满足的情况下，数据点只会得到弃权标签。在多重弱监督的情况下，输入向量化的无标记数据集Train，每条数据都会得到多个标签。如果弃权标签也被视为一种标签，那么在m个弱监督来源的情况下，每条数据都将获得m个离散的弱标签。因此，对n个数据自动标注后，将会产生一个有噪声的n×m阶的离散标签矩阵L_m×n。在离散标签矩阵中，元素l_ij表示数据i基于弱监督来源j获得的类别标签。但是，离散标签矩阵L_m×n的元素之间往往是相互冲突的，不能直接作为机器学习算法的输入，需要借助基于条件独立模型的标签集成机制，将其转化为概率标签矩阵，才能作为模型训练的输入。

如图7所示，所述标签集成，假设弱监督标签l_ij是由潜在的真实标签y_i产生的。换言之，只要每个条件概率P(l_ij|y_i)得以确定，概率标签矩阵便得以确定。退而求其次，考虑到潜在变量y_i无法被观测到，此处使用弱监督来源i以外的标签l_i\j代替。如此，再进一步构建条件独立模型得到条件概率标，便可将n×m阶的离散标签矩阵L_n×m转化为面向k(类数)分类的概率标签矩阵L_n×k。具体地，标签集成以上一步产生的离散标签矩阵L_n×m为输入，利用条件独立模型生成每一个条件概率值，便可得到概率标签矩阵L_n×k。

如图8所示，为便于输入概率标签矩阵L_n×k，本发明采用基于sigmoid/softmax激活函数的全连接神经网络进行模型训练。其中，全连接层可以接收和处理概率标签，充分利用概率标签，从而为不平衡分类问题提供了新的技术实现；sigmoid/softmax激活函数则对应于Logistic分类算法，构成主要的分类策略。具体地，训练过程以概率标签矩阵L_n×k和无标记数据集Train为训练集，以小规模标记数据集Valid为验证集，结合基于sigmoid/softmax激活函数的全连接神经网络进行训练，得到分类模型，二分类问题采用sigmoid激活函数，多分类问题采取softmax激活函数。

如图9所示，为确保模型性能，得到最优模型，还须进行模型评估。评价指标主要包括精度(Precision)、召回率(Recall)和F1得分(F1-score)等。具体地，模型评估以有标记的小规模数据集(Test)为输入，进行分类实验，并输出基于精度、召回率、F1得分等指标的测试结果。如果测试结果达到要求，则输出最优模型；否则，返回步骤2“知识抽取”和步骤3“数据标注”，再次优化启发式规则(关键词匹配和正则表达式)和远监督要素(知识库和相似度阈值)，直至性能达标，得到最优的分类模型。

特别地，本发明的创新主要体现在知识提取、数据标注和概率标签三个方面。其中，知识抽取创新性地引入潜在狄利克雷分布(LDA)，自动抽取特定主题(类)的关键词。数据标注主要参照知识的二元划分，以启发式规则(关键词匹配和正则表达式)形式化表达显性知识，以远监督聚类定量表示隐性知识，借助多重弱监督提升标注质量的同时，缓解短文本的数据稀疏挑战。

而概率标签则是借助条件独立模型，进行多重弱监督集成之后的结果，也是本发明解决不平衡分类的关键所在，具体阐述如下。

以二分类问题为例，传统的数据标签y_i的形式化表达如下：

y_i∈Y＝{-1，+1}，i＝1，2，…，n；

其中-1和1分别对应“负类”和“正类”。在此基础上，y_i也可以表示为标签矩阵L_n×2的形式：

其中每一行i对应一条数据，每一列j对应一个类别；y_ij∈Y’＝{0，1}；0、1分别表示不属于和属于相应类别j；每一行有且只有一个值为1。

不失一般性，k(k≥2，k∈Z)分类问题的标签矩阵为n×k阶矩阵L_n×k：

标签矩阵L_n×k虽然有n×k个元素，但只有n个非零元素(即范数L₀＝n)，是一个典型的稀疏矩阵。事实上，这种稀疏性源于离散的“黑白”指示型的类别标签。相比之下，弱监督的标签往往是“灰色”的，或者说是概率型的。与离散标签相比，概率标签更适合表示来自多重弱监督的标签。更重要的是，由于离散标签在不同类别间的分布不平衡，才有了“不平衡分类”的说法。换言之，没有离散的类别标签，不平衡分类也便无从谈起。从某种程度上讲，概率标签很可能为不平衡分类问题的解决提供了新的思路。因此，本发明提出并检验了基于多重弱监督集成的概率标签，其形式为：

其中每一行i对应一条数据，每一列j对应一个类别；0≤y_ij≤1；y_ij表示第i个样本属于类别j的可能性；对于每一行，有：

鉴于此，一个从离散标签到概率标签的桥梁，即弱标签集成机制，亟待解决。一个自然的选择是简单算术平均。然而，简单算数平均有一个隐含假设：不同的弱监督来源之间相互独立。而这样的假设通常难以满足，所以，本发明最终考虑不同弱监督来源之间的统计相关性，基于条件独立模型，生成概率标签。具体地，在m个弱监督来源(标注函数)的情况下，每条样本i，都可以得到一个离散标签向量：

L_i＝[l_i1 l_i2…l_im]

其中，l_ij表示样本i来自标注函数j的离散标签，l_ij∈{-1，0，1}，k为类别数目。基于条件概率模型，对于k分类问题，我们可以得到如下形式的概率标签向量：

Y_i＝[y_i1 y_i2…y_ik]

其中y_ij表示来自样本i属于类别j的概率，0≤y_ij≤1；对于每一行i，都有：

本发明方法的简要说明如下。本发明以招标公告为例，对短文本分类问题进行了验证。具体是从招标公告文本中识别属于关注话题的招标公告。

表1数据集基本信息

其中，SB、ST和RD分别为招标公告的合成二分类数据集、合成三分类数据集和真实数据集；n为数据集样本数目，AC为每条样本的平均字符数，HL代指手动标签，T、F分别表示是、否。

数据集。对三种招标公告数据集：合成二分类数据集(SB)、合成三分类数据集(ST)和真实数据集(RD)进行了实验。表1列出了SB、ST、RD的基本情况。其中SB和ST为平衡数据集，RD为不平衡数据集。我们使用的短文本是招标公告数据集中的招标标题。此外，每个数据集都包含三个小规模标记数据集(Dev、Valid、Test)和大规模无标记数据(Train)。

模型设置。兼顾简便和实用，实验以招标公告标题的词频矩阵为唯一特征，逻辑回归为唯一分类算法。此外，为便于输入概率标签，在逻辑斯谛(Logistic)分类器之前添加了一个全连接层。换言之，采取的是基于sigmoid/softmax激活函数的全连接神经网络。此外，还采用了L2正则化和交叉熵损失函数辅助模型训练。

对照模型。为了进行比较，考虑了四个基准实验：手动标注对照实验(小规模标记数据集Dev作为训练数据集)；单一弱监督对照实验(单一弱监督来源：关键词匹配)；离散标签对照实验(用于训练的离散标签)；无远监督聚类对照实验(不包含远监督聚类)。其中，手动标注对照实验，用于验证弱监督标注大规模数据，带来的分类性能提升。而单一弱监督对照实验，则试图说明多重弱监督提升表达能力，带来的分类优势。离散标签对照实验，旨在对照说明，概率标签在解决不平衡分类问题上的有效性，无远监督对照实验则尝试验证远监督聚类的引入，对分类效果的影响。

需要注意的是，合成数据集SB和ST是平衡的数据集，它们是通过关键词匹配严格选择的。因此，关键词匹配的启发式规则与SB和ST非常一致，SB和ST的实验结果很可能与多重弱监督方法相似。

(1)实验一：手动标注对照实验

表2实验一结果

其中，P为分类评价的精度(Precision)，R为分类评价的召回率(Recall)，F1为分类评价的F1得分，Lift表示相比于基准实验，F1得分的提升。

由表2可知，合成数据集SB和ST在Dev和Train上的结果相似，均在95％以上。这是因为合成数据集SB和ST是严格按照关键词匹配模式选择的。但这也启示我们，模型训练的过程是将弱监督策略转化为机器学习模型的过程，或者是将多个弱分类器集成为一个强分类器的过程。真实数据集RD上的结果，则很好地说明了弱监督学习，在拓展训练样本和提升训练效果方面的优势。尤其在RD上，F1得分得到了38％的提升，这有力说明了弱监督学习自动标注大规模数据的提升效果。

(2)实验二：单一弱监督对照实验

表3实验二结果

其中，P为分类评价的精度(Precision)，R为分类评价的召回率(Recall)，F1为分类评价的F1得分，Lift表示分类性能的F1得分提升。

从表2可以看出，在单一弱监督的情况下，SB和ST的表现都非常好，几乎没有改进空间。鉴于此，多重弱监督(Multiple Weak Supervision,MWS)的对照实验，仅在真实数据集RD上进行了测试。从表3单一弱监督对照实验的结果可以发现，基于多重弱监督的分类性能明显优于单一弱监督来源。这说明了多重弱监督相对于单一弱监督的显著优势，证明了多重弱监督方法的有效性。特别是在多重弱监督的情况下，少数类的F1得分提高了24％。

(3)实验三：确定标签对照实验

RD涵盖了各种各样的话题，此处只识别关注的话题。因此，与不关注的话题相比，属于关注话题的样本占比偏低。换言之，RD是一个不平衡的数据集，而SB和ST是平衡的数据集。为了验证概率标签对解决不平衡分类问题的效果，我们分别对平衡数据集SB和ST，以及基于概率标签和离散标签的不平衡数据集RD进行了对照实验。总体结果如表4所示。

表4实验三总结果

其中，P为分类评价的精度(Precision)，R为分类评价的召回率(Recall)，F1为分类评价的F1得分，Lift表示F1得分的提升。

从表4可以看出，概率标签对平衡数据集SB和ST的结果影响很小，而不平衡数据集RD的结果则充分说明了概率标签相对于离散标签，在解决不平衡分类问题上的优势。其中，概率标签提供了9％的改进F1分数的测试数据集。具体地，表6展示了不同类别中概率标签的提升。

在RD上的具体结果(表5)表明，概率标签能显著提高少数类的分类性能。借助概率标签，少数类的F1得分提高了16％，而多数累仅提高了2％。从某种意义上说，概率标签或多重弱监督为解决分类不平衡问题提供了新的可能性和研究思路。

表5实验三详细结果

其中，P为分类评价的精度(Precision)，R为分类评价的召回率(Recall)，F1为分类评价的F1得分，Lift of F1表示F1得分的提升。

(4)实验四：无远监督聚类对照实验

实验结果表明，在弱标签形成启发式规则的情况下，SB和ST具有良好的应用性能。因此，远监督聚类仅在真实数据集RD上进行测试，实验结果如表6所示。

表6实验四结果

与无远程监督聚类相比，引入远监督聚类之后，模型分类的召回率提高了8％，而精度保持改变。这似乎与之前的分析稍有差别，结果更好。即：在不改变精度的前提下，增加远监督聚类可以提高召回率R和F1得分。这是因为隐性知识包含在远监督聚类的相似度中，难以形式化表达，却可以定量表示。这表明，相似度阈值可以作为精度和召回率的调节器。因此，为了满足不同的应用需求，我们可以适当调整相似度阈值，这在学术界和产业界都具有十分重要的意义。

本发明方法在短文本分类中引入了多重弱监督来源，通过形式化表达显性知识和定量表示隐性知识，实现了无标签数据的自动标注，缓解了短文本的数据稀疏挑战。与此同时，还利用标签集成机制，生成概率标签，训练了更加有效的不平衡分类模型。因此，该方法具有较强的实用价值和验证推广的可能性。具体地，本发明主要有以下五大优点：

(1)多重弱监督集成：创新性地引入多重弱监督，以启发式规则(关键词匹配和正则表达式)形式化表达显性知识，以远监督聚类定量表示隐性知识，实现了更高质量、更高效率的数据标注。

(2)以概率标签解决不平衡分类：不平衡分类已困扰行业和学术界多年，一直没有特别好的解决思路。实验结果表明，基于条件独立模型生成的概率标签，能有效解决短文本中的不平衡分类问题。这或许会为不平衡分类提供一个新的解决思路。

(3)远监督与聚类相结合：与传统的远监督“对齐”策略不同，本发明将聚远监督与聚类思想有机结合，来获取数据的类别标签，提高了召回率。特别是本发明提出的远监督聚类方法，可以定量表示隐性知识，大大提升了远监督学习的表达能力。因此，通过远监督聚类，本发明可以将难以表达的隐性知识纳入到语料库和相似度阈值中。

(4)相似度阈值可以作为精度和召回率的调节器：远监督聚类的相似度阈值，可以作为精度和召回率的调节器。在实际应用中，这对于应用弱监督学习来满足不同的精度和召回率需求，具有十分重要的现实意义。

(5)引入潜在狄利克雷分布(LDA)用于知识提取：引入潜在狄利克雷分布(LDA)来提取特定话题(类别)的关键词，这是启发式规则的基础。此外，LDA可以有效地防止过拟合，这同样是非常重要和关键的。

Claims

1.一种基于多重弱监督集成的短文本分类方法，其特征在于，包括以下步骤：

步骤1，获取原始数据集和知识库，进行数据预处理；

步骤4，通过条件独立模型，进行标签集成，生成概率标签；

步骤5，基于全连接神经网络，训练分类模型；

步骤6，对所述分类模型进行评估及优化，获得最优模型；

步骤7，利用最优模型进行短文本分类；

步骤1中所述的原始数据集，包括大规模无标记数据集Train，小规模有标记数据集Dev、Valid和Test；所述的知识库包括维基百科，所述的预处理包括依序进行基于概率语言模型的分词和基于词频统计的向量化，预处理得到分词后的数据和向量化的数据；

步骤2选取了关键词匹配、正则表达式和远监督聚类作为弱监督来源，所述的关键词匹配和正则表达式均基于各个类别的关键词，属于启发式规则，对应显性知识；所述远监督聚类，指基于样本点与知识库之间相似度的聚类方法，用于表示隐形知识。

2.根据权利要求1所述的短文本分类方法，其特征在于，所述远监督聚类的具体步骤为：首先，确定相似度阈值；然后，逐一计算样本与知识库的相似度；最后，进行相似度比较：如果某一样本与知识库的相似度不低于阈值，样本点获得与知识库一致的类别标签，否则弃权。

3.根据权利要求2所述的短文本分类方法，其特征在于，所述的关键词是基于小规模标记数据集Dev，并采用潜在狄利克雷分布模型抽取，而所述的相似度阈值，则通过逐一计算知识库与小规模标记数据集Dev同一类别数据的余弦相似度，并取最大值获得。

4.根据权利要求2或3所述的短文本分类方法，其特征在于，步骤3中所述的数据标注包括：将抽取的关键词，形式化表达为关键词匹配和正则表达式的形式，将相似度阈值定量表示为远监督聚类的形式，得到标注函数族；之后以编程方式逐一将类别标签分配给未标记数据集Train：只有包含特定关键词或相似度大于相似度阈值的样本才能被分配类别标签，在不满足的情况下，数据点只会得到弃权标签，由此获得数据的离散标签矩阵；其中，离散标签矩阵的每一行对应一条数据样本，每一列对应一个弱监督来源，其元素取值为整数；

在步骤4所述的标签集成的过程中，假设离散标签矩阵中某一列的弱标签条件依赖于其他列的弱标签，从而对离散标签矩阵逐列构建条件独立模型；之后，借助这一条件独立模型将离散标签矩阵转化为概率标签矩阵；不同于离散标签矩阵，概率标签矩阵的每一列对应一个类别，元素取值为概率；

步骤5所述分类模型训练，以概率标签矩阵、无标签数据集Train和小规模标记数据集Valid为输入，基于sigmoid/softmax激活函数的全连接神经网络进行；其中，二分类问题采用sigmoid激活函数，多分类问题采取softmax激活函数。

5.根据权利要求4所述的短文本分类方法，其特征在于，步骤6中所述分类模型的评估，在小规模标记数据集Test上进行分类实验，以精度、召回率和F1得分指标为度量；若模型的评估结果达不到预设的指标阈值，则返回步骤2，优化知识抽取，直至评估结果达到目标阈值，输出最优模型。

6.根据权利要求1所述的短文本分类方法，其特征在于，所述步骤1中的分词过程为，首先对所述的原始数据集Train、Dev、Valid、Test和知识库，进行查词典操作，生成所有可能的分词结果，之后查找分词产生词语出现的频率，以频率估计概率，选取最大概率的切分组合；所述的向量化则基于分词后的数据，进行词频统计，输出词频向量形式的数据。