CN113032558B

CN113032558B - 融合维基知识的变分半监督百度百科分类方法

Info

Publication number: CN113032558B
Application number: CN202110263630.8A
Authority: CN
Inventors: 余正涛; 韩佩甫; 郭军军; 黄于欣; 朱恩昌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-08-29
Anticipated expiration: 2041-03-11
Also published as: CN113032558A

Abstract

本发明涉及融合维基知识的变分半监督百度百科分类方法，属于自然语言处理技术领域。本发明首先基于词嵌入和词袋模型分别获得百科摘要文本的语义特征和统计特征；然后融合两者作为变分自编码模型的输入，获得百科文本的语义表征；最后利用少量维基百科分类损失和海量无标签百度百科重构损失，构造半监督分类损失，实现了两种百科分类体系的迁移和统一。基于5千条带标记维基百科数据和20万无标记百度百科数据的实验表明，所提方法可以准确实现百度百科分类索引体系的准确建立，证明了其有效性。

Description

融合维基知识的变分半监督百度百科分类方法

技术领域

本发明涉及融合维基知识的变分半监督百度百科分类方法，属于自然语言处理技术领域。

背景技术

百科分类是在给定的分类体系中，将百科知识分到某一或某几个类别当中。维基百科和百度百科知识库的索引界定不同，百科知识库之间公共的索引体系的缺失为跨百科工作制造了困难。而建立统一的分类索引体系能够将不同语言或不同机构的百科知识统一到同一分类体系，不仅能够帮助不同语言的知识共享全球化，而且使许多在线应用程序，比如信息检索、智能问答和机器翻译，受益匪浅。维基百科的索引体系清晰全面，而百度百科的不明确，为了能够跨百科利用知识库，可以基于维基百科索引对百度百科进行分类，从而建立两种百科的公共索引体系。

针对两种百科建立公共分类体系的问题，由于监督和半监督的文本分类的人工标注成本较高，所以本发明尝试基于少量监督的维基百科数据对百度百科词条文本进行分类。借助半监督变分表征的思想，采用基于VAE半监督的对百科摘要文本进行表征，并用表征后的特征对文本进行分类。基于5千条带标记维基百科数据和20万无标记百度百科数据的实验表明，所提方法可以准确实现百度百科分类索引体系的准确建立，证明了其有效性。

发明内容

本发明提供了融合维基知识的变分半监督百度百科分类方法，采用基于VAE半监督的对百科摘要文本进行表征，并用表征后的特征对文本进行分类。

本发明的技术方案是：融合维基知识的变分半监督百度百科分类方法，包含如下步骤：

Step1、收集维基百科中文词条摘要和百度百科中文词条摘要作为实验数据集，并进行去重、去除特殊符号、标点和URL数据预处理操作；取维基百科中文词条摘要数据5000条进行人工标注类别；百度百科中文词条摘要数据全部标记为：“unlabeled”，表示还没有类别；

Step2、基于词嵌入，采用自注意力机制对百科中文词条摘要文本进行编码，对百科中文词条摘要文本进行深度语义嵌入表征获得百科中文词条摘要文本的深度语义表示；基于词袋模型对百科中文词条摘要文本进行统计表征；

Step3、构建融合深度语义特征和统计特征的VAE文本表征模型：在Step1和Step2的基础上，将百科中文词条摘要文本的深度语义表示和统计表征进行拼接，作为VAE文本表征模型的输入，以此融合丰富的深度语义信息和统计信息；其次，使用两层全连接神经网络中提取出百科中文词条摘要文本表征的均值和方差，得到融合文本表征的重构向量；

Step4、构建基于维基类别迁移的百度文本分类模型：在Step3的基础上，将融合文本表征的重构向量代替原始百科中文词条摘要文本，作为VAE文本表征模型的输入，以此引入摘要类别信息；其次，将百度百科中文词条摘要表征的类别信息视为潜在变量，对其进行后验推理得出预测分布，最后将预测分布输入softmax层，输出归一化的类别概率分布，实现百度百科在维基检索体系下的分类。

作为本发明的进一步方案，所述Step1中，维基百科中文词条摘要数据中每条数据的人工标签为：“生活、艺术与文化”、“世界各地”、“中华文化”、“人文与社会科学”、“社会”、“自然与自然科学”、“宗教与信仰”、“工程、技术与应用科学”这8种类别之一。

作为本发明的进一步方案，所述Step3中包含的分类策略直接将维基百科的类别信息作为百度百科的类别描述。

作为本发明的进一步方案，所述Step3中，提出的融合深度语义表示和统计表征的VAE文本表征，将百科中文词条摘要文本的深度语义表示和统计表征拼接作为多层感知机MLP的输入，然后将经过MLP编码后的隐层向量输入到两层多层感知机MLP中，输出百科中文词条摘要文本表征的向量均值和方差；通过均值和方差计算，输出摘要文本的融合隐层向量；最后为防止梯度消失，将融合隐层向量输入到对数化的softmax层，输出摘要文本的损失值和重构向量。

作为本发明的进一步方案，所述Step4中，基于维基类别迁移的百度文本分类策略，该策略将融合文本表征的重构向量代替原始百科中文词条摘要文本，作为VAE文本表征模型的输入，并将百度百科中文词条摘要表征的类别信息视为潜在变量，对于维基百科由于类别信息已知，直接计算变分界值，输出变分界值；对于百度百科，对类别潜在变量进行后验推理后计算并输出变分界值；两种变分界值的和作为整体的变分界约束输出；将分类损失添加到整体变分界约束中，使得百度百科的分类分布从维基百科的含标签向量中学习，最终输出百度百科的类别概率分布，训练了基于迁移学习的百度百科分类器，找到一种有效的半监督百科摘要分类方法。

本发明的有益效果是：本发明首先基于词嵌入和词袋模型分别获得百科摘要文本的语义特征和统计特征；然后融合两者作为变分自编码模型的输入，获得百科文本的语义表征；最后利用少量维基百科分类损失和海量无标签百度百科重构损失，构造半监督分类损失，实现了两种百科分类体系的迁移和统一。基于5千条带标记维基百科数据和20万无标记百度百科数据的实验表明，所提方法可以准确实现百度百科分类索引体系的准确建立，证明了其有效性。

附图说明

图1为本发明中的总的模型结构图；

图2为本发明中在序列中的每个单词中添加位置嵌入信息示意图；

图3为本发明中超参数变化趋势示意图。

具体实施方式

实施例1：如图1-3所示，融合维基知识的变分半监督百度百科分类方法，包含如下步骤：

Step1、收集维基百科中文词条摘要和百度百科中文词条摘要作为实验数据集，并进行去重、去除特殊符号、标点和URL数据预处理操作；取维基百科中文词条摘要数据5000条进行人工标注类别；维基百科中文词条摘要数据中每条数据的人工标签为：“生活、艺术与文化”、“世界各地”、“中华文化”、“人文与社会科学”、“社会”、“自然与自然科学”、“宗教与信仰”、“工程、技术与应用科学”这8种类别之一。百度百科中文词条摘要数据全部标记为：“unlabeled”，表示还没有类别；5000条维基百科数据作为标记数据集，201981条百度百科数据作为无标记数据集；

每个分类的维基百科摘要数如表1所示。有些百科文本对应多个类别，选择其中一个作为标签，以确保该摘要文本只有一个标签。

表1 维基百科各类别词条数目

作为本发明的优选方案，所述Step1中，数据预处理采用python语言编写程序实现，对文本进行去重和删除“//”、“@”和URL等字符的操作。

此优选方案设计是本发明的重要组成部分，主要为本发明构建百科摘要实验数据集，为本发明实现融合维基知识的变分半监督百度百科分类提供了数据支撑。

作为本发明的优选方案，所述Step2中，基于词袋模型对百科中文词条摘要文本进行统计表征方法如下：

对于摘要文本，为获得深度语义表征，采用自注意力机制对文本进行编码，从两个方向获得内容特征，并使用类似Bert的输入方法来确保至少特征具有句子信息：

其中，X_a∈X，a＝{1，2，......，n}，[CLS]代表摘要的开头，[EOT]代表摘要的结尾。由于自注意力机制可以从两个方向获取文本信息，所以文本序列对于模型来说是无序的。为了使模型能够获得序列信息，需要在序列中的每个单词中添加位置嵌入信息，如图2所示。

以维基百科文本为例，整个过程可以描述为：

X_a＝token(X) (2)

其中token是基于整理的百科词汇得到的。

E_a＝X_aW_em

E_p＝X_aW_pos

其中W_em是字嵌入矩阵，W_pos是位置嵌入矩阵。

E＝E_a+E_p

百度百科文本过程相同，同样能够获得百度百科摘要深度语义表征：E'＝E'_a+E'_p

为了使模型更多地关注文本的重要信息，使用自注意力来区分序列中单词的重要性，并使用多头自注意力机制使模型在不同的表示子空间中学习相关信息。Q＝MLP_q(E)，K＝MLP_k(E)，V＝MLP_v(E)，MultiHead(Q，K,V)＝Concat(head₁,head₂,...,head_h)W⁰。其中Q、K、V是E的非线性变换，W⁰是组合矩阵。

对于不满足批次长度的数据，如果简单地用0替换，就会导致位置信息被保留，因此采用MASK方法，使单词信息和位置信息同时被删除，这样就可以得到包含深度语义特征的向量，则表达式如下：

其中是向量K的维数，MASK可以被描述为下面的矩阵。对于摘要中每一个词，MASK可表示为：

在softmax函数之后，MASK部分的注意权重为0，该位置的信息将被完全隐藏。

利用词袋模型获得词频统计信息从而获得百科文本的统计特征。词频统计可以忽略百科摘要文本的长度，那么所有摘要文本的向量都是固定的。由于词频统计向量是稀疏向量，可以使用两个MLP进一步提取文本的统计特征，以维基百科为例，整个过程可以描述为：B_w＝BOW(X)，c＝MLP(B_w)，h＝MLP(c)。其中c是隐层向量，h是包含统计特征的向量。

作为本发明的优选方案，所述Step3中，融合文本表征的重构向量构建方法如下：

首先假设维基百科和百度百科摘要文本都是独立的且具有相同的分布。

利用自注意力机制和词袋模型获取百科摘要文本的内容语义信息和词频统计信息h，使用多层感知机MLP合并内容语义信息和词频统计信息。过程可以被描述为：

μ_i＝MLP_μ(H_i) (6)

σ_i＝MLP_σ(H_i) (7)

z_i＝μ_i+σ_iε_i (8)

其中参数μ_i是H_i的均值，MLP_μ是均值提取层，σ_i是H_i的方差，MLP_σ是方差提取层，z_i是隐层向量，ε_i是从正态分布中采样得到的向量。

解码器部分同样使用MLP：β_i＝softmax(z_i)，其中参数{d}_i∈θ，MLP_d是解码层，/>是融合语义信息和统计信息的重构向量。

由于是稀疏向量，如果使用softmax处理，损失太小，很容易导致梯度消失。所以用log_softmax对损失值进行放大来增大梯度。损失函数构建如下：

L＝L_re+L_kl (11)

其中L_re是变分自编码的重构损失，L_kl是KL散度损失。

单个数据点的边际似然上的变分界J(x)是：

作为本发明的优选方案，所述Step4中，基于维基类别迁移的百度文本分类方法如下：

将通过VAE提取到的特征x的隐层向量进行分类。将特征x的隐层向量视为由类别向量ι和连续向量z两部分组成，生成过程可以表示为：p(l)＝Cat(l|π)。其中Cat(l|π)是多项分布，并且由于p(z)＝N(z|0,I)，所以VAE解码层公式可变化为：p_θ(x|l,z)＝f(x；l,z,θ)。

由于大多数百科摘要类别标签l是不可查的，所以我们在推理过程中对所有未标记的数据进行集成，从而执行分类作为推理。任何缺失标签的预测都是从推断的后验分布p_θ(l|x)中得到的。我们将Step3中提取出的隐层特征用来代替原始摘要文本X＝{x,l}和Y＝{y}作为VAE的输入，过程可描述为：p_θ(x,l,z′,z)＝p(l)p(z)p_θ(z′|l,z)p_θ(x|z′)。其中p(l)和p(z)是Step3中的参数化隐层变量，z′是VAE生成的隐层向量，p_θ(z′|l,z)和p_θ(x|z′)是VAE的解码端。

为每个隐层向量z′和l引入了一个推理模型，我们假设它有一个分解形式分别指定为高斯分布和多项式分布。关于变分界的计算，有两种情况需要考虑。对于维基百科，我们能够观察到数据点对应的类别标签，则变分界是(12)的简单扩展：

对于百度百科，类别标签不可查，将类别标签视为潜在变量，对此变量进行后验推理，得到的结果用于处理百度百科的数据点：

则对于整体数据集的变分界约束就是：

但是在目标函数(15)中，标签预测分布只对与未标记数据相关的第二项作出贡献，如果我们希望将此分布用作分类器，则这不是我们想要的情况。理想情况下，所有模型和变分参数都应该在所有情况下学习。为了弥补这一点，将分类损失添加到(15)中，这样分布/>也可以从标记数据中学习：

其中，超参数α控制生成学习和纯判别学习之间的相对权重。

本发明在实验中使用准确率(Precision)，召回率(Recall)，准确度(Accuracy)和宏平均F1值(Macro-F1)作为评价指标。本文通过选择频率大于3的单词和删除停止词来构建包含4493个词汇的词表。使用python3.6在NVIDIA Tesla k40m上进行实验。

对于Step3中文本表征模型，使用Adam优化器，学习速率为3e-3。统计特征编码器使用两层MLP，隐藏层尺寸为512，激活函数使用ReLu。内容特征编码器采用Transformer编码器，隐藏层尺寸为256，注意力头数为8，序列长度为100。自编码器部分MLP_μ和MLP_σ的尺寸均为20，激活函数使用softmax。重参数化中的采样向量服从正态分布N(0,1)。使得隐层向量z的维数为20。训练批次大小设置为200。对于梯度爆炸问题，本文采用两个选项。首先，采用梯度裁剪技术，梯度裁剪的阈值为20。第二，模型在训练过程中不会对输入进行洗牌，因为本文采用了大批量训练策略，随机洗牌会导致多个噪声数据同时出现，引起梯度爆炸。对于Step4中文本分类模型，由于使用Step3中的隐层向量作为输入，除了MLP_μ和MLP_σ隐藏层尺寸为500，α为0.1，其他参数相同。

在本发明所提出的数据集上，通过使用不同的基线模型进行实验，与本发明对比得到的结果如表2所示：

表2 不同方法有效性验证

Model	Precision	Recall	Accuracy	Macro-F1
					KNN	0.7737	0.7291	0.7353	0.7301
TSVM	0.7791	0.7375	0.7451	0.7399
					Transformer	0.7922	0.7464	0.7549	0.7493
M1+KNN	0.8262	0.7774	0.7892	0.7806
					M1+TSVM	0.8488	0.7969	0.8137	0.8041
LSTM+M2	0.8355	0.7858	0.7990	0.7919
					M1+M2	0.8450	0.8133	0.8235	0.8169

表2的实验结果表明，在本文所提供的数据集上，与基准模型相比，本发明采用注意力机制和词袋模型融入摘要文本和统计信息，并基于类别迁移的方法在主要评价指标上达到了最好的性能。

为验证中超参数α对模型性能的影响，通过改变起数值进行模型性能对比。试验结果如表3所示，变化趋势如图3所示。

表3 超参数对比实验

超参取值	Precision	Recall	Accuracy	Macro-F1
					0.01	0.8200	0.7912	0.8015	0.7941
0.05	0.8345	0.8035	0.8137	0.8070
					0.1	0.8450	0.8133	0.8235	0.8169
0.2	0.7338	0.7084	0.7132	0.7085
					0.5	0.6750	0.6465	0.6520	0.6459
1	0.6097	0.5968	0.5956	0.5916

表3和图3可以看出，当超参数α小于0.1时，维基百科有标注知识不足以为百度百科的摘要提供有力的分类规范；而当超参数大于0.1时，由于维基百科有标注知识数量不足，过多考虑反而会降低分类精度。

为验证本发明文本表征的有效性，分别将深度语义特征提取层和统计特征提取层消去进行比较。

如表4所示，“消去word embedding”表示去掉文本的深度语义特征；“消去BOW”表示去掉文本的统计特征。

表4 为消融实验结果

模型结构	Precision	Recall	Accuracy	Macro-F1
					消去word embedding	0.8017	0.7644	0.7696	0.7694
消去BOW	0.8116	0.7672	0.7794	0.7741
					完整模型	0.8450	0.8133	0.8235	0.8169

分析表4可知，通过深度语义特征和统计特征的结合，增强了摘要文本的语义表征。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合维基知识的变分半监督百度百科分类方法，其特征在于：包含如下步骤：

Step1、收集维基百科中文词条摘要和百度百科中文词条摘要作为实验数据集，并进行去重、去除特殊符号、标点和URL数据预处理操作；取维基百科中文词条摘要数据进行人工标注类别；百度百科中文词条摘要数据全部标记为：“unlabeled”，表示还没有类别；

Step4、构建基于维基类别迁移的百度文本分类模型：在Step3的基础上，将融合文本表征的重构向量代替原始百科中文词条摘要文本，作为VAE文本表征模型的输入，以此引入摘要类别信息；其次，将百度百科中文词条摘要表征的类别信息视为潜在变量，对其进行后验推理得出预测分布，最后将预测分布输入softmax层，输出归一化的类别概率分布，实现百度百科在维基检索体系下的分类；

所述Step4中，基于维基类别迁移的百度文本分类策略，该策略将融合文本表征的重构向量代替原始百科中文词条摘要文本，作为VAE文本表征模型的输入，并将百度百科中文词条摘要表征的类别信息视为潜在变量，对于维基百科由于类别信息已知，直接计算变分界值，输出变分界值；对于百度百科，对类别潜在变量进行后验推理后计算并输出变分界值；两种变分界值的和作为整体的变分界约束输出；将分类损失添加到整体变分界约束中，使得百度百科的分类分布从维基百科的含标签向量中学习，最终输出百度百科的类别概率分布，训练了基于迁移学习的百度百科分类器，找到一种有效的半监督百科摘要分类方法；

所述Step4中，基于维基类别迁移的百度文本分类方法如下：

将通过VAE提取到的特征x的隐层向量进行分类；将特征x的隐层向量视为由类别向量l和连续向量z两部分组成，生成过程表示为：p(l)＝Cat(l|π)；其中Cat(l|π)是多项分布，并且由于p(z)＝N(z|0,I)，所以VAE解码层公式变化为：p_θ(x|l,z)＝f(x；l,z,θ)；

任何缺失标签的预测都是从推断的后验分布p_θ(l|x)中得到的；将Step3中提取出的隐层特征用来代替原始摘要文本X＝{x,l}和Y＝{y}作为VAE的输入，过程描述为：p_θ(x,l,z′,z)＝p(l)p(z)p_θ(z′|l,z)p_θ(x|z′)；其中p(l)和p(z)是Step3中的参数化隐层变量，z′是VAE生成的隐层向量，p_θ(z′|l,z)和p_θ(x|z′)是VAE的解码端；

为每个隐层向量z′和l引入了一个推理模型，它有一个分解形式分解形式分别指定为高斯分布和多项式分布；关于变分界的计算，有两种情况；对于维基百科，能观察到数据点对应的类别标签，则变分界是(12)的简单扩展：

则对于整体数据集的变分界约束就是：

但是在上式变分界约束目标函数中，标签预测分布只对与未标记数据相关的第二项/>作出贡献，将分类损失添加到上式变分界约束目标函数中，这样分布也从标记数据中学习：

2.根据权利要求1所述的融合维基知识的变分半监督百度百科分类方法，其特征在于：所述Step1中，维基百科中文词条摘要数据中每条数据的人工标签为：“生活、艺术与文化”、“世界各地”、“中华文化”、“人文与社会科学”、“社会”、“自然与自然科学”、“宗教与信仰”、“工程、技术与应用科学”这8种类别之一。

3.根据权利要求1所述的融合维基知识的变分半监督百度百科分类方法，其特征在于：所述Step3中包含的分类策略直接将维基百科的类别信息作为百度百科的类别描述。

4.根据权利要求1所述的融合维基知识的变分半监督百度百科分类方法，其特征在于：所述Step3中，提出的融合深度语义表示和统计表征的VAE文本表征，将百科中文词条摘要文本的深度语义表示和统计表征拼接作为多层感知机MLP的输入，然后将经过MLP编码后的隐层向量输入到两层多层感知机MLP中，输出百科中文词条摘要文本表征的向量均值和方差；通过均值和方差计算，输出摘要文本的融合隐层向量；最后为防止梯度消失，将融合隐层向量输入到对数化的softmax层，输出摘要文本的损失值和重构向量。