CN110609895B

CN110609895B - 一种主动选择示例以进行高效文本分类的样本自动生成方法

Info

Publication number: CN110609895B
Application number: CN201910633261.XA
Authority: CN
Inventors: 黄圣君; 李国翔; 李想; 赵子渊
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2023-05-23
Anticipated expiration: 2039-07-15
Also published as: CN110609895A

Abstract

本发明公开了一种主动选择示例以进行高效文本分类的样本自动生成方法。文本分类问题是自然语言处理领域中一个非常经典的问题。基于机器学习技术的一系列方法已在文本分类领域取得了很好的应用。但是随着学习模型的复杂化以及文本数据量的增加，对文本训练集进行人工标注的需求量急剧增大。本发明通过结合机器学习中的神经网络和主动学习技术，在分类模型建立后自动生成信息量最丰富的样本，在增加少量用户标注代价的前提下，提升文本分类精度，此外本发明还通过稀疏重建近似生成一些摘要性的词，使得用户通过总结词即可进行标注，有效减少了用户的参与代价。

Description

一种主动选择示例以进行高效文本分类的样本自动生成方法

技术领域

本发明属于文本自动分类领域，具体涉及一种主动选择示例以进行高效文本分类的样本自动生成方法。

背景技术

文本分类在一些实际应用中扮演着非常重要的角色，如：情感分析，新闻主题标记，垃圾邮件检测等等。通常通过传统监督学习的方法来训练分类器，这种模型的好坏取决于训练数据的质量。但是实际中，标记过的数据是有限的，而未标记的数据是巨大的，并且文本标注需要标注者仔细阅读全文，因此标记成本很高。主动学习旨在通过主动选择要查询的最有价值的实例来降低标注成本。主动学习已被广泛运用于文本分类，其中不确定性抽样是最常用的，结合多重标准的方法也用于文本分类的主动学习中。最近也有研究尝试生成新实例并直接标注新实例，然后添加到训练数据中。但是该方法设计用于图像分类，无法直接应用于文本分类。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种主动选择示例以进行高效文本分类的样本自动生成方法，结合机器学习中的支持向量机模型，神经网络和主动学习技术，在增加少量用户标注代价的前提下，提升文本分类精度

技术方案：为实现上述目的，本发明采用的技术方案为：

一种主动选择示例以进行高效文本分类的样本自动生成方法，包括以下步骤：

(一)根据已标记数据D训练初始分类器f；

(二)根据步骤(一)中所训练得到的分类器f生成大小为b未被标注的新示例集合X^*＝{x₁，x₂，...，x_b}；

(三)将步骤(二)中所生成X^*中的每个新示例x_i归纳为一些总结词，并将示例及总结词交于用户等待标注；

(四)将标注后的新示例加入已标记数据集合D；

(五)返回步骤(一)或结束并输出分类模型。

进一步的，所述步骤(一)对文本数据进行分类模型的价值评分的具体方法为：

D＝{(o₁，y₁)，...(o_n，y_n)}为初始有标记样本集，n为有标记样本个数，每个样本o_i为d维特征向量，y_i为已标记数据的第i个样本o_i的类别，假设总共有K类标记；

基于已标记的数据集D，训练出支持向量机模型f(o)＝w₀φ(o)+b₀。其中w₀，b₀为步骤(一)中通过支持向量机模型计算出的参数，φ(·)为特征映射函数。

进一步的，所述步骤(二)在给定分类器f的条件下，查询生成大小为b的新示例集合X^*＝{x₁，x₂，...，x_b}的具体方法为：

建立一个只有一层隐含层的神经网络，其输入为大小固定的随机向量，输出为查询生成的新示例x_i。基于目标函进行优化，最终能够使得输出b个新示例{x₁，x₂，...，x_b}让目标函数达到最小值，所述目标函数为：

其中，w₀，b₀为步骤(一)中通过支持向量机模型计算出的参数，φ(·)为特征映射函数。λ为用于折衷的超参数，b为生成新示例的个数，n为已有标记数据集D的样本个数，

为生成的数据的核矩阵，/>

为初始数据的核矩阵，

为生成数据和初始数据之间的核矩阵，tr(A)为迹函数，即对矩阵A主对角线上的元素求和。

进一步的，所述步骤(三)归纳总结文本的具体方法为：

给定文章x_i中的q个词汇w^*，其词汇向量W＝[w₁，w₂，…，w_q]^T，利用Word2Vec方法，将每个词汇w_i转化为一个d维向量，代表了每个词汇w_i在与文章x_i相同特征空间中的映射。给W中每个词汇随机分配一个初始重要值α_i，并且满足

则W的词汇重要值向量α＝[α₁，α₂，…，α_q]^T。采用机器学习中经典的随机梯度下降方法，最小化目标函数，所述目标函数为：

其中，η是用于折衷的超参数。

最后，根据数值大小选取α中前m大的元素所对应的词汇作为归纳文章的稀疏重建词，即总结词，其中m为总结词个数。

有益效果：本发明提供的主动选择示例以进行高效文本分类的自动生成方法，结合机器学习中的支持向量机模型，神经网络和主动学习技术，在增加少量用户标注代价的前提下，提升文本分类精度，此外本发明还通过稀疏重建近似生成一些摘要性的词，使得用户通过少量文本即可进行标注，有效减少了用户的参与代价。具体的，本发明每次挑选出对于提升分类装置精度最有帮助的一批文本进行查询，不仅提供用户这些文本，还提供给用户对应原文的总结词以减少用户的标记代价。而为了在挑选文本的过程充分满足多样性需求，本发明结合机器学习中的神经网络和主动学习技术，使得选取的未标注文本之间是多样的，未标注文本与已标注文本之间也是多样的。

附图说明

图1是本发明机制流程图；

图2是示例生成神经网络构建的流程图；

图3是文本稀疏重构装置的流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

实施例

如图1所示为本发明的一种主动选择示例以进行高效文本分类的样本自动生成方法。由步骤1开始，步骤2中先对原数据D中文本信息提取出特征向量，每个特征向量称为一个示例。特征向量提取可以使用机器学习教科书中的经典方法每份数据进行语料处理，特征提取，最后向量化将每个样本o_i转换为d维特征向量。然后再对D的数据利用RBF核函数和SMO算法训练得到支持向量机分类器。步骤3再根据这个分类器训练一个只有一个隐含层的神经网络，随机生成长度固定的向量作为神经网络的输入，根据神经网络的输出就可以生成一批大小为b的待标注示例，具体过程见图2。步骤4所示装置将这b个生成的新示例所在文章稀疏重构为一些摘要性的词语，步骤5将神经网络输出的示例及摘要词提供给用户，用户根据摘要词和示例进行标注后，步骤6根据用户的标注更新支持向量机分类器，如果此时用户标注次数还未达到上限，则返回步骤3，否则进入步骤8，输出生成的文本分类器，在步骤9结束。

图2所示是图1中步骤3的具体过程，由步骤31开始，步骤32建立神经网络结构，具体的，输入层含十个神经元，隐含层含两百个神经元，输出层神经元个数为特征空间大小d，目标函数为：

其中，w₀，b₀为步骤2中通过支持向量机模型计算出的参数，φ(·)为特征映射函数。λ为用于折衷的超参数，b为生成新示例的个数，n为已有标记数据集D的样本个数，

为生成的数据的核矩阵，/>

为初始数据的核矩阵，

由步骤33开始训练神经网络，经由步骤34前向传播，步骤35反向传播后计算梯度以更新神经网络参数，步骤37判断是否达到训练次数上限，若未达到上限，则返回步骤34开始新一轮训练，否则进入步骤38根据神经网络输出层输出生成的b个示例，在步骤39结束。

图3所示是图1中步骤4的具体过程，由步骤41开始，在步骤42中利用经典词汇向量化方法Word2vec将每个词汇映射到与文章x_i相同特征空间中，将每个词汇w_i转化为一个d维向量。步骤43每个词汇随机分配一个初始重要值α_i，需保证

进入步骤44开始随机梯度下降过程，随机选取α中的一个元素，并计算关于这个元素的梯度，步骤45根据步骤44选取的元素及计算出的梯度进行梯度下降，更新重要值α_i，步骤46再计算目标(损失)函数值，步骤47判断步骤46计算出的值是否满足低于一个特定的值，这个值可以根据用户的需求动态调整，如果不满足则返回步骤44进行进一步梯度下降，否则进入步骤48，选择重要值最高的m个词汇，即作为总结词输出，其中m为总结词个数。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种主动选择示例以进行高效文本分类的样本自动生成方法，包括以下步骤：

(一)根据已标记数据集D训练初始分类器f；

(二)根据步骤(一)中所训练得到的分类器f生成大小为b未被标注的新示例集合X^*＝{x₁,x₂,…,x_b}；

(四)将标注后的新示例加入已标记数据集合D；

(五)返回步骤(一)或结束并输出分类模型；

所述步骤(一)训练初始分类器f是指基于初始有标记样本训练分类模型，具体方法为：

D＝{(o₁,y₁),…(o_n,y_n)}为初始有标记样本集，n为有标记样本个数，每个样本o_i为d维特征向量，y_i为已标记数据的第i个样本o_i的类别，假设总共有K类标记；

基于已标记的数据集D，训练出支持向量机模型f(o)＝w₀φ(o)+b₀，其中w₀,b₀为步骤(一)中通过支持向量机模型计算出的参数，φ(·)为特征映射函数；

所述步骤(二)在给定分类器f的条件下，查询生成大小为b的新示例集合X^*＝{x₁,x₂,…,x_b}的具体方法为：

建立一个只有一层隐含层的神经网络，其输入为大小固定的随机向量，输出为查询生成的新示例x_i；基于目标函进行优化，最终能够使得输出b个新示例{x₁,x₂,…,x_b}让目标函数达到最小值，所述目标函数为：

其中，w₀,b₀为步骤(一)中通过支持向量机模型计算出的参数，φ(·)为特征映射函数；λ为用于折衷的超参数，b为生成新示例的个数，n为已有标记数据集D的样本个数，

为生成的数据的核矩阵，/>

为初始数据的核矩阵，

为生成数据和初始数据之间的核矩阵，tr(A)为迹函数，即对矩阵A主对角线上的元素求和；

所述步骤(三)中归纳总结词的具体方法为：

给定文章x_i中的q个词汇w^*，其词汇向量W＝[w₁,w₂,…,w_q]^T，利用Word2Vec方法，将每个词汇w_i转化为一个d维向量，代表了每个词汇w_i在与文章x_i相同特征空间中的映射；给W中每个词汇随机分配一个初始权重α_i，则W的词汇重要值向量α＝[α₁,α₂,…,α_q]^T，并且满足

采用随机梯度下降方法，最小化目标函数，所述目标函数为：

其中，η是用于折衷的超参数；

最后，根据数值大小选取α中前m大的元素所对应的词汇作为归纳文章的稀疏重建词，即为总结词，其中m为总结词个数。