CN112015894A

CN112015894A - 一种基于深度学习的文本单类分类方法及系统

Info

Publication number: CN112015894A
Application number: CN202010835617.0A
Authority: CN
Inventors: 金佳佳; 陆俊杰; 王开红
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-01
Anticipated expiration: 2040-08-19
Also published as: CN112015894B

Abstract

本发明涉及自然语言处理领域，尤其涉及一种基于深度学习的文本单类分类方法及系统，包括文本预处理步骤、构建深度学习特征提取网络步骤、生成单类分类模型步骤、单类分类预测步骤，系统，包括：文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块。本发明采用深度学习算法自动提取单类文本的复杂特性，无需根据单类数据特性设计相对应的算法，形成特征工程通用模型，解决了单类分类任务的首要难点，还采用模糊邻域覆盖的隶属关系进行软划分，将数据样本分为正(肯定属于某类)，负(肯定不属于某类)和不确定情况，有效处理不确定数据，以降低分类风险。

Description

一种基于深度学习的文本单类分类方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于深度学习的文本单类分类方法及系统。

背景技术

分类问题是机器学习领域的核心问题之一，分类算法使用有监督学习方法得到一个映射函数，将待分类样本的特征映射到有限类别集合中。通常分类算法使用的训练样本至少包含两个不同的类别，通过解分类算法对应的优化问题得到用于决策的模型，称为分类器或分类模型。然而在一些实际问题中，训练阶段只能得到一个类别的训练样本，或仅有一个类别的训练样本是对应类别的充分采样。例如在网络入侵检测模型的构建中，绝大多数能够收集到的数据是非入侵情况下的网络通讯数据，对于层出不穷的入侵方法，甚至在训练阶段尚未出现的新入侵方法，无法在训练样本中得以体现。又例如在医疗领域住院患者状态监控算法中，理想的训练数据集应当包括“正常状态”和“异常状态”两个类别的样本，但住院患者在绝大多数时间都处于正常的状态，采集异常情况下患者的各项指标数据是非常困难，同时也难以确保异常状态数据能够有效代表“异常状态”类别。

为解决这类问题，研究者们提出了一种特殊的分类算法，称为单类分类算法。单类分类算法仅需要一个类别的训练样本，得到的单类分类器能够将与训练数据同类别的样本与其他潜在类别的样本区分。更精确地说，单类分类算法是一类通过对正类训练样本建模，区分正类样本与负类样本，可用于离群点(异常)检测、稀有类发现、多分类等多种任务的机器学习方法。其中正类通常对应采样较充分，先验知识较多的类别，负类通常对应采样较不充分甚至没有样本，先验知识较少甚至无法获取的类别。虽然单类分类器可以使用较少的样本完成分类任务，但由于仅有一类训练样本，在算法优化问题设计、算法参数选择和算法模型评价等问题中会遇到更多的困难。同时，单类分类器的性能受到训练样本的限制，往往难以得到足够理想的效果。

单类分类算法与一般分类算法的“判别”特性不同，单类分类算法的核心在于“描述”。然而训练数据集包含的正类样本可能存在很多复杂特性，如何设计对应的单类分类算法应对这些特性是单类分类算法设计的核心。但是相关研究较不充分，至今为止的研究大多仅停留在规则、机器学习以及集成学习层面上

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于深度学习的文本单类分类方法及系统，通过深度学习提取特征，无需设计分类算法，构建通用的单类分类模型，降低分类风险。

本发明是通过以下技术方案达到上述目的：一种基于深度学习的文本单类分类方法，包括以下步骤：

文本预处理步骤：收集单类文本数据I分为目标数据和目标模板数据，通过预训练模型构造字符向量矩阵并对目标数据和目标模板数据进行向量化处理，得到目标文本向量空间和目标模板文本向量空间；

构建深度学习特征提取网络步骤：目标文本向量空间和目标模板文本向量空间经过卷积计算层、池化层、全连接层后输出目标特征和目标模板特征；

生成单类分类模型步骤：对目标模板特征构建邻域覆盖，得到目标模板邻域集和目标模板邻域覆盖；计算目标特征在目标模板邻域集的隶属度，输出模糊邻域覆盖，基于邻域覆盖的隶属关系，输出目标特征属于目标模板邻域覆盖的概率，并迭代更新网络参数，生成单类分类模型，该单类分类模型包括：将文本数据向量化处理预训练模型、训练好的深度学习特征提取网络、构建邻域覆盖及模糊邻域覆盖的分类模型；

单类分类预测步骤：将单类文本数据II输入到单类分类模型中，得到邻域覆盖，将待预测样本输入到单类分类模型中的预训练模型、深度学习特征提取网络，生成特征，计算输出特征属于邻域覆盖的概率P，根据概率P对待预测样本进行类别预测。

作为优选，所述的单类文本数据为包含多种类别的数据中，数量较多的某一类别的数据。

作为优选，所述的构建深度学习特征提取网络的卷积计算层采用256个滤波器对目标文本向量空间和目标模板文本向量空间进行三层卷积计算

作为优选，所述的邻域覆盖基于样本之间的相似度或者距离构造邻域，采用异构欧氏重叠度量(HEOM)来测量样本距离，形成全局数据分布的集合级近似值。

作为优选，所述的模糊邻域覆盖由隶属度函数组成并取最大值。

作为优选，所述的生成单类分类模型步骤中，计算输出目标特征属于目标模板邻域覆盖的概率的平均值，得到模型损失值，以损失值最小化迭代更新网络参数。

作为优选，所述的类别预测为二分类，确定隶属度阈值，概率P>隶属度阈值，表示属于该单类；否则不属于该单类。

作为优选，所述的类别预测为三分类，确定一组隶属度阈值{(α，β)，0≤β＜α≤1}，当概率P≥α，则属于该单类；当β<概率P<α，则不确定该单类；当概率P≤β，则不输属于于该单类。

一种基于深度学习的文本单类分类系统，包括：文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块，其中：

文本数据获取模块用于获取单类文本数据II、待预测样本；

文本预处理模块，内设用于文本数据向量化处理的预训练模型，接收单类文本数据II、待预测样本，输出单类文本数据II、待预测样本的向量空间；

深度学习特征提取网络，内设训练好的深度学习特征提取网络，包括卷积计算层、池化层、全连接层，接收单类文本数据II、待预测样本的向量空间，输出单类文本数据II、待预测样本的特征；所述训练好的深度学习特征提取网络以单类文本数据I作为训练数据；

单类分类模型，内设训练好的单类分类模型，包括构建邻域覆盖单元、模糊邻域覆盖单元，接收单类文本数据II的特征，输出单类文本数据II的邻域覆盖；所述训练好的单类分类模型以单类文本数据I作为训练数据；

分类预测模块，计算待预测样本的特征与单类文本数据II的邻域覆盖的隶属度概率，根据概率的大小判断待预测样本与单类文本数据II属于同一类别的可能性。

本发明的有益效果在于：1、采用深度学习算法自动提取单类文本的复杂特性，无需根据单类数据特性设计相对应的算法，形成特征工程通用模型，解决了单类分类任务的首要难点；2、本发明采用模糊邻域覆盖的隶属关系进行软划分，将数据样本分为正(肯定属于某类)，负(肯定不属于某类)和不确定情况，有效处理不确定数据，以降低分类风险。

附图说明

图1是本发明方法实施案例1的步骤流程示意图；

图2是实施案例1中生成单类分类模型的流程示意图；

图3是本发明系统的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1：一种基于深度学习的文本单类分类系统，如图3所示，包括：文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块，其中：

文本数据获取模块用于获取单类文本数据II、待预测样本；

基于上述的文本单类分类系统,发明了一种基于深度学习的文本单类分类方法，如图1、图2所示，包括以下步骤：

(1)文本预处理步骤：收集单类文本数据I分为目标数据和目标模板数据，通过预训练模型构造字符向量矩阵并对目标数据和目标模板数据进行向量化处理，得到目标文本向量空间和目标模板文本向量空间。具体步骤如下：

(1.1)收集数据：

一个实施例收集的单类文本数据为微博评论数据，理想的训练数据集应当包括“正面情感”和“负面情感”两个类别的样本，在本实施例中只取正面情感这一类数据，类别记为label，随机分为目标数据和目标模板数据，目标数据记为A，目标模板数据记为B。

一个实施例收集医疗数据文本，在医疗领域住院患者状态监控算法中，理想的训练数据集应当包括“正常状态”和“异常状态”两个类别的样本，但住院患者在绝大多数时间都处于正常的状态，采集异常情况下患者的各项指标数据是非常困难，在本实施例中，单类文本数据取医疗数据中“正常状态”类别数据，类别记为label，提取一部分单类文本数据作为目标数据A，另一部分单类文本数据作为目标模板数据B。

(1.2)构造字符向量矩阵：本实施例下载Bert通用预训练模型和其对应的词汇表，将目标数据A和目标模板数据B的文本切分成单个字符，验证其都包含在下载的词汇表中；在本实施例中E＝21128为词汇表中所用的字符集数量,加载通用预训练模型，构造一个字符向量矩阵Q∈R^E×l，其中l＝128为预训练模型的文本嵌入维度。

(1.3)文本嵌入：在本实施例中，统计了所有文本长度在300字符左右，故将每条数据固定长度设为300，大于300的数据会被截断，小于300的数据填充统一的字符<pad>。假设一个文本的字符序列为[s₁,s₂,s₃,…,s_n](0＜n＜300)，s_n为文本中第n个字符，从字符向量矩阵查询该字符对应的字符向量为[ss₁,ss₂,…,ss_n],ss_n为文本中第n个字符文本嵌入，则根据字符序列和字符向量矩阵构造文本向量S∈R^n×l。以此类推，对于目标数据A文本嵌入最终输出目标文本向量空间

对于目标模板数据B文本嵌入最终输出目标模板文本向量空间

其中L_A＝50000为目标数据A的总数,L_B＝10000为目标模板数据B的总数。

(2)构建深度学习特征提取网络步骤：目标文本向量空间和目标模板文本向量空间经过卷积计算层、池化层、全连接层后输出目标特征和目标模板特征。具体步骤如下：

(2.1)卷积计算层：本实施例利用k＝256个滤波器对输入文本向量进行三层卷积计算，经过多轮测试，当卷积核窗口中的字符数量h＝3时效果最佳，一个滤波器一层卷积操作后输出特征t_i为：

t_i＝f(W·S_i:i+2+b) (1)

其中b∈R为偏差项，W∈R^3×128为卷积核的权重矩阵，f是卷积核函数，S_i:i+h-1为[ss_i,ss_i+1,…,ss_i+h-1],ss_i为第i个字符向量，i的范围[1，n+h-1]。一个文本向量S＝[ss₁,ss₂,ss₃,…,ss_n]经一个滤波器一层卷积后获得特征T＝[t₁,t₂,…,t_n+1-h]，同理得一个滤波器三层卷积后获得特征T'＝[t₁,t₂,…,t_n+3-3h]，k个滤波器卷积后获得特征TT＝[T'₁,T'₂,…,T'_k]，T'_k表示第k个滤波器三层卷积后获得的特征。

(2.2)池化层：使用max-pooling池化层从每个滤波器输出的特征中取出最大值，最大值代表着最重要的信号，这种Pooling方式可以解决可变长度的句子输入问题，最终池化层对步骤(2.1)输出的特征T'进行下采样，保留最重要的特征

(2.3)全连接层：为了防止梯度消失，本实施例在全连接第一层引入Relu激活函数，经过测试，Relu得到的SGD的收敛速度会比sigmoid/tanh快很多，它的数学表达式是：

f(x)＝1(x＜0)(ex)+1(x＞＝0)(x) (4)

其中e是一个很小的常数。这样，既修正了数据分布，又保留了一些负轴的值，使得负轴信息不会全部丢失；同时为了防止模型过拟合，本实施例引入Dropout技术，经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，0.5的时候dropout随机生成的网络结构最多。在本实施例中，通过全连接层对池化后的特征进行全连接得到特征V，并降维降低后续的计算量，输出特征向量V'为：

其中k＝256为卷积核的个数，W'∈R^k×(k/2)为全连接层的权重矩阵。

(2.4)获取目标特征：将步骤(1.3)输出的目标文本向量空间

和目标模板文本向量空间

输入到步骤(2.1)卷积计算层中，输出目标特征

和目标模板特征

将目标特征和目标模板特征输入到(2.2)池化层中，输出目标特征

和目标模板特征

最后输入到步骤(2.3)全连接层中，输出目标特征

和目标模板特征

在通用预训练模型的基础上，通过深度学习网络在目标单类数据上进行微调，输出更准确的文本特征表示。

(3)生成单类分类模型步骤，具体步骤如下：

(3.1)构建邻域覆盖：基于样本之间的相似度或者距离构造邻域。本实施例采用异构欧氏重叠度量(HEOM)来测量样本距离，公式如下：

其中(x,y)是两个文本输入向量，m＝128是输入向量的维，

是输入向量维度a_i处的权重，a_i(x)和a_i(y)为x，y在维度a_i处的值，

和

为所有样本在维度a_i处的最大值和最小值，

表示样本x与y在维度a_i处的距离，为了简化计算复杂度，本实施例设

通过HEOM距离可以对附近的样本进行分组来构建邻域，即给定样本x，邻域O(x,η)＝{y|(x,y)≤η}由x周围的样本组成，η是邻域半径。对于一组数据样本{x₁,x₂,…,x_n}，每个样本邻域的并集

形成一个覆盖范围，同质邻域的整合其共享同一类别

即形成了全局数据分布的集合级近似值。

对于目标模板特征

为目标模板数据B的第L_B个文本经过卷积后输出的特征向量，首先以特征v_B1为邻域中心，分别计算d(v_B1,v_Bi),i∈[1,L_B]的距离，最远的距离为半径η_B1＝max{d(v_B1,v_Bi),i∈[1,L_B]}，构成v_B1邻域O(v_B1,η_B1)，以此类推依次以特征v_Bi,i∈[1,L_B]为邻域中心,得到目标模板邻域集

目标模板邻域覆盖C_B＝<V_B,O_B>，L_B个圆在空间上形成了密度不同的不规则面积。

(3.2)模糊邻域覆盖：邻域覆盖提供了数据分布的集合级近似，所有数据样本都会分布到邻域中，导致了数据空间的硬分区。为了区分不确定样本需要形成数据空间的软分区，本发明通过量化模糊隶属度为分类不确定的数据构建不确定类别映射。假设样本集为U＝{x₁,x₂,…,x_n}，样本集的邻域集合为O_U＝{O(x₁,η₁),O(x₂,η₂),…,O(x_n,η_n)}，与样本邻域覆盖<U,O_U>相比，模糊邻域覆盖由样本邻域模糊隶属函数组成

其中

表示邻域O(x_i,η_i)的隶属度函数，简称为

邻域隶属度函数用于衡量属于邻域的样本的可能性，其根据样本与邻域之间的距离进行计算。假设给定数据样本x和邻域O(x_i,η_i)，x_i是邻域中心，根据x和x_i之间的距离定义x属于O(x_i,η_i)的可能性，计算公式如下：

其中d(x,x_i)是x与x_i之间的距离，η＞0为邻域O(x_i,η_i)的半径，λ≥1控制邻域内样本随距离的变化率，r＝τ·η_i≥0,(0≤τ＜1)表示距离偏差，如果d(x,x_i)＝(1+τ)·η_i，则

即可通过调整距离偏差用于确定邻域内可能性0.5的位置，在本实施例中，设置λ＝1，r＝η_i/3。

即x属于邻域O(x_i,η_i)的可能性越大。根据邻域覆盖C＝<U,O_U>，模糊邻域覆盖

样本x属于邻域C的概率：

基于邻域覆盖的隶属关系，样本数据属于邻域C所指定的类的概率：

U_label＝{x|x∈U,class(x)＝label} (11)

对于目标特征

为目标数据A的第L_A个文本经过卷积后输出的特征向量，首先求特征v_A1在目标模板邻域集

中每个子邻域的隶属度,输出模糊邻域覆盖

则特征v_A1属于邻域O_B(属于类别label)的概率

同理依次对v_Ai,i∈[1,L_A]计算属于邻域O_B(属于类别label)的概率，输出

(3.3)模型训练：根据步骤(2.3)输出的目标模板特征

输入到步骤(3.1)中，以每个样本作为邻域中心，离邻域中心最远的样本的距离为半径，得到目标模板邻域集

目标模板邻域覆盖C_B＝<V_B,O_B>；根据步骤(2.3)输出的目标特征

将每个目标特征输入到步骤(3.2)中计算其模糊隶属度,得到其目标模糊邻域覆盖，再基于邻域覆盖的隶属关系，输出目标特征属于邻域C_B所指定的类label的概率

并计算其平均值，得到平均概率

该平均值越高，意味着目标模板邻域越能准确描述该单类别的特征范围，模型损失值loss＝1-P'_{label_A},根据损失值最小化不断迭代更新网络参数(W,b等神经网络中的权重)，生成单类分类模型M，该单类分类模型M包括：将文本数据向量化处理预训练模型、训练好的深度学习特征提取网络、构建邻域覆盖及模糊邻域覆盖的分类模型。

单类分类预测步骤：

(4.1)构建标准邻域覆盖：根据步骤(3.3)输出的单类分类模型M，将步骤(1.1)收集的目标数据A和目标模板数据B汇总输入到单类分类模型M特征提取网络中，输出特征

同时输入到步骤(3.1)中构建标准邻域覆盖

再因为目标数据A和目标模板数据B属于类别label，推理得类别label的邻域覆盖C_label＝<V_AB,O_AB>。

(4.2)单类预测：根据步骤(4.1)构建的邻域覆盖C_label＝<V_AB,O_AB>。将待预测样本[q₁,q₂,…,q_n]输入到单类分类模型M特征提取网络中，输出特征V_Q∈R^1×128，将特征输入到步骤(3.2)中计算特征V_Q属于邻域C_label的概率

可以根据概率

对待预测样本进行类别预测：

一种，二分类：给定一个隶属度阈值γ，

表示属于该单类；否则不属于该单类。

一种，三分类：给定一组隶属度阈值{(α，β)，0≤β＜α≤1}，在本实施例中，α＝0.7，β＝0.5，将样本q的三分类定义如下：

一个实施例的单类分类预测：

获取单类文本数据II，将单类文本数据II输入用于文本数据向量化处理的预训练模型输出单类文本数据II的向量空间，将单类文本数据II的向量空间输入训练好的深度学习特征提取网络输出单类文本数据II的特征，将单类文本数据II的特征输入用于构建邻域覆盖及模糊邻域覆盖的分类模型得到单类文本数据II的邻域覆盖；

获取待预测样本，将待预测样本输入用于文本数据向量化处理的预训练模型输出待预测样本的向量空间，将待预测样本向量空间输入训练好的深度学习特征提取网络输出待预测样本特征，计算待预测样本的特征与单类文本数据II的邻域覆盖的隶属度概率，根据概率的大小判断待预测样本与单类文本数据II属于同一类别的可能性。

不难理解，如果是对N个，3个及以上，类别的样本，可以取样本第1类、第2类、…、第N-1类类别样本，分别训练生成对应的单分类模型M₁、M₂、…、M_N-1，获对应的领域覆盖C_label1、C_label2、…、C_labelN-1，利用待预测数据是否属于相应的邻域覆盖的概率对待预测数据进行类别预测。

不难理解，可以采用已知类别的混合了“正常状态”和“异常状态”两个类别的数据作为待预测数据，进行测试，将预测获得的类别与已知类别进行比较，测试预测效果。进一步调试类别预测中的隶属度阈值，或优化单分类模型。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于深度学习的文本单类分类方法，其特征在于包括以下步骤：

单类分类预测步骤：将单类文本数据II输入单类分类模型，得到邻域覆盖，将待预测样本输入到单类分类模型中的预训练模型、深度学习特征提取网络，生成特征，计算输出特征属于邻域覆盖的概率P，根据概率P对待预测样本进行类别预测。

2.根据权利要求1所述的一种基于深度学习的文本单类分类方法，其特征在于，所述的单类文本数据为包含多种类别的数据中，数量较多的某一类别的数据。

3.根据权利要求1所述的一种属于深度学习的文本单类分类方法，其特征在于，所述的构建深度学习特征提取网络的卷积计算层采用256个滤波器对目标文本向量空间和目标模板文本向量空间进行三层卷积计算。

4.根据权利要求3所述的一种属于深度学习的文本单类分类方法，其特征在于，所述的邻域覆盖基于样本之间的相似度或者距离构造邻域，采用异构欧氏重叠度量(HEOM)来测量样本距离，形成全局数据分布的集合级近似值。

5.根据权利要求4所述的一种属于深度学习的文本单类分类方法，其特征在于，所述的模糊邻域覆盖由隶属度函数组成并取最大值。

6.根据权利要求4所述的一种属于深度学习的文本单类分类方法，其特征在于，所述的生成单类分类模型步骤中，计算输出目标特征属于目标模板邻域覆盖的概率的平均值，得到模型损失值，以损失值最小化迭代更新网络参数。

7.根据权利要求1-6任一权利要求所述的一种属于深度学习的文本单类分类方法，其特征在于，所述的类别预测为二分类，确定隶属度阈值，概率P>隶属度阈值，表示属于该单类；否则不属于该单类。

8.根据权利要求1-6任一权利要求所述的一种属于深度学习的文本单类分类方法，其特征在于，所述的类别预测为三分类，确定一组隶属度阈值{(α，β)，0≤β＜α≤1}，当概率P≥α，则属于该单类；当β<概率P<α，则不确定该单类；当概率P≤β，则不属于该单类。

9.一种基于深度学习的文本单类分类系统，其特征在于包括：文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块，其中：

文本数据获取模块用于获取单类文本数据II、待预测样本；