CN112015894A - 一种基于深度学习的文本单类分类方法及系统 - Google Patents
一种基于深度学习的文本单类分类方法及系统 Download PDFInfo
- Publication number
- CN112015894A CN112015894A CN202010835617.0A CN202010835617A CN112015894A CN 112015894 A CN112015894 A CN 112015894A CN 202010835617 A CN202010835617 A CN 202010835617A CN 112015894 A CN112015894 A CN 112015894A
- Authority
- CN
- China
- Prior art keywords
- class
- text
- data
- neighborhood
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000013461 design Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000007635 classification algorithm Methods 0.000 description 13
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Abstract
本发明涉及自然语言处理领域,尤其涉及一种基于深度学习的文本单类分类方法及系统,包括文本预处理步骤、构建深度学习特征提取网络步骤、生成单类分类模型步骤、单类分类预测步骤,系统,包括:文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块。本发明采用深度学习算法自动提取单类文本的复杂特性,无需根据单类数据特性设计相对应的算法,形成特征工程通用模型,解决了单类分类任务的首要难点,还采用模糊邻域覆盖的隶属关系进行软划分,将数据样本分为正(肯定属于某类),负(肯定不属于某类)和不确定情况,有效处理不确定数据,以降低分类风险。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于深度学习的文本单类分类方法及系统。
背景技术
分类问题是机器学习领域的核心问题之一,分类算法使用有监督学习方法得到一个映射函数,将待分类样本的特征映射到有限类别集合中。通常分类算法使用的训练样本至少包含两个不同的类别,通过解分类算法对应的优化问题得到用于决策的模型,称为分类器或分类模型。然而在一些实际问题中,训练阶段只能得到一个类别的训练样本,或仅有一个类别的训练样本是对应类别的充分采样。例如在网络入侵检测模型的构建中,绝大多数能够收集到的数据是非入侵情况下的网络通讯数据,对于层出不穷的入侵方法,甚至在训练阶段尚未出现的新入侵方法,无法在训练样本中得以体现。又例如在医疗领域住院患者状态监控算法中,理想的训练数据集应当包括“正常状态”和“异常状态”两个类别的样本,但住院患者在绝大多数时间都处于正常的状态,采集异常情况下患者的各项指标数据是非常困难,同时也难以确保异常状态数据能够有效代表“异常状态”类别。
为解决这类问题,研究者们提出了一种特殊的分类算法,称为单类分类算法。单类分类算法仅需要一个类别的训练样本,得到的单类分类器能够将与训练数据同类别的样本与其他潜在类别的样本区分。更精确地说,单类分类算法是一类通过对正类训练样本建模,区分正类样本与负类样本,可用于离群点(异常)检测、稀有类发现、多分类等多种任务的机器学习方法。其中正类通常对应采样较充分,先验知识较多的类别,负类通常对应采样较不充分甚至没有样本,先验知识较少甚至无法获取的类别。虽然单类分类器可以使用较少的样本完成分类任务,但由于仅有一类训练样本,在算法优化问题设计、算法参数选择和算法模型评价等问题中会遇到更多的困难。同时,单类分类器的性能受到训练样本的限制,往往难以得到足够理想的效果。
单类分类算法与一般分类算法的“判别”特性不同,单类分类算法的核心在于“描述”。然而训练数据集包含的正类样本可能存在很多复杂特性,如何设计对应的单类分类算法应对这些特性是单类分类算法设计的核心。但是相关研究较不充分,至今为止的研究大多仅停留在规则、机器学习以及集成学习层面上
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于深度学习的文本单类分类方法及系统,通过深度学习提取特征,无需设计分类算法,构建通用的单类分类模型,降低分类风险。
本发明是通过以下技术方案达到上述目的:一种基于深度学习的文本单类分类方法,包括以下步骤:
文本预处理步骤:收集单类文本数据I分为目标数据和目标模板数据,通过预训练模型构造字符向量矩阵并对目标数据和目标模板数据进行向量化处理,得到目标文本向量空间和目标模板文本向量空间;
构建深度学习特征提取网络步骤:目标文本向量空间和目标模板文本向量空间经过卷积计算层、池化层、全连接层后输出目标特征和目标模板特征;
生成单类分类模型步骤:对目标模板特征构建邻域覆盖,得到目标模板邻域集和目标模板邻域覆盖;计算目标特征在目标模板邻域集的隶属度,输出模糊邻域覆盖,基于邻域覆盖的隶属关系,输出目标特征属于目标模板邻域覆盖的概率,并迭代更新网络参数,生成单类分类模型,该单类分类模型包括:将文本数据向量化处理预训练模型、训练好的深度学习特征提取网络、构建邻域覆盖及模糊邻域覆盖的分类模型;
单类分类预测步骤:将单类文本数据II输入到单类分类模型中,得到邻域覆盖,将待预测样本输入到单类分类模型中的预训练模型、深度学习特征提取网络,生成特征,计算输出特征属于邻域覆盖的概率P,根据概率P对待预测样本进行类别预测。
作为优选,所述的单类文本数据为包含多种类别的数据中,数量较多的某一类别的数据。
作为优选,所述的构建深度学习特征提取网络的卷积计算层采用256个滤波器对目标文本向量空间和目标模板文本向量空间进行三层卷积计算
作为优选,所述的邻域覆盖基于样本之间的相似度或者距离构造邻域,采用异构欧氏重叠度量(HEOM)来测量样本距离,形成全局数据分布的集合级近似值。
作为优选,所述的模糊邻域覆盖由隶属度函数组成并取最大值。
作为优选,所述的生成单类分类模型步骤中,计算输出目标特征属于目标模板邻域覆盖的概率的平均值,得到模型损失值,以损失值最小化迭代更新网络参数。
作为优选,所述的类别预测为二分类,确定隶属度阈值,概率P>隶属度阈值,表示属于该单类;否则不属于该单类。
作为优选,所述的类别预测为三分类,确定一组隶属度阈值{(α,β),0≤β<α≤1},当概率P≥α,则属于该单类;当β<概率P<α,则不确定该单类;当概率P≤β,则不输属于于该单类。
一种基于深度学习的文本单类分类系统,包括:文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块,其中:
文本数据获取模块用于获取单类文本数据II、待预测样本;
文本预处理模块,内设用于文本数据向量化处理的预训练模型,接收单类文本数据II、待预测样本,输出单类文本数据II、待预测样本的向量空间;
深度学习特征提取网络,内设训练好的深度学习特征提取网络,包括卷积计算层、池化层、全连接层,接收单类文本数据II、待预测样本的向量空间,输出单类文本数据II、待预测样本的特征;所述训练好的深度学习特征提取网络以单类文本数据I作为训练数据;
单类分类模型,内设训练好的单类分类模型,包括构建邻域覆盖单元、模糊邻域覆盖单元,接收单类文本数据II的特征,输出单类文本数据II的邻域覆盖;所述训练好的单类分类模型以单类文本数据I作为训练数据;
分类预测模块,计算待预测样本的特征与单类文本数据II的邻域覆盖的隶属度概率,根据概率的大小判断待预测样本与单类文本数据II属于同一类别的可能性。
本发明的有益效果在于:1、采用深度学习算法自动提取单类文本的复杂特性,无需根据单类数据特性设计相对应的算法,形成特征工程通用模型,解决了单类分类任务的首要难点;2、本发明采用模糊邻域覆盖的隶属关系进行软划分,将数据样本分为正(肯定属于某类),负(肯定不属于某类)和不确定情况,有效处理不确定数据,以降低分类风险。
附图说明
图1是本发明方法实施案例1的步骤流程示意图;
图2是实施案例1中生成单类分类模型的流程示意图;
图3是本发明系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例1:一种基于深度学习的文本单类分类系统,如图3所示,包括:文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块,其中:
文本数据获取模块用于获取单类文本数据II、待预测样本;
文本预处理模块,内设用于文本数据向量化处理的预训练模型,接收单类文本数据II、待预测样本,输出单类文本数据II、待预测样本的向量空间;
深度学习特征提取网络,内设训练好的深度学习特征提取网络,包括卷积计算层、池化层、全连接层,接收单类文本数据II、待预测样本的向量空间,输出单类文本数据II、待预测样本的特征;所述训练好的深度学习特征提取网络以单类文本数据I作为训练数据;
单类分类模型,内设训练好的单类分类模型,包括构建邻域覆盖单元、模糊邻域覆盖单元,接收单类文本数据II的特征,输出单类文本数据II的邻域覆盖;所述训练好的单类分类模型以单类文本数据I作为训练数据;
分类预测模块,计算待预测样本的特征与单类文本数据II的邻域覆盖的隶属度概率,根据概率的大小判断待预测样本与单类文本数据II属于同一类别的可能性。
基于上述的文本单类分类系统,发明了一种基于深度学习的文本单类分类方法,如图1、图2所示,包括以下步骤:
(1)文本预处理步骤:收集单类文本数据I分为目标数据和目标模板数据,通过预训练模型构造字符向量矩阵并对目标数据和目标模板数据进行向量化处理,得到目标文本向量空间和目标模板文本向量空间。具体步骤如下:
(1.1)收集数据:
一个实施例收集的单类文本数据为微博评论数据,理想的训练数据集应当包括“正面情感”和“负面情感”两个类别的样本,在本实施例中只取正面情感这一类数据,类别记为label,随机分为目标数据和目标模板数据,目标数据记为A,目标模板数据记为B。
一个实施例收集医疗数据文本,在医疗领域住院患者状态监控算法中,理想的训练数据集应当包括“正常状态”和“异常状态”两个类别的样本,但住院患者在绝大多数时间都处于正常的状态,采集异常情况下患者的各项指标数据是非常困难,在本实施例中,单类文本数据取医疗数据中“正常状态”类别数据,类别记为label,提取一部分单类文本数据作为目标数据A,另一部分单类文本数据作为目标模板数据B。
(1.2)构造字符向量矩阵:本实施例下载Bert通用预训练模型和其对应的词汇表,将目标数据A和目标模板数据B的文本切分成单个字符,验证其都包含在下载的词汇表中;在本实施例中E=21128为词汇表中所用的字符集数量,加载通用预训练模型,构造一个字符向量矩阵Q∈RE×l,其中l=128为预训练模型的文本嵌入维度。
(1.3)文本嵌入:在本实施例中,统计了所有文本长度在300字符左右,故将每条数据固定长度设为300,大于300的数据会被截断,小于300的数据填充统一的字符<pad>。假设一个文本的字符序列为[s1,s2,s3,…,sn](0<n<300),sn为文本中第n个字符,从字符向量矩阵查询该字符对应的字符向量为[ss1,ss2,…,ssn],ssn为文本中第n个字符文本嵌入,则根据字符序列和字符向量矩阵构造文本向量S∈Rn×l。以此类推,对于目标数据A文本嵌入最终输出目标文本向量空间对于目标模板数据B文本嵌入最终输出目标模板文本向量空间其中LA=50000为目标数据A的总数,LB=10000为目标模板数据B的总数。
(2)构建深度学习特征提取网络步骤:目标文本向量空间和目标模板文本向量空间经过卷积计算层、池化层、全连接层后输出目标特征和目标模板特征。具体步骤如下:
(2.1)卷积计算层:本实施例利用k=256个滤波器对输入文本向量进行三层卷积计算,经过多轮测试,当卷积核窗口中的字符数量h=3时效果最佳,一个滤波器一层卷积操作后输出特征ti为:
ti=f(W·Si:i+2+b) (1)
其中b∈R为偏差项,W∈R3×128为卷积核的权重矩阵,f是卷积核函数,Si:i+h-1为[ssi,ssi+1,…,ssi+h-1],ssi为第i个字符向量,i的范围[1,n+h-1]。一个文本向量S=[ss1,ss2,ss3,…,ssn]经一个滤波器一层卷积后获得特征T=[t1,t2,…,tn+1-h],同理得一个滤波器三层卷积后获得特征T'=[t1,t2,…,tn+3-3h],k个滤波器卷积后获得特征TT=[T'1,T'2,…,T'k],T'k表示第k个滤波器三层卷积后获得的特征。
(2.2)池化层:使用max-pooling池化层从每个滤波器输出的特征中取出最大值,最大值代表着最重要的信号,这种Pooling方式可以解决可变长度的句子输入问题,最终池化层对步骤(2.1)输出的特征T'进行下采样,保留最重要的特征
(2.3)全连接层:为了防止梯度消失,本实施例在全连接第一层引入Relu激活函数,经过测试,Relu得到的SGD的收敛速度会比sigmoid/tanh快很多,它的数学表达式是:
f(x)=1(x<0)(ex)+1(x>=0)(x) (4)
其中e是一个很小的常数。这样,既修正了数据分布,又保留了一些负轴的值,使得负轴信息不会全部丢失;同时为了防止模型过拟合,本实施例引入Dropout技术,经过交叉验证,隐含节点dropout率等于0.5的时候效果最好,0.5的时候dropout随机生成的网络结构最多。在本实施例中,通过全连接层对池化后的特征进行全连接得到特征V,并降维降低后续的计算量,输出特征向量V'为:
其中k=256为卷积核的个数,W'∈Rk×(k/2)为全连接层的权重矩阵。
(2.4)获取目标特征:将步骤(1.3)输出的目标文本向量空间和目标模板文本向量空间输入到步骤(2.1)卷积计算层中,输出目标特征和目标模板特征将目标特征和目标模板特征输入到(2.2)池化层中,输出目标特征和目标模板特征最后输入到步骤(2.3)全连接层中,输出目标特征和目标模板特征在通用预训练模型的基础上,通过深度学习网络在目标单类数据上进行微调,输出更准确的文本特征表示。
(3)生成单类分类模型步骤,具体步骤如下:
(3.1)构建邻域覆盖:基于样本之间的相似度或者距离构造邻域。本实施例采用异构欧氏重叠度量(HEOM)来测量样本距离,公式如下:
其中(x,y)是两个文本输入向量,m=128是输入向量的维,是输入向量维度ai处的权重,ai(x)和ai(y)为x,y在维度ai处的值,和为所有样本在维度ai处的最大值和最小值,表示样本x与y在维度ai处的距离,为了简化计算复杂度,本实施例设通过HEOM距离可以对附近的样本进行分组来构建邻域,即给定样本x,邻域O(x,η)={y|(x,y)≤η}由x周围的样本组成,η是邻域半径。对于一组数据样本{x1,x2,…,xn},每个样本邻域的并集形成一个覆盖范围,同质邻域的整合其共享同一类别即形成了全局数据分布的集合级近似值。
对于目标模板特征 为目标模板数据B的第LB个文本经过卷积后输出的特征向量,首先以特征vB1为邻域中心,分别计算d(vB1,vBi),i∈[1,LB]的距离,最远的距离为半径ηB1=max{d(vB1,vBi),i∈[1,LB]},构成vB1邻域O(vB1,ηB1),以此类推依次以特征vBi,i∈[1,LB]为邻域中心,得到目标模板邻域集目标模板邻域覆盖CB=<VB,OB>,LB个圆在空间上形成了密度不同的不规则面积。
(3.2)模糊邻域覆盖:邻域覆盖提供了数据分布的集合级近似,所有数据样本都会分布到邻域中,导致了数据空间的硬分区。为了区分不确定样本需要形成数据空间的软分区,本发明通过量化模糊隶属度为分类不确定的数据构建不确定类别映射。假设样本集为U={x1,x2,…,xn},样本集的邻域集合为OU={O(x1,η1),O(x2,η2),…,O(xn,ηn)},与样本邻域覆盖<U,OU>相比,模糊邻域覆盖由样本邻域模糊隶属函数组成其中表示邻域O(xi,ηi)的隶属度函数,简称为邻域隶属度函数用于衡量属于邻域的样本的可能性,其根据样本与邻域之间的距离进行计算。假设给定数据样本x和邻域O(xi,ηi),xi是邻域中心,根据x和xi之间的距离定义x属于O(xi,ηi)的可能性,计算公式如下:
其中d(x,xi)是x与xi之间的距离,η>0为邻域O(xi,ηi)的半径,λ≥1控制邻域内样本随距离的变化率,r=τ·ηi≥0,(0≤τ<1)表示距离偏差,如果d(x,xi)=(1+τ)·ηi,则即可通过调整距离偏差用于确定邻域内可能性0.5的位置,在本实施例中,设置λ=1,r=ηi/3。即x属于邻域O(xi,ηi)的可能性越大。根据邻域覆盖C=<U,OU>,模糊邻域覆盖样本x属于邻域C的概率:
基于邻域覆盖的隶属关系,样本数据属于邻域C所指定的类的概率:
Ulabel={x|x∈U,class(x)=label} (11)
对于目标特征 为目标数据A的第LA个文本经过卷积后输出的特征向量,首先求特征vA1在目标模板邻域集中每个子邻域的隶属度,输出模糊邻域覆盖则特征vA1属于邻域OB(属于类别label)的概率同理依次对vAi,i∈[1,LA]计算属于邻域OB(属于类别label)的概率,输出
(3.3)模型训练:根据步骤(2.3)输出的目标模板特征输入到步骤(3.1)中,以每个样本作为邻域中心,离邻域中心最远的样本的距离为半径,得到目标模板邻域集目标模板邻域覆盖CB=<VB,OB>;根据步骤(2.3)输出的目标特征将每个目标特征输入到步骤(3.2)中计算其模糊隶属度,得到其目标模糊邻域覆盖,再基于邻域覆盖的隶属关系,输出目标特征属于邻域CB所指定的类label的概率并计算其平均值,得到平均概率该平均值越高,意味着目标模板邻域越能准确描述该单类别的特征范围,模型损失值loss=1-P'label_A,根据损失值最小化不断迭代更新网络参数(W,b等神经网络中的权重),生成单类分类模型M,该单类分类模型M包括:将文本数据向量化处理预训练模型、训练好的深度学习特征提取网络、构建邻域覆盖及模糊邻域覆盖的分类模型。
单类分类预测步骤:
(4.1)构建标准邻域覆盖:根据步骤(3.3)输出的单类分类模型M,将步骤(1.1)收集的目标数据A和目标模板数据B汇总输入到单类分类模型M特征提取网络中,输出特征同时输入到步骤(3.1)中构建标准邻域覆盖再因为目标数据A和目标模板数据B属于类别label,推理得类别label的邻域覆盖Clabel=<VAB,OAB>。
(4.2)单类预测:根据步骤(4.1)构建的邻域覆盖Clabel=<VAB,OAB>。将待预测样本[q1,q2,…,qn]输入到单类分类模型M特征提取网络中,输出特征VQ∈R1×128,将特征输入到步骤(3.2)中计算特征VQ属于邻域Clabel的概率
一种,三分类:给定一组隶属度阈值{(α,β),0≤β<α≤1},在本实施例中,α=0.7,β=0.5,将样本q的三分类定义如下:
一个实施例的单类分类预测:
获取单类文本数据II,将单类文本数据II输入用于文本数据向量化处理的预训练模型输出单类文本数据II的向量空间,将单类文本数据II的向量空间输入训练好的深度学习特征提取网络输出单类文本数据II的特征,将单类文本数据II的特征输入用于构建邻域覆盖及模糊邻域覆盖的分类模型得到单类文本数据II的邻域覆盖;
获取待预测样本,将待预测样本输入用于文本数据向量化处理的预训练模型输出待预测样本的向量空间,将待预测样本向量空间输入训练好的深度学习特征提取网络输出待预测样本特征,计算待预测样本的特征与单类文本数据II的邻域覆盖的隶属度概率,根据概率的大小判断待预测样本与单类文本数据II属于同一类别的可能性。
不难理解,如果是对N个,3个及以上,类别的样本,可以取样本第1类、第2类、…、第N-1类类别样本,分别训练生成对应的单分类模型M1、M2、…、MN-1,获对应的领域覆盖Clabel1、Clabel2、…、ClabelN-1,利用待预测数据是否属于相应的邻域覆盖的概率对待预测数据进行类别预测。
不难理解,可以采用已知类别的混合了“正常状态”和“异常状态”两个类别的数据作为待预测数据,进行测试,将预测获得的类别与已知类别进行比较,测试预测效果。进一步调试类别预测中的隶属度阈值,或优化单分类模型。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (9)
1.一种基于深度学习的文本单类分类方法,其特征在于包括以下步骤:
文本预处理步骤:收集单类文本数据I分为目标数据和目标模板数据,通过预训练模型构造字符向量矩阵并对目标数据和目标模板数据进行向量化处理,得到目标文本向量空间和目标模板文本向量空间;
构建深度学习特征提取网络步骤:目标文本向量空间和目标模板文本向量空间经过卷积计算层、池化层、全连接层后输出目标特征和目标模板特征;
生成单类分类模型步骤:对目标模板特征构建邻域覆盖,得到目标模板邻域集和目标模板邻域覆盖;计算目标特征在目标模板邻域集的隶属度,输出模糊邻域覆盖,基于邻域覆盖的隶属关系,输出目标特征属于目标模板邻域覆盖的概率,并迭代更新网络参数,生成单类分类模型,该单类分类模型包括:将文本数据向量化处理预训练模型、训练好的深度学习特征提取网络、构建邻域覆盖及模糊邻域覆盖的分类模型;
单类分类预测步骤:将单类文本数据II输入单类分类模型,得到邻域覆盖,将待预测样本输入到单类分类模型中的预训练模型、深度学习特征提取网络,生成特征,计算输出特征属于邻域覆盖的概率P,根据概率P对待预测样本进行类别预测。
2.根据权利要求1所述的一种基于深度学习的文本单类分类方法,其特征在于,所述的单类文本数据为包含多种类别的数据中,数量较多的某一类别的数据。
3.根据权利要求1所述的一种属于深度学习的文本单类分类方法,其特征在于,所述的构建深度学习特征提取网络的卷积计算层采用256个滤波器对目标文本向量空间和目标模板文本向量空间进行三层卷积计算。
4.根据权利要求3所述的一种属于深度学习的文本单类分类方法,其特征在于,所述的邻域覆盖基于样本之间的相似度或者距离构造邻域,采用异构欧氏重叠度量(HEOM)来测量样本距离,形成全局数据分布的集合级近似值。
5.根据权利要求4所述的一种属于深度学习的文本单类分类方法,其特征在于,所述的模糊邻域覆盖由隶属度函数组成并取最大值。
6.根据权利要求4所述的一种属于深度学习的文本单类分类方法,其特征在于,所述的生成单类分类模型步骤中,计算输出目标特征属于目标模板邻域覆盖的概率的平均值,得到模型损失值,以损失值最小化迭代更新网络参数。
7.根据权利要求1-6任一权利要求所述的一种属于深度学习的文本单类分类方法,其特征在于,所述的类别预测为二分类,确定隶属度阈值,概率P>隶属度阈值,表示属于该单类;否则不属于该单类。
8.根据权利要求1-6任一权利要求所述的一种属于深度学习的文本单类分类方法,其特征在于,所述的类别预测为三分类,确定一组隶属度阈值{(α,β),0≤β<α≤1},当概率P≥α,则属于该单类;当β<概率P<α,则不确定该单类;当概率P≤β,则不属于该单类。
9.一种基于深度学习的文本单类分类系统,其特征在于包括:文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块,其中:
文本数据获取模块用于获取单类文本数据II、待预测样本;
文本预处理模块,内设用于文本数据向量化处理的预训练模型,接收单类文本数据II、待预测样本,输出单类文本数据II、待预测样本的向量空间;
深度学习特征提取网络,内设训练好的深度学习特征提取网络,包括卷积计算层、池化层、全连接层,接收单类文本数据II、待预测样本的向量空间,输出单类文本数据II、待预测样本的特征;所述训练好的深度学习特征提取网络以单类文本数据I作为训练数据;
单类分类模型,内设训练好的单类分类模型,包括构建邻域覆盖单元、模糊邻域覆盖单元,接收单类文本数据II的特征,输出单类文本数据II的邻域覆盖;所述训练好的单类分类模型以单类文本数据I作为训练数据;
分类预测模块,计算待预测样本的特征与单类文本数据II的邻域覆盖的隶属度概率,根据概率的大小判断待预测样本与单类文本数据II属于同一类别的可能性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010835617.0A CN112015894B (zh) | 2020-08-19 | 2020-08-19 | 一种基于深度学习的文本单类分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010835617.0A CN112015894B (zh) | 2020-08-19 | 2020-08-19 | 一种基于深度学习的文本单类分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015894A true CN112015894A (zh) | 2020-12-01 |
CN112015894B CN112015894B (zh) | 2024-03-26 |
Family
ID=73505023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010835617.0A Active CN112015894B (zh) | 2020-08-19 | 2020-08-19 | 一种基于深度学习的文本单类分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015894B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204820A (zh) * | 2023-04-24 | 2023-06-02 | 山东科技大学 | 一种基于稀有类挖掘的冲击危险性等级判别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070143038A1 (en) * | 2005-12-07 | 2007-06-21 | Siemens Corporate Research, Inc. | Evaluating Anomaly For One Class Classifiers In Machine Condition Monitoring |
US20090074259A1 (en) * | 2005-07-29 | 2009-03-19 | Madalina Baltatu | Automatic biometric identification based on face recognition and support vector machines |
US20190361994A1 (en) * | 2018-05-22 | 2019-11-28 | Adobe Inc. | Compositing Aware Digital Image Search |
CN110533102A (zh) * | 2019-08-30 | 2019-12-03 | 东北林业大学 | 基于模糊推理的单类分类方法以及分类器 |
US10552736B1 (en) * | 2019-03-06 | 2020-02-04 | Capital One Services, Llc | Counter data generation for data profiling using only true samples |
CN110866145A (zh) * | 2019-11-06 | 2020-03-06 | 辽宁工程技术大学 | 一种共同偏好辅助的深度单类协同过滤推荐方法 |
CN111460157A (zh) * | 2020-04-01 | 2020-07-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
-
2020
- 2020-08-19 CN CN202010835617.0A patent/CN112015894B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090074259A1 (en) * | 2005-07-29 | 2009-03-19 | Madalina Baltatu | Automatic biometric identification based on face recognition and support vector machines |
US20070143038A1 (en) * | 2005-12-07 | 2007-06-21 | Siemens Corporate Research, Inc. | Evaluating Anomaly For One Class Classifiers In Machine Condition Monitoring |
US20190361994A1 (en) * | 2018-05-22 | 2019-11-28 | Adobe Inc. | Compositing Aware Digital Image Search |
US10552736B1 (en) * | 2019-03-06 | 2020-02-04 | Capital One Services, Llc | Counter data generation for data profiling using only true samples |
CN110533102A (zh) * | 2019-08-30 | 2019-12-03 | 东北林业大学 | 基于模糊推理的单类分类方法以及分类器 |
CN110866145A (zh) * | 2019-11-06 | 2020-03-06 | 辽宁工程技术大学 | 一种共同偏好辅助的深度单类协同过滤推荐方法 |
CN111460157A (zh) * | 2020-04-01 | 2020-07-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
Non-Patent Citations (3)
Title |
---|
FAHIMEH ALAEI ET AL: "A New One-Class Classification Method Based on Symbolic Representation: Application to Document Classification", IEEE, pages 272 - 276 * |
KENTUCKY: "Text Classification Feature extraction using SVM", ISSN, vol. 7, no. 7, 31 July 2019 (2019-07-31), pages 3563 - 3569 * |
潘志松等: "One-Class分类器研究", 电子学报, vol. 37, no. 11, 15 November 2009 (2009-11-15), pages 2496 - 2503 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204820A (zh) * | 2023-04-24 | 2023-06-02 | 山东科技大学 | 一种基于稀有类挖掘的冲击危险性等级判别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112015894B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832647A (zh) | 异常流量检测系统及方法 | |
CN107526785A (zh) | 文本分类方法及装置 | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
CN113486578A (zh) | 一种工业过程中设备剩余寿命的预测方法 | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
Wang et al. | Patient admission prediction using a pruned fuzzy min–max neural network with rule extraction | |
Bhatt et al. | FRCT: fuzzy-rough classification trees | |
CN114330541A (zh) | 道路交通事故风险预测深度学习算法 | |
CN115474939A (zh) | 一种基于深度展开神经网络的孤独症谱系障碍识别模型 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN111477328A (zh) | 一种非接触式的心理状态预测方法 | |
Lauren et al. | A low-dimensional vector representation for words using an extreme learning machine | |
CN112015894A (zh) | 一种基于深度学习的文本单类分类方法及系统 | |
CN113849653A (zh) | 一种文本分类方法及装置 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
Abd El-Khalek et al. | A Robust Machine Learning Algorithm for Cosmic Galaxy Images Classification Using Neutrosophic Score Features. | |
Yap et al. | Compressing and improving fuzzy rules using genetic algorithm and its application to fault detection | |
CN108898157B (zh) | 基于卷积神经网络的数值型数据的雷达图表示的分类方法 | |
CN116415177A (zh) | 一种基于极限学习机的分类器参数辨识方法 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
CN115171842A (zh) | 基于证候信息的图神经网络中药推荐方法 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN110533080B (zh) | 一种基于模糊规则集的乳腺癌细胞图像分类方法 | |
Dani et al. | Survey on the use of CNN and Deep Learning in Image Classification | |
CN112765148A (zh) | 一种基于改进svm多分类的网络入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 310012 floor 1, building 1, No. 223, Yile Road, Xihu District, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |