CN114138971A - 一种基于遗传算法的极大多标签分类方法 - Google Patents

一种基于遗传算法的极大多标签分类方法 Download PDF

Info

Publication number
CN114138971A
CN114138971A CN202111435071.0A CN202111435071A CN114138971A CN 114138971 A CN114138971 A CN 114138971A CN 202111435071 A CN202111435071 A CN 202111435071A CN 114138971 A CN114138971 A CN 114138971A
Authority
CN
China
Prior art keywords
label
sample
text
word
neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111435071.0A
Other languages
English (en)
Inventor
李丽莎
马忠臣
毛启容
成鑫
陈松灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202111435071.0A priority Critical patent/CN114138971A/zh
Publication of CN114138971A publication Critical patent/CN114138971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于遗传算法的极大多标签分类方法,将文本转化为词向量并计算各样本文本的平均词向量;接着使用k‑means算法对文本词向量空间中的样本文本聚类,在各样本对应的簇内选择若干邻居标签;然后提取样本与语义标签的联合特征表示,即将样本邻居标签向量投影到低维空间中获得其邻居标签的低维特征表示,再结合卷积神经网络提取的样本文本特征从而获得样本与语义标签的联合特征表达;继而设计网络学习度量样本与语义标签联合特征表达的损失值;最后将该损失值创造性地指导遗传算法寻找与新样本最佳匹配的语义标签,并作为该样本的预测标签。本方法通过回归样本预测标签与真实标签的汉明距离间接的还原样本的真实标签,避免了在极大多标签分类问题中巨大计算资源与时间资源消耗。

Description

一种基于遗传算法的极大多标签分类方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于遗传算法的极大多标签分类方法。
背景技术
由于互联网内容的爆发式增多以及人们对大数据组织视图日渐增长的迫切需求,大规模多标签文本分类,即从数万级以上(即极大多标签)的类别空间中找到每个文本最相关标签子集的应用问题变得越来越重要。如电子商务中的商品分类,网页的标签分类,新闻的文本分类以及蛋白质的功能分类等。在计算资源有限的情况下,如何解决如此大规模的多标签分类问题是机器学习研究领域的一个重要挑战。
目前多标签文本分类方法主要分为:传统机器学习方法与基于深度学习的方法。传统机器学习的方法又包括算法适应的方法,即将原来单标签学习算法扩展为能够直接处理多标签分类问题的算法;和问题转换的方法,即将多标签分类问题转化为一个或多个单标签分类问题;而基于深度学习的方法也包括基于卷积神经网络(CNN)、基于循环神经网络(RNN)以及基于Transformer结构的多标签分类方法。
近年来基于深度学习的多标签文本分类方法备受瞩目,其中针对大规模多标签分类问题中的数据稀疏问题与巨大标签量级问题,有研究学者提出利用卷积神经网络解决大规模多标签分类问题。利用卷积神经网络模型的基本思想是对单词的词嵌入用不同的滤波器进行卷积操作,然后用最大池化的方法进行池化操作,最后连接一个全连接层进行softmax输出。
尽管基于卷积神经网络的多标签分类方法有很多优势,但是传统的卷积神经模型更适用于较小数据集的多标签文本分类。因为基于卷积神经网络的多标签分类模型的输出层往往是标签分类概率,当数据集中的标签数达到数万级以上后,这意味着基于卷积神经网络的模型的输出层将是数万以上的神经元,令模型的训练成本迅速增高。所以如何降低模型训练的时间和空间复杂度,提高模型的分类准确度,一直是理论研究和实践应用的难点。
由于在文本分类问题中可以假设同类文档的相似度较大,而不同类文档的相似度较小,于是有研究人员使用文本聚类的方法来解决大规模多标签文本分类问题。根据已知的训练数据的特征数据和标签,采用k-means算法对所述标签进行聚类,并根据聚类后标签训练所述分类模型。而一段文本的主题思想往往由其关键词决定,因此对于基于文本平均词向量的传统聚类方法,应该首先划分出关键词,再根据关键词进行聚类。而如何提取高准确度的关键词是文本挖掘邻域的一个重要研究方向。
发明内容
针对上述背景技术中存在的技术问题,本发明提出了一种基于遗传算法的极大多标签分类方法,对文本的平均词向量进行聚类从而得到文本的邻居标签,结合卷积神经网络提取的样本语义特征与投影到低维空间的样本邻居标签信息,通过回归样本邻居标签与样本真实标签间汉明距离的方式,得到遗传算法的损失值函数,然后在样本的邻居标签空间中利用遗传算法得到损失值最小即距离样本真实标签最近的邻居标签,最后将该邻居标签作为该样本的预测标签。本发明通过遗传算法的交叉变异获得比一般聚类算法准确度更高的多标签分类方法。具体技术方案如下:
本发明所采用的技术方案如下:
一种基于遗传算法的极大多标签分类方法,包括下列步骤:
步骤1,训练词向量:除去训练文本的特殊字符,构造连续词袋模型,利用连续词袋模型训练文本将单词转换为对应词向量;
步骤2,计算文本平均词向量:基于转换得到的词向量,计算每一条文本对应的平均词向量;
步骤3,基于平均词向量通过k-means算法寻找邻居标签:初始化聚类中心,以文本的标签类数为分类个数,训练得到聚类模型;在样本对应簇内为样本寻找若干邻居标签;
步骤4,训练损失值函数模型:以one-hot编码形式表示标签,将文本词向量与邻居标签向量作为输入,通过卷积神经网络提取文本的语义特征,通过全连接网络将邻居标签向量投影到低维空间,将提取的文本语义特征与投影到低维空间的标签信息通过全连接层回归样本邻居标签与真实标签的汉明距离,从而得到损失值函数模型;
步骤5,通过遗传算法预测样本标签:以样本的文本词向量与样本的邻居标签向量作为解空间,在解空间中通过遗传算法得到损失值最小的若干邻居标签,将这些邻居标签的概率经过平均后得到分类概率,通过变换得到样本的预测标签。
进一步,所述步骤1中使用连续词袋模型将文本训练成为词向量的具体过程如下:
步骤1.1,构造连续词袋模型,所述连续词袋模型包括输入层、隐藏层和输出层三层;
步骤1.2,计算隐藏层输出值h:
Figure BDA0003381343960000021
其中,W表示输入层到隐藏层的权重矩阵;x={x1,...,xV}表示输入的one-hot形式单词向量;
Figure BDA0003381343960000031
为权重矩阵W的第k行;xk为输入单词在one-hot编码中对应为1的值;
Figure BDA0003381343960000032
表示与输入层相关的单词的N维向量表示形式;
步骤1.3,计算输出层输出值,每一个单词的得分:
Figure BDA0003381343960000033
其中,
Figure BDA0003381343960000034
表示权重矩阵W′的第j列向量;权重矩阵W′={ω′ij}表示隐藏层到输出层的权重矩阵;ω′ij为第i行第j列的值;
步骤1.4,通过sigmoid函数计算单词的后验分布为:
Figure BDA0003381343960000035
其中,ωj、ωI分别表示为第j个单词与输入单词;yj表示输出层第j个神经单元的输出值;μj′为第j′个单词的得分;
将式(1)和式(2)带入式(3)得到:
Figure BDA0003381343960000036
步骤1.5,连续词袋模型的损失函数为:E=-log p(ωOI),计算损失函数关于得分μj的偏导数为:
Figure BDA0003381343960000037
其中,ωO为实际输出单词;当且仅当输出层的第j个神经单元为真实的输出单词时tj取值为1,否则tj取值为0;ej为输出层第j个单词的预测误差;
根据链式法则求出损失函数E关于权重矩阵W′元素ω′ij的偏导数为:
Figure BDA0003381343960000038
其中,hi为隐藏层第i个神经元的值;
因此采用随机梯度下降算法得到隐藏层到输出层权重的更新公式为:
Figure BDA0003381343960000041
其中,
Figure BDA0003381343960000042
分别为ωj更新前和更新后的输出向量;η为参数更新的学习速率;V为文本词汇量的大小;
步骤1.6,计算损失函数关于隐藏层hi的偏导数为:
Figure BDA0003381343960000043
其中,EH是词汇表中所有单层输出向量的和的N-dim向量,用于预测误差加权;
由式(1)变形可有:
Figure BDA0003381343960000044
其中,ωki为权重矩阵W第k行第i列的值;
因此,计算损失函数关于权重矩阵W的偏导数为:
Figure BDA0003381343960000045
利用张量乘积的方式,得到:
Figure BDA0003381343960000046
其中,x为one-hot编码的输入单词向量;
因此权重矩阵W的更新公式为:
Figure BDA0003381343960000047
其中,
Figure BDA0003381343960000048
分别是更新前后输入单词的向量表示;由此更新输入层到隐藏层的权重矩阵。
进一步,所述步骤2中平均词向量的计算方法为:
Figure BDA0003381343960000051
其中,W2C(·)是步骤1中训练模型得到的文本词向量转换函数;Xi表示构成文本X的第I个单词。
进一步,所述步骤3中使用k-means算法将文本聚成k类并寻找样本邻居标签的过程如下:
步骤3.1,在文本空间包含的n个文本词向量中,随机选取k个不同的文本词向量作为初始聚类中心;
步骤3.2,计算每个文本词向量xi与k个聚类中心的距离,将xi与最近的类中心归为一类,xi的类标签labelI表示为:
Figure BDA0003381343960000052
其中,mc表示第c类的中心;
步骤3.3,将每个类中所有点的均值作为新的类中心,类中心mc的更新方式为:
Figure BDA0003381343960000053
其中,Clusterc表示第c类,|Clusterc|是第c类包含的代表点的数目;
步骤3.4,重复步骤3.2和步骤3.3,直到所有类的中心不再变化;
步骤3.5,根据聚类情况,为样本在其对应簇内寻找若干邻居标签。
进一步,所述步骤4中训练损失值函数模型的过程如下:
步骤4.1,卷积神经网络包括卷积和池化两个部分;卷积获得的新特征ci表示为:
ci=gc(vTei:j+h-1) (16)
其中,ei表示当前文档中第i个单词对应的k维单词嵌入;e1:m=[e1,...,em]表示第i个字到第j个字的文本区域;v表示卷积过滤器;gc表示卷积层的非线性激活函数;
池化获得的新特征P(c)表示为:
Figure BDA0003381343960000054
其中,m表示一个文档含有的单词数;p表示获得的最大特征数量;
步骤4.2,通过一个全连接层将one-hot形式标签投影到低维空间,得到的新特征表示为:
ai=Wnli (18)
其中,a为邻居标签投影到低维空间的特征表示;li表示当前one-hot编码形式标签中第i个位置的元素值;Wn表示投影标签的权重矩阵;
步骤4.3,通过两层全连接层得到输出结果,表示为:
y=Wogh(Wh[P(c(1)),...,P(c(t)),a(1),...,a(q)]) (19)
其中,Wh表示隐藏层的权重矩阵,Wo表示输出层的权重矩阵;gh表示隐藏层的非线性激活函数;P(c(1)),...,P(c(t))为由卷积神经网络提取的所有文本语义特征;a(1),...,a(q)为向低维空间投影得到的所有标签信息;
步骤4.4,选取均方误差为损失函数,通过最小化损失函数优化模型参数,其损失函数表示为:
Figure BDA0003381343960000061
其中,yi为模型输出的标签向量;
Figure BDA0003381343960000062
表示样本邻居标签
Figure BDA0003381343960000063
与样本真实标签
Figure BDA0003381343960000064
的汉明距离;n表示样本的数量。
进一步,所述步骤5中通过遗传算法寻找样本最近标签的过程如下:
步骤5.1,在文本词向量与邻居标签向量空间中选择若干样本,随机产生单个交叉点,令若干样本在交叉点前后的向量序列交换;同时在文本词向量与邻居标签向量空间中再选择若干样本,随机产生单个变异点,令若干样本的变异点对应值发生一定大小改变;
步骤5.2,通过损失值函数模型计算得到各个样本的损失值,对于损失值的样本赋予较大被选择概率,依选择概率挑选样本,从而更新种群;
步骤5.3,依照种群个体损失值的大小选择损失值最低的若干个体对应的邻居标签,对选择的邻居标签进行概率平均得到样本的分类概率,样本的分类概率表示为:
Figure BDA0003381343960000065
其中,k表示挑选的样本个数;q表示标签的维度;
Figure BDA0003381343960000066
为预测样本第i个邻居标签向量第j位的值。
本发明的有益效果:
(1)传统的聚类方法对文本的平均词向量进行聚类,但实际上往往应该首先划分出关键词,再根据关键词进行聚类。针对此问题,本发明同样不划分文本关键词,但通过遗传算法的交叉变异产生距离真实标签更近的预测标签,从而得到准确率更高的分类效果。同时由于大规模多标签分类的特殊性,标签的量级往往是百万以上,因此基于神经网络、以one-hot编码标签作为输出的网络模型规模往往会非常大,消耗大量计算资源与时间资源。而结合遗传算法的多标签分类方法构造的损失值函数模型在输出层仅有一个神经元,大幅度降低了网络模型的规模。
(2)本发明结合了遗传算法提高了单独使用聚类算法的多标签分类方法的效果,遗传算法中遗传、交叉和变异的可能性扩大了解空间,使得该方法在普通聚类的基础上更有可能获得与真实标签更为接近的预测标签。
(3)本发明利用了深度神经网络极强的表达能力,通过回归样本预测标签与真实标签的汉明距离间接的还原样本的真实标签,从而避免了在大规模多标签分类问题中传统神经网络模型最后一层的全连接层需要连接超百万数量神经元的巨大计算资源与时间资源消耗。
附图说明
图1是基于卷积神经网络的损失值函数模型的训练流程图。
图2是基于遗传算法的预测样本标签过程的预测流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
本发明为了实现更高效、更精确的多标签分类任务,采用结合遗传算法的聚类模型获得文本的邻居标签,然后根据文本信息与邻居标签信息训练模型回归至邻居标签与真实标签的汉明距离,最后通过遗传算法启发式搜索最接近样本真实标签的标签,从而得到样本的预测标签。本发明主要包含五个步骤:训练文本词向量、计算文本平均词向量、聚类寻找样本邻居标签、训练损失值函数模型、通过遗传算法预测标签。本发明首先训练文本得到文本词向量;然后计算文本的平均词向量;接着根据文本的平均词向量,利用k-means算法对文本进行聚类,根据聚类情况得到样本的若干邻居标签;再根据样本的文本信息与样本的邻居标签训练损失值函数模型使其回归样本邻居标签与样本真实标签的汉明距离;最后将训练得到的损失值函数模型做为遗传算法中的损失值函数,通过启发式搜索解空间获得样本的预测标签。具体步骤如下:
步骤1,训练文本词向量:除去训练文本的特殊字符,构造连续词袋模型,将文本输入连续词袋模型,通过连续词袋模型将单词转换为对应词向量;连续词袋模型的训练过程如下:
步骤1.1,构造连续词袋模型:连续词袋模型分为输入层、隐藏层和输出层三层;
步骤1.2,计算隐藏层输出值:假设文本词汇量的大小为V,隐藏层的大小为N,相邻层的神经元是全连接的。输入层是一个用one-hot方式编码的单词向量x={x1,...,xV},其中只有一个xi为1,其余均为0。从输入层到隐藏层的权重值可以用一个V×N的权重矩阵W来表示,其中W矩阵的每一行代表的是一个与输入层相关的单词的N维向量表示形式
Figure BDA0003381343960000081
对于给定的一个上下文(一个单词),假设xk=1,xk′=0,其中k≠k’,那么隐藏层的输出值h可由下式(1)计算:
Figure BDA0003381343960000082
其中,xk为输入单词在one-hot编码中对应为1的值;
Figure BDA0003381343960000083
为权重矩阵W的第k行,
Figure BDA0003381343960000084
为输入词ωI的向量表示;
步骤1.3,计算输出层输出值:连接权重用N×V矩阵W′={ω′ij}来表示;由输入文本中的单词构成一个无重复的词表;通过式(2)可为词表中的每一个单词计算一个得分:
Figure BDA0003381343960000085
其中,μj为第j个单词的得分;
Figure BDA0003381343960000086
表示权重矩阵W′的第j列向量;
步骤1.4,计算单词后验分布:通过sigmoid函数可以计算单词的后验分布为:
Figure BDA0003381343960000087
其中,ωj、ωI分别表示为第j个单词与输入单词;yj表示输出层第j个神经单元的输出值,μj′第j′个单词的得分。
将式(1)和式(2)带入式(3)可以得到:
Figure BDA0003381343960000088
步骤1.5,更新隐藏层到输出层权重矩阵:该连续词袋模型的损失函数为:E=-logp(ωOI);
因此通过式(5)可计算损失函数关于得分μj的偏导数:
Figure BDA0003381343960000091
其中,ωO为实际输出单词;tj=1(j=j*),j*是输出层中实际输出单词的索引,即当且仅当输出层的第j个神经单元为真实的输出单词时tj的取值为1,其余情况都取值为0;ej为输出层第j个单词的预测误差;
根据链式法则求出损失函数E关于矩阵W′的元素ω′ij的偏导数为:
Figure BDA0003381343960000092
其中,hi为隐藏层第i个神经元的值;
因此采用随机梯度下降算法得到隐藏层到输出层权重的更新公式为:
Figure BDA0003381343960000093
其中,
Figure BDA0003381343960000094
为ωj更新前的输出向量;
Figure BDA0003381343960000095
为ωj更新后的输出向量;η为参数更新的学习速率。
步骤1.6,更新输入层到隐藏层权重矩阵:计算损失函数关于隐藏层hi的偏导数为:
Figure BDA0003381343960000096
其中,ω′ij为权重矩阵W′第i行第j列的值;EH是词汇表中所有单层输出向量的和的N-dim向量,用于预测误差加权;:=表示计算机编程语言中的“定义为”;
由式(1)变形可有:
Figure BDA0003381343960000097
其中,ωki为权重矩阵W第k行第i列的值;
因此,计算损失函数关于权重矩阵W的偏导数为:
Figure BDA0003381343960000101
利用张量乘积的方式,可以得到:
Figure BDA0003381343960000102
其中,x为one-hot编码的输入单词向量;
Figure BDA0003381343960000103
为张量积运算符。
因此权重矩阵W的更新公式为:
Figure BDA0003381343960000104
其中,
Figure BDA0003381343960000105
分别是更新前后输入单词的向量表示;
步骤2,基于步骤1中转换得到的文本词向量,计算文本平均词向量:文本的平均词向量由式(13)计算:
Figure BDA0003381343960000106
其中,W2C(·)是训练步骤1中模型得到的文本词向量转换函数即式(4);xi表示构成文本X的第i个单词。
步骤3,基于平均词向量聚类寻找文本的邻居标签:使用k-means算法将文本聚成k类并寻找邻居标签,具体过程如下:
步骤3.1,聚类中心初始化:在文本空间包含的n个文本词向量中,随机选取k个不同的文本词向量点,在后文中简称为点,作为初始聚类中心;
步骤3.2,类标签分配:分别计算每个文本词向量xi与k个聚类中心的距离,将xi与最近的类中心归为一类,xi的类标签labeli可由式(14)计算:
Figure BDA0003381343960000107
其中,mc表示第c类的中心。
步骤3.3,聚类中心更新:将每个类中所有点的均值作为新的类中心,类中心mc的更新表达式为式(15):
Figure BDA0003381343960000108
其中,Clusterc表示第c类,|Clusterc|是第c类包含的代表点的数目;
步骤3.4,重复步骤3.2和步骤3.3,直到所有类的中心不再变化;
步骤3.5,根据聚类情况,为样本在其对应簇内随机寻找若干邻居标签。
步骤4,训练损失值函数模型:通过卷积神经网络提取文本的语义特征,同时将样本的标签向量投影到低维空间,再通过两层全连接层训练回归样本邻居标签与样本真实标签间汉明距离的损失值函数模型,其训练流程如图1所示,训练损失值函数模型的过程如下:
步骤4.1,基于卷积神经网络提取文本语义特征:
卷积神经网络包括卷积和池化两个部分;卷积部分获得的新特征可由式(16)计算得到:
ci=gc(vTei:j+h-1) (16)
其中,
Figure BDA0003381343960000111
表示当前文档中第i个单词对应的k维单词嵌入;
Figure BDA0003381343960000112
表示第i个字到第j个字的文本区域;
Figure BDA0003381343960000113
表示卷积过滤器;gc表示卷积层的非线性激活函数。
池化部分获得的新特征可由式(17)计算得到:
Figure BDA0003381343960000114
其中,P(c)为特征映射后的元素;ci:j为卷积得到的特征中第i个到第j个元素;m表示一个文档含有的单词数;p表示获得的最大特征数量;
步骤4.2,投影标签向量到低维空间:
以one-hot编码表示步骤3中得到的邻居标签得到邻居标签向量,通过一个全连接层将邻居标签向量投影到低维空间,得到的新特征可由式(18)计算得到:
a=Wnli (18)
其中,a为邻居标签投影到低维空间的特征表示;li表示当前one-hot编码形式标签中第i个位置的元素值;Wn表示投影标签的权重矩阵;
步骤4.3,训练损失值函数模型:将提取的文本语义特征与投影到低维空间的标签信息连接两层全连接层得到输出层神经元结果,其值可由式(19)计算得到:
y=Wogh(Wh[P(c(1)),...,P(c(t)),a(1),...,a(q)]) (19)
其中,
Figure BDA0003381343960000115
表示隐藏层的权重矩阵;
Figure BDA0003381343960000116
表示输出层的权重矩阵;gh表示隐藏层的非线性激活函数;P(c(1)),...,P(c(t))为由卷积神经网络提取的所有文本语义特征;a(1),...,a(q)为向低维空间投影得到的所有标签信息;
步骤4.4,优化损失值函数模型参数:选取均方误差为损失函数,通过优化器最小化损失函数从而优化模型参数,其损失函数由式(20)给出:
Figure BDA0003381343960000121
其中,yi为模型输出的标签向量;
Figure BDA0003381343960000122
表示样本邻居标签
Figure BDA0003381343960000123
与样本真实标签
Figure BDA0003381343960000124
的汉明距离;n表示样本的数量。
步骤5,通过遗传算法预测标签:通过文本词向量、邻居标签向量的交叉与变异搜索得到解空间中距离样本真实标签最近的标签,其预测过程如图2所示,遗传算法的搜索过程如下:
步骤5.1,产生交叉变异:在文本词向量与邻居标签向量空间中以概率P1选择若干样本,随机产生单个交叉点,令所选取的若干样本在交叉点前后的向量序列交换;同时在文本词向量与邻居标签向量空间中再以概率P2选择若干样本,随机产生单个变异点,令所选取的若干样本的变异点对应值发生一定大小改变;
步骤5.2,迭代更新种群:将步骤4中训练得到的损失值函数模型作为遗传算法的损失值函数,通过损失值函数计算得到各个样本的损失值,赋予损失值小的样本较大被选择概率,然后根据轮盘赌算法挑选样本更新种群,迭代该过程若干次得到最终的种群;
步骤5.3,预测样本标签:依照最终的种群个体损失值的大小选择损失值最小的若干个体对应的邻居标签,对选择的邻居标签进行概率平均得到样本的分类概率,样本的分类概率可由式(21)计算得到:
Figure BDA0003381343960000125
其中,k表示挑选的样本个数;q表示标签的维度;
Figure BDA0003381343960000126
为预测样本第i个邻居标签向量第j位的值。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (6)

1.一种基于遗传算法的极大多标签分类方法,其特征在于,包括下列步骤:
步骤1,训练词向量:除去训练文本中的特殊字符,构造连续词袋模型,利用连续词袋模型训练文本将单词转换为对应词向量;
步骤2,计算文本平均词向量:基于转换得到的单词词向量,计算每一条文本对应的平均词向量;
步骤3,基于平均词向量通过k-means算法寻找邻居标签:初始化聚类中心,以文本的标签类数为分类个数,训练得到聚类模型;在样本对应簇内为样本寻找若干邻居标签;
步骤4,训练损失值函数模型:以one-hot编码形式表示样本标签,将文本词向量与邻居标签向量作为输入,通过卷积神经网络提取文本的语义特征,通过全连接网络将邻居标签向量投影到低维空间,将提取的文本语义特征与投影到低维空间的标签信息通过全连接层回归样本邻居标签与真实标签的汉明距离,从而得到损失值函数模型;
步骤5,通过遗传算法预测样本标签:以样本的文本词向量与样本的邻居标签向量作为解空间,在解空间中通过遗传算法得到损失值最小的若干邻居标签,将这些邻居标签的概率经过平均后得到分类概率,通过变换得到样本的预测标签。
2.根据权利要求1所述的一种基于遗传算法的极大多标签分类方法,其特征在于,所述步骤1中使用连续词袋模型训练词向量的具体过程如下:
步骤1.1,构造连续词袋模型,所述连续词袋模型包括输入层、隐藏层和输出层三层;
步骤1.2,计算隐藏层输出值h:
Figure FDA0003381343950000011
其中,W表示输入层到隐藏层的权重矩阵;x={x1,...,xV}表示输入的one-hot形式单词向量;
Figure FDA0003381343950000012
为权重矩阵W的第k行;xk为输入单词在one-hot编码中对应为1的值;
Figure FDA0003381343950000013
表示与输入层相关的单词的N维向量表示形式;
步骤1.3,计算输出层输出值,每一个单词的得分:
Figure FDA0003381343950000014
其中,
Figure FDA0003381343950000015
表示权重矩阵W′的第j列向量;权重矩阵W′={ω′ij}表示隐藏层到输出层的权重矩阵;
步骤1.4,通过sigmoid函数计算单词的后验分布为:
Figure FDA0003381343950000021
其中,ωj、ωI分别表示为第j个单词与输入单词;yj表示输出层第j个神经单元的输出值;μj′为第j′个单词的得分;
将式(1)和式(2)带入式(3)得到:
Figure FDA0003381343950000022
步骤1.5,连续词袋模型的损失函数为:E=-logp(ωOI),计算损失函数关于得分μj的偏导数为:
Figure FDA0003381343950000023
其中,ωO为实际输出单词;当且仅当输出层的第j个神经单元为真实的输出单词时tj取值为1,否则tj取值为0;ej为输出层第j个单词的预测误差;
根据链式法则求出损失函数E关于权重矩阵W′元素ω′ij的偏导数为:
Figure FDA0003381343950000024
其中,hi为隐藏层第i个神经元的值;
因此采用随机梯度下降算法得到隐藏层到输出层权重的更新公式为:
Figure FDA0003381343950000025
其中,
Figure FDA0003381343950000026
分别为ωj更新前和更新后的输出向量;η为参数更新的学习速率;V为文本词汇量的大小;
步骤1.6,计算损失函数关于隐藏层hi的偏导数为:
Figure FDA0003381343950000031
其中,EH是词汇表中所有单层输出向量的和的N-dim向量,用于预测误差加权;
由式(1)变形可有:
Figure FDA0003381343950000032
其中,ωki为权重矩阵W第k行第i列的值;
因此,计算损失函数关于权重矩阵W的偏导数为:
Figure FDA0003381343950000033
利用张量乘积的方式,得到:
Figure FDA0003381343950000034
其中,x为one-hot编码的输入单词向量;
因此权重矩阵W的更新公式为:
Figure FDA0003381343950000035
其中,
Figure FDA0003381343950000036
分别是更新前后输入单词的向量表示;由此更新输入层到隐藏层的权重矩阵。
3.根据权利要求2所述的一种基于遗传算法的极大多标签分类方法,其特征在于,所述步骤2中平均词向量的计算方法为:
Figure FDA0003381343950000037
其中,W2C(·)是步骤1中训练模型得到的词向量转换函数;xi表示构成文本X的第i个单词。
4.根据权利要求1所述的一种基于遗传算法的极大多标签分类方法,其特征在于,所述步骤3中使用k-means算法将文本聚成k类并寻找样本邻居标签的过程如下:
步骤3.1,在文本空间包含的n个文本词向量中,随机选取k个不同的文本词向量作为初始聚类中心;
步骤3.2,计算每个文本词向量xi与k个聚类中心的距离,将xi与最近的类中心归为一类,xi的类标签labeli表示为:
Figure FDA0003381343950000041
其中,mc表示第c类的中心;
步骤3.3,将每个类中所有点的均值作为新的类中心,类中心mc的更新方式为:
Figure FDA0003381343950000042
其中,Clusterc表示第c类,|Clusterc|是第c类包含的代表点的数目;
步骤3.4,重复步骤3.2和步骤3.3,直到所有类的中心不再变化;
步骤3.5,根据聚类情况,为样本在其对应簇内寻找若干邻居标签。
5.根据权利要求1所述的一种基于遗传算法的极大多标签分类方法,其特征在于,所述步骤4中训练损失值函数模型的过程如下:
步骤4.1,卷积神经网络包括卷积和池化两个部分;卷积获得的新特征ci表示为:
ci=gc(vTei:j+h-1) (16)
其中,ei表示当前文档中第i个单词对应的k维单词嵌入;e1:m=[e1,...,em]表示第i个字到第j个字的文本区域;v表示卷积过滤器;gc表示卷积层的非线性激活函数;
池化获得的新特征P(c)表示为:
Figure FDA0003381343950000043
其中,m表示一个文档含有的单词数;p表示获得的最大特征数量;
步骤4.2,通过一个全连接层将one-hot形式标签投影到低维空间,得到的新特征表示为:
ai=Wnli (18)
其中,a为邻居标签投影到低维空间的特征表示;li表示当前one-hot编码形式标签中第i个位置的元素值;Wn表示投影标签的权重矩阵;
步骤4.3,通过两层全连接层得到输出结果,表示为:
y=Wogh(Wh[P(c(1)),...,P(c(t)),a(1),...,a(q)]) (19)
其中,Wh表示隐藏层的权重矩阵,Wo表示输出层的权重矩阵;gh表示隐藏层的非线性激活函数;P(x(1)),...,P(x(t))为由卷积神经网络提取的所有文本语义特征;a(1),...,a(q)为向低维空间投影得到的所有标签信息;
步骤4.4,选取均方误差为损失函数,通过最小化损失函数优化模型参数,其损失函数表示为:
Figure FDA0003381343950000051
其中,yi为模型输出的标签向量;
Figure FDA0003381343950000052
表示样本邻居标签
Figure FDA0003381343950000053
与样本真实标签
Figure FDA0003381343950000054
的汉明距离;n表示样本的数量。
6.根据权利要求1所述的一种基于遗传算法的极大多标签分类方法,其特征在于,所述步骤5中通过遗传算法寻找样本最近标签的过程如下:
步骤5.1,在文本词向量与邻居标签向量空间中选择若干样本,随机产生单个交叉点,令若干样本在交叉点前后的向量序列交换;同时在文本词向量与邻居标签向量空间中再选择若干样本,随机产生单个变异点,令若干样本的变异点对应值发生一定大小改变;
步骤5.2,通过损失值函数模型计算得到各个样本的损失值,对于损失值的样本赋予较大被选择概率,依选择概率挑选样本,从而更新种群;
步骤5.3,依照种群个体损失值的大小选择损失值最低的若干个体对应的邻居标签,对选择的邻居标签进行概率平均得到样本的分类概率,样本的分类概率表示为:
Figure FDA0003381343950000055
其中,k表示挑选的样本个数;q表示标签的维度;
Figure FDA0003381343950000056
为预测样本第i个邻居标签向量第j位的值。
CN202111435071.0A 2021-11-29 2021-11-29 一种基于遗传算法的极大多标签分类方法 Pending CN114138971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111435071.0A CN114138971A (zh) 2021-11-29 2021-11-29 一种基于遗传算法的极大多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111435071.0A CN114138971A (zh) 2021-11-29 2021-11-29 一种基于遗传算法的极大多标签分类方法

Publications (1)

Publication Number Publication Date
CN114138971A true CN114138971A (zh) 2022-03-04

Family

ID=80389328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111435071.0A Pending CN114138971A (zh) 2021-11-29 2021-11-29 一种基于遗传算法的极大多标签分类方法

Country Status (1)

Country Link
CN (1) CN114138971A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN114726870A (zh) * 2022-04-14 2022-07-08 福建福清核电有限公司 基于可视化拖拽的混合云资源编排方法、系统和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN114726870A (zh) * 2022-04-14 2022-07-08 福建福清核电有限公司 基于可视化拖拽的混合云资源编排方法、系统和电子设备
CN114726870B (zh) * 2022-04-14 2024-05-14 福建福清核电有限公司 基于可视化拖拽的混合云资源编排方法、系统和电子设备

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110309306B (zh) 一种基于wsd层级记忆网络的文档建模分类方法
JP6265921B2 (ja) テキストの意味的処理のための方法、装置および製品
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN111914054A (zh) 用于大规模语义索引的系统和方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
Rodrigues et al. Deep hashing for multi-label image retrieval: a survey
CN112308326B (zh) 一种基于元路径和双向编码器的生物网络链接预测方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN111125411A (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN114138971A (zh) 一种基于遗传算法的极大多标签分类方法
Li et al. DAHP: Deep attention-guided hashing with pairwise labels
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
Han et al. Generalizing long short-term memory network for deep learning from generic data
Zheng et al. Attribute augmented network embedding based on generative adversarial nets
Ding et al. The research of text mining based on self-organizing maps
Li Modeling winner-take-all competition in sparse binary projections
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
Ye et al. TS2V: A transformer-based Siamese network for representation learning of univariate time-series data
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法
Selvi et al. Topic categorization of Tamil news articles
Qian et al. Label correlations-based multi-label feature selection with label enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination