CN111552807B - 一种短文本多标签分类方法 - Google Patents

一种短文本多标签分类方法 Download PDF

Info

Publication number
CN111552807B
CN111552807B CN202010303127.6A CN202010303127A CN111552807B CN 111552807 B CN111552807 B CN 111552807B CN 202010303127 A CN202010303127 A CN 202010303127A CN 111552807 B CN111552807 B CN 111552807B
Authority
CN
China
Prior art keywords
text
label
vector
output
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010303127.6A
Other languages
English (en)
Other versions
CN111552807A (zh
Inventor
金佳佳
丁锴
李建元
陈涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinjiang Technology Co ltd
Original Assignee
Yinjiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinjiang Technology Co ltd filed Critical Yinjiang Technology Co ltd
Priority to CN202010303127.6A priority Critical patent/CN111552807B/zh
Publication of CN111552807A publication Critical patent/CN111552807A/zh
Application granted granted Critical
Publication of CN111552807B publication Critical patent/CN111552807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种短文本多标签分类方法,其具体步骤如下:S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量;S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。本发明解决了短文本信息不足而无法准确预测所有标签的问题,提高文本多标签分类的准确性。

Description

一种短文本多标签分类方法
技术领域
本发明属于自然语言处理领域,涉及一种短文本多标签分类方法。
背景技术
多标签分类在文本、图像、生物基因功能和视频语义标注等方面得到了广泛的应用。与单标签分类相比,多标签分类更符合现实世界的客观规律,是自然语言处理领域(NLP)的一项重要任务,目标是为数据集中的每个实例分配多个标签。短文本的稀疏性导致其多标签分类相较与长文本多标签分类存在样本真实标签信息不足的问题,很难根据短文本准确预测所有标签。因此短文本多标签分类模型在训练学习时需要更多信息预测更多标签,防止某些特征信息不足容易忽略真实标签。
目前,多标签分类的相关研究工作可以分为三类:一阶算法、二阶算法和高阶算法。一阶算法把多标签分解成多个独立的二分类问题,不考虑多标签之间的相关性;二阶算法考虑标签之间的成对关联关系,比如为相关标签和不相关标签排序。由于二阶策略一定程度上利用了标签相关性,因此,基于二阶策略的多标签分类算法可以获得较好的泛化性能。然而,在实际的应用当中,标签相关性一般超出了二阶相关;高阶算法通过挖掘所有类别标签集合或标签子集之间的相关性来解决多标签学习问题,试图通过假设所有样本都相关来全局地利用标签相关性,但是在许多情况下,使用全局标签相关性学习的多标签分类器的分类效果不是非常有效的,同时在计算上要求更高。
随着文本数据的大量产生,人们针对文本的多标签分类技术做了大量探索和实践。专利申请号CN 201410310719.5提出了一种多标签文本分类方法及系统,该方法通过选取使得后验概率最大的标签子集作为待分类文档的分类结果,具有总体性能高及计算量小的特点。专利申请号CN 201510114326.1提出了一种多标签分类方法及相应装置,该方法利用问题转换算法将多标签分类问题转换成多个单标签分类问题。目前的多标签分类方法没有学习到标签之间的依赖关系,解决不了短文本信息不足而无法预测所有标签的问题。
发明内容
针对上述背景技术介绍中存在的问题,本发明的目的在于提供了一种短文本多标签分类方法,解决了短文本信息不足而无法准确预测所有标签的问题,提高文本多标签分类的准确性。
本发明采用的技术方案是:
一种短文本多标签分类方法,其具体步骤如下:
S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量;
S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;
S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;
S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;
S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。
进一步,步骤S1中的文本预处理的具体步骤包括:
S11、将收集到的短文本进行清洗得到字符级短文本数据S;
S12、构建词汇表:将步骤S11输出的短文本数据S中的字符整理成集合作为模型输入的词汇表Cx={<s>:0,</s>:1,unk:2,...,x:x_size},同时将收集的短文本数据标签整理成集合作为模型输出的词汇表Cy={<s>:0,</s>:1,...,y:y_size},其中<s>为开始标识,</s>为结束标识,unk为未知字符标识,x为短文本数据中的字符,y为短文本数据对应的标签,x_size为短文本数据的字符总数,y_size为短文本数据的标签总数;
S13、构建标签关系数据集:假设一个短文本数据对应多个标签,则定义这些标签相互存在联系,以此类推,对所有短文本数据对应的标签以成对形式整理为标签关系数据集label∈RL×2,其中L为有关系标签的总数;
S14、文本嵌入:假设一个短文本数据预处理后为
Figure BDA0002454749240000031
对应标签集为/>
Figure BDA0002454749240000032
其中lx为固定的文本长度,ly为标签集长度,则根据步骤S12输出的词汇表Cx,Cy构造矩阵,文本矩阵为
Figure BDA0002454749240000033
标签集矩阵为/>
Figure BDA0002454749240000034
将标签集矩阵转为one-hot形式,即Yone-hot∈Ry_siz×e1;同时利用WordEmbedding给文本矩阵每个字符分配一个固定长度为lw的向量表示,得到文本向量/>
Figure BDA0002454749240000035
给Cy中所有标签分配一个固定长度为lw的向量表示,即标签集向量/>
Figure BDA0002454749240000036
进一步,步骤S11中短文本清洗包括数据去重、删除相似数据、去停用词。
进一步,步骤S2的具体步骤如下:
S21、创建q,k,v三个矢量:初始化三个变量
Figure BDA0002454749240000037
根据步骤S14输出的文本向量得到/>
Figure BDA0002454749240000038
Figure BDA0002454749240000039
S22、计算自注意力:首先计算文本中第一个词的自我关注,第一个得分score=q1·k1,第二个得分score=q1·k2,以此类推第lx个得分
Figure BDA0002454749240000041
将/>
Figure BDA0002454749240000042
使梯度保持稳定,其中bk为k的维度;
S23、Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤S22输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
S24、输出文本向量:通过softmax将步骤S23输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1,即第一个词的向量,以此类推新文本向量
Figure BDA0002454749240000043
Figure BDA0002454749240000044
output=attention×v (2)
其中attention为分数标准化,output为输出。
进一步,步骤S2还可以采用多头注意力机制学习文本内部的依赖关系,根据预设注意力头的数量,重复步骤S21至步骤S24,将每次得到的文本向量合并并输出最终的新文本向量。
进一步,步骤S3的具体步骤如下:
S31、构建图网络:初始化一个零矩阵O∈Ry_size×y_size,根据步骤S13输出的标签关系数据集label,通过公式A=O[labelL[0],labelL[1]]=1构建一个无向图,其中labeLl[0]为labelL的第一个值,labelL[1]为labelL的第二个值,如假设label1=[1,3],使零矩阵O的第一行第三列值为1,即A=O[1,3]=1;
S32、标签注意力层:根据步骤S31输出的图网络A,对每个顶点逐个计算它的邻居们和它自己之间的注意力系数;对于顶点i,与其邻居j∈Ni之间的注意力系数eij为:
Figure BDA0002454749240000051
即一个共享参数
Figure BDA0002454749240000052
对顶点进行特征增强,并与邻居顶点相乘映射到一个实数αij上,最后根据计算好的注意力系数进行特征加权求和,即为顶点(标签)的新特征向量表示:
Figure BDA0002454749240000053
其中σ为激活函数,最终输出新的标签集向量
Figure BDA0002454749240000054
进一步,步骤S32标签注意力层还可以采用多头注意力机制,根据预设注意力头的数量,训练不同的共享参数,重复步骤S32,将每次得到的标签集向量合并并降维,输出最终的新标签集向量。
进一步,步骤S4的具体步骤如下:
S41、构建文本标签向量:将步骤S24输出的文本向量与步骤S32输出的标签集向量进行点乘,输出文本标签向量
Figure BDA0002454749240000055
S42、全连接层:将步骤S41输出的文本标签向量
Figure BDA0002454749240000056
通过全连接层进行降维,得到文本标签向量X_Y'∈R1×y_size
S43、目标函数:将步骤S42输出的文本标签向量X_Y'∈R1×y_size与步骤S14输出的Yone-hot∈Ry_size×1进行对齐,计算其损失值,损失函数如下:
Figure BDA0002454749240000057
根据损失值不断迭代更新网络参数,生成文本多标签分类模型M。
本发明与现有技术相比,其显著优点包括:
1、本发明采用的图网络模型,学习每个标签之间的依赖关系,更好地考虑标签之间的相关性,解决了短文本信息不足而无法准确预测所有标签的问题。
2、本发明采用注意力机制与图网络结合的方法,可自动捕获不同标签之间的权重关系,学习每个标签之间的依赖程度,使学习到的标签向量更加丰富全面,提高文本多标签分类的准确性。
附图说明
图1是本发明采用的技术方案流程图;
图2是本发明采用的图注意力神经网络计算流程图。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
参见图1,本实施例提供了一种短文本多标签分类方法,其具体步骤如下:
S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量;其具体步骤包括:
S11、将收集到的短文本进行清洗得到字符级短文本数据S,其中短文本清洗包括数据去重、删除相似数据、去停用词(数字、日期、标点符号等干扰信息);本实施例将法律网上收集的10万条短问题数据(法律咨询问题带有领域标签)去重复数据,用杰卡德算法删除相似度80%的数据,同时去停用词(数字、日期、标点符号等干扰信息),得到字符级短文本数据S。如果是特定领域短文本数据无自带标签,需要自行打标签。
S12、构建词汇表:将步骤S11输出的短文本数据S中的字符整理成集合作为模型输入的词汇表Cx={<s>:0,</s>:1,unk:2,...,x:x_size},同时将收集的短文本数据标签整理成集合作为模型输出的词汇表Cy={<s>:0,</s>:1,...,y:y_size},其中<s>为开始标识,</s>为结束标识,unk为未知字符标识,x为短文本数据中的字符,y为短文本数据对应的标签,x_size为短文本数据的字符总数,y_size为短文本数据的标签总数;本实施例x_size=5000,y_size=86。
S13、构建标签关系数据集:假设一个短文本数据对应标签集为{y1,y3,y7},则可定义为y1与y3,y1与y7,y3与y7标签存在联系,以此类推,对所有短文本数据对应的标签集分别以[1,3],[1,7],[3,7]形式整理为标签关系数据集label∈RL×2,其中L为有关系标签的总数,本实施例L=348;
S14、文本嵌入:假设一个短文本数据预处理后为
Figure BDA0002454749240000071
对应标签集为/>
Figure BDA0002454749240000072
其中lx为固定的文本长度(文本长度不足补0),ly为标签集长度,则根据步骤S12输出的词汇表Cx,Cy构造矩阵,文本矩阵为/>
Figure BDA0002454749240000073
标签集矩阵为/>
Figure BDA0002454749240000074
将标签集矩阵转为one-hot(独热编码)形式Yone-hot∈Ry_size×1,即用y_size位状态寄存器编码y_size个状态,这些寄存器位中只有一位有效以1表示,其余为0;同时利用WordEmbedding(单词映射函数)给文本矩阵每个字符分配一个固定长度为lw的向量表示,得到文本向量/>
Figure BDA0002454749240000075
给Cy中所有标签分配一个固定长度为lw的向量表示,即标签集向量/>
Figure BDA0002454749240000076
本实施例中lx=160,ly=6,Yone-hot∈R86×1,lw=256,X”∈R160×256,Y”∈R86×256
S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;其具体步骤如下:
S21、创建q,k,v三个矢量:初始化三个变量
Figure BDA0002454749240000077
根据步骤S14输出的文本向量得到/>
Figure BDA0002454749240000078
Figure BDA0002454749240000079
本实施例采用多头自注意力机制,经测试采用8头自注意力机制效果更好,初始化三个变量WQ,WK,WV∈R256×256并切分成8等分,即WQ,WK,WV∈R8×(256×32),根据步骤S14输出的文本向量得到:
q=X″×WQ=[q1 q2 … q8]∈R8×(160×32)
k=X″×WK=[k1 k2 … k8]∈R8×(160×32)
v=X″×WV=[v1 v2 … v8]∈R8×(160×32)
S22、计算自注意力:首先计算文本中第一个词的自我关注,第一个得分score=q1·k1,第二个得分score=q1·k2,以此类推第lx个得分
Figure BDA0002454749240000081
将/>
Figure BDA0002454749240000082
使梯度保持稳定,其中bk为k的维度;本实施例首先计算文本中第一个词第一头(q1,k1,v1)的自我关注,第一个得分score=q11·k11,第二个得分score=q11·k12,以此类推第160个得分score=q11·k1160,将/>
Figure BDA0002454749240000083
(其中bk=256为k的维度)使梯度保持稳定;
S23、Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤S22输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;本实施例对k1进行求和为key_mask,小数字为-2047,即Key Masking机制考虑到了补0的位置不参与后续计算,因此在补0的位置上赋予一个极小值;
S24、输出文本向量:通过softmax将步骤S23输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1,即第一个词的向量,以此类推新文本向量
Figure BDA0002454749240000084
Figure BDA0002454749240000085
output=attention×v (2)
其中attention为分数标准化,output为输出;
本实施例由softmax分数乘以v1为z1(即第一个词第一头的编码向量),以此类推第一头文本的编码向量X″′1=[z1 z2 … z160]∈R160×32,将第二头至第八头重复步骤S22和步骤S23,得到文本编码向量X″′=[X″′1 X″′2 … X″′8]∈R8×(160×32),同时将8头文本编码向量在对应的列向量处进行拼接输出文本编码向量X″′∈R160×256
S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;其具体步骤如下:
S31、构建图网络:初始化一个零矩阵O∈Ry_size×y_size,根据步骤S13输出的标签关系数据集label,通过公式A=O[labelL[0],labelL[1]]=1构建一个无向图,其中labelL[0]为labelL(长度为2的列表)的第一个值,labelL[1]为labelL的第二个值,如假设label1=[1,3](标签1与标签3存在联系),使零矩阵O的第一行第三列值为1,即A=O[1,3]=1;本实施例零矩阵O∈R86×86
S32、标签注意力层:根据步骤S31输出的图网络A,对每个顶点逐个计算它的邻居们和它自己之间的注意力系数;对于顶点i,与其邻居j∈Ni之间的注意力系数eij为:
Figure BDA0002454749240000091
即一个共享参数
Figure BDA0002454749240000092
对顶点进行特征增强,并与邻居顶点相乘映射到一个实数αij上,最后根据计算好的注意力系数进行特征加权求和,即为顶点(标签)的新特征向量表示:
Figure BDA0002454749240000093
其中σ为激活函数,最终输出新的标签集向量表示
Figure BDA0002454749240000094
本实施例采用多头标签注意力层,经测试采用6头标签注意力层效果更好,即6个共享参数
Figure BDA0002454749240000095
分别对顶点进行特征增强,得到顶点(标签)的新特征向量表示:/>
Figure BDA0002454749240000101
最后将新特征向量表示在对应的列向量处进行拼接得到Y”'∈R86×(256×6),同时进行降维输出新的标签向量表示Y”'∈R86×256
S4、利用目标函数训练分类器训练文本标签向量得到文本多标签分类模型;其具体步骤如下:
S41、构建文本标签向量:将步骤S24输出的文本向量
Figure BDA0002454749240000102
与步骤S32输出的标签向量/>
Figure BDA0002454749240000103
进行点乘,输出文本标签向量/>
Figure BDA0002454749240000104
本实施例将步骤S24输出的文本向量X”'∈R160×256与步骤S32输出的标签向量Y”'∈R86×256进行点乘,输出文本标签向量X_Y∈R160×86
S42、全连接层:将步骤S41输出的文本标签向量
Figure BDA0002454749240000105
通过全连接层进行降维,得到文本标签向量X_Y'∈R1×y_size;本实施例将步骤S41输出的文本标签向量X_Y∈R160×86通过全连接层进行降维,得到文本标签向量X_Y'∈R1×86
S43、目标函数:将步骤S42输出的文本标签向量X_Y'∈R1×y_size与步骤S14输出的Yone-hot∈Ry_size×1进行对齐,计算其损失值,损失函数如下:
Figure BDA0002454749240000106
根据损失值不断迭代更新网络参数,生成文本多标签分类模型M;
本实施例将步骤S42输出的文本标签向量X_Y'∈R1×86与步骤S14输出的Yone-hot∈R86×1进行对齐,计算其损失值,损失函数如下:
Figure BDA0002454749240000107
根据损失值不断迭代更新网络参数,生成文本多标签分类模型M。
S5、加载步骤S43输出的文本多标签分类模型M,将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类,从而实现多标签预测。

Claims (8)

1.一种短文本多标签分类方法,其具体步骤如下:
S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量及标签关系数据集;
S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;
S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;
S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;
S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。
2.根据权利要求1所述的一种短文本多标签分类方法,其特征在于:步骤S1中的文本预处理的具体步骤包括:
S11、将收集到的短文本进行清洗得到字符级短文本数据S;
S12、构建词汇表:将步骤S11输出的短文本数据S中的字符整理成集合作为模型输入的词汇表Cx={<s>:0,</s>:1,unk:2,...,x:x_size},同时将收集的短文本数据标签整理成集合作为模型输出的词汇表Cy={<s>:0,</s>:1,...,y:y_size},其中<s>为开始标识,</s>为结束标识,unk为未知字符标识,x为短文本数据中的字符,y为短文本数据对应的标签,x_size为短文本数据的字符总数,y_size为短文本数据的标签总数;
S13、构建标签关系数据集:假设一个短文本数据对应多个标签,则定义这些标签相互存在联系,以此类推,对所有短文本数据对应的标签以成对形式整理为标签关系数据集label∈RL×2,其中L为有关系标签的总数;
S14、文本嵌入:假设一个短文本数据预处理后为
Figure QLYQS_1
对应标签集为/>
Figure QLYQS_2
其中lx为固定的文本长度,ly为标签集长度,则根据步骤S12输出的词汇表Cx,Cy构造矩阵,文本矩阵为
Figure QLYQS_3
标签集矩阵为/>
Figure QLYQS_4
将标签集矩阵转为one-hot形式,即Yone-hot∈Ry_size×1;同时利用WordEmbedding给文本矩阵每个字符分配一个固定长度为lw的向量表示,得到文本向量/>
Figure QLYQS_5
给Cy中所有标签分配一个固定长度为lw的向量表示,即标签集向量/>
Figure QLYQS_6
3.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S11中短文本清洗包括数据去重、删除相似数据、去停用词。
4.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S2的具体步骤如下:
S21、创建q,k,v三个矢量:初始化三个变量
Figure QLYQS_7
根据步骤S14输出的文本向量得到/>
Figure QLYQS_8
Figure QLYQS_9
S22、计算自注意力:首先计算文本中第一个词的自我关注,第一个得分score=q1·k1,第二个得分score=q1·k2,以此类推第lx个得分
Figure QLYQS_10
将/>
Figure QLYQS_11
使梯度保持稳定,其中bk为k的维度;
S23、Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤S22输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
S24、输出文本向量:通过softmax将步骤S23输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1,即第一个词的向量,以此类推新文本向量
Figure QLYQS_12
Figure QLYQS_13
output=attention×v (2)
其中attention为分数标准化,output为输出。
5.根据权利要求4所述的一种短文本多标签分类方法,其特征在于:所述步骤S2还可以采用多头注意力机制学习文本内部的依赖关系,根据预设注意力头的数量,重复步骤S21至步骤S24,将每次得到的文本向量合并并输出最终的新文本向量。
6.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S3的具体步骤如下:
S31、构建图网络:初始化一个零矩阵O∈Ry_size×y_size,根据步骤S13输出的标签关系数据集label,通过公式A=O[labelL[0],labelL[1]]=1构建一个无向图,其中labeLl[0]为labelL的第一个值,labelL[1]为labelL的第二个值,如假设label1=[1,3],使零矩阵O的第一行第三列值为1,即A=O[1,3]=1;
S32、标签注意力层:根据步骤S31输出的图网络A,对每个顶点逐个计算它的邻居们和它自己之间的注意力系数;对于顶点i,与其邻居j∈Ni之间的注意力系数eij为:
Figure QLYQS_14
即一个共享参数
Figure QLYQS_15
对顶点进行特征增强,并与邻居顶点相乘映射到一个实数αij上,最后根据计算好的注意力系数进行特征加权求和,即为顶点的新特征向量表示:
Figure QLYQS_16
其中σ为激活函数,最终输出新的标签集向量
Figure QLYQS_17
7.根据权利要求6所述的一种短文本多标签分类方法,其特征在于:所述步骤S32标签注意力层还可以采用多头注意力机制,根据预设注意力头的数量,训练不同的共享参数,重复步骤S32,将每次得到的标签集向量合并并降维,输出最终的新标签集向量。
8.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S4的具体步骤如下:
S41、构建文本标签向量:将步骤S2输出的新文本向量与步骤S3输出的新标签集向量进行点乘,输出文本标签向量
Figure QLYQS_18
S42、全连接层:将步骤S41输出的文本标签向量
Figure QLYQS_19
通过全连接层进行降维,得到降维文本标签向量X_Y'∈R1×y_size
S43、目标函数:将步骤S42输出的降维文本标签向量X_Y'∈R1×y_size与步骤S14输出的Yone-hot∈Ry_size×1进行对齐,计算其损失值,损失函数如下:
Figure QLYQS_20
根据损失值不断迭代更新网络参数,生成文本多标签分类模型M。
CN202010303127.6A 2020-04-17 2020-04-17 一种短文本多标签分类方法 Active CN111552807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010303127.6A CN111552807B (zh) 2020-04-17 2020-04-17 一种短文本多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010303127.6A CN111552807B (zh) 2020-04-17 2020-04-17 一种短文本多标签分类方法

Publications (2)

Publication Number Publication Date
CN111552807A CN111552807A (zh) 2020-08-18
CN111552807B true CN111552807B (zh) 2023-05-30

Family

ID=72005706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010303127.6A Active CN111552807B (zh) 2020-04-17 2020-04-17 一种短文本多标签分类方法

Country Status (1)

Country Link
CN (1) CN111552807B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070138B (zh) * 2020-08-31 2023-09-05 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及系统
CN112181814B (zh) * 2020-09-18 2021-11-16 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112308115B (zh) * 2020-09-25 2023-05-26 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112287170B (zh) * 2020-10-13 2022-05-17 泉州津大智能研究院有限公司 一种基于多模态联合学习的短视频分类方法及装置
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112395419B (zh) * 2021-01-18 2021-04-23 北京金山数字娱乐科技有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN113220876B (zh) * 2021-04-16 2022-12-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113033154B (zh) * 2021-05-31 2021-08-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于阅读理解的医学概念编码方法、装置及存储介质
CN113127605B (zh) * 2021-06-17 2021-11-02 明品云(北京)数据科技有限公司 一种目标识别模型的建立方法、系统、电子设备及介质
CN113297385B (zh) * 2021-07-28 2021-09-28 西南石油大学 基于改进GraphRNN的多标签文本分类系统及分类方法
CN113761197B (zh) * 2021-07-29 2022-07-26 中国科学院计算机网络信息中心 一种可利用专家知识的申请书多标签层次分类方法
CN115905533B (zh) * 2022-11-24 2023-09-19 湖南光线空间信息科技有限公司 一种多标签文本智能分类方法
CN116662327B (zh) * 2023-07-28 2023-09-29 南京芯颖科技有限公司 一种用于数据库的数据融合清理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ankit Pal, etc..MAGNET: Multi-Label Text Classification using Attention-based Graph Neural Network.《arXiv》.2020,全文. *

Also Published As

Publication number Publication date
CN111552807A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111552807B (zh) 一种短文本多标签分类方法
CN111694924B (zh) 一种事件抽取方法和系统
US20200242348A1 (en) Systems and methods for generating and using semantic images in deep learning for classification and data extraction
Najafabadi et al. Deep learning applications and challenges in big data analytics
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN112115995A (zh) 一种基于半监督学习的图像多标签分类方法
CN109034186B (zh) 基于da-rbm分类器模型的手写数据识别方法
CN110210468B (zh) 一种基于卷积神经网络特征融合迁移的文字识别方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
Chen Model reprogramming: Resource-efficient cross-domain machine learning
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
Zhang et al. Deep unsupervised self-evolutionary hashing for image retrieval
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
WO2022035942A1 (en) Systems and methods for machine learning-based document classification
Furht et al. Deep learning techniques in big data analytics
CN116050399A (zh) 一种可跨语料库可跨算法的生成式文本隐写分析方法
Khayyat et al. A deep learning based prediction of arabic manuscripts handwriting style.
CN114299326A (zh) 一种基于转换网络与自监督的小样本分类方法
CN116108836B (zh) 文本情感识别方法、装置、计算机设备及可读存储介质
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN115186670A (zh) 一种基于主动学习的领域命名实体识别方法及系统
US20220058842A1 (en) Generating handwriting via decoupled style descriptors
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统
CN113887504A (zh) 强泛化性的遥感图像目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Applicant after: Yinjiang Technology Co.,Ltd.

Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Applicant before: ENJOYOR Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant