CN110209823A - 一种多标签文本分类方法及系统 - Google Patents

一种多标签文本分类方法及系统 Download PDF

Info

Publication number
CN110209823A
CN110209823A CN201910507874.9A CN201910507874A CN110209823A CN 110209823 A CN110209823 A CN 110209823A CN 201910507874 A CN201910507874 A CN 201910507874A CN 110209823 A CN110209823 A CN 110209823A
Authority
CN
China
Prior art keywords
vector
label
word
text
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910507874.9A
Other languages
English (en)
Other versions
CN110209823B (zh
Inventor
杨振宇
刘国敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201910507874.9A priority Critical patent/CN110209823B/zh
Publication of CN110209823A publication Critical patent/CN110209823A/zh
Application granted granted Critical
Publication of CN110209823B publication Critical patent/CN110209823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多标签文本分类方法及系统,该方法包括以下步骤:获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;对标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。

Description

一种多标签文本分类方法及系统
技术领域
本公开涉及文本分类技术领域,具体涉及一种基于LSTM-CNN及注意力机制的多标签文本分类方法、系统、存储介质及计算机设备。
背景技术
多标签文本分类是自然语言处理中既复杂又具有挑战性的任务。不同于传统的二分类或多分类,多标签分类要处理的是现实生活中文本具有多个类别的任务。
目前,有很多关于多标签文本分类的机器学习算法,依据解决问题的角度,这些算法可以分为两大类:一是基于问题转化的方法。将多标签分类任务转化成多个二分类或多分类问题,使其适用于现有算法,如:SVM、DT、NativeBayes等。二是基于算法适用的方法。是指针对某一特定的算法进行扩展,从而能够处理多标签数据。如:kNN多标签版本ML-KNN,SVM的多标签版本Rank-SVM等。
而在深度学习中,常常使用卷积神经网络(CNN)或递归神经网络(RNN) 作特征提取器提取文本的语义信息,然后修改多分类模型的输出层,使其适用于多标签的分类。
然而,在模型训练时,标签和文本之间的相关性往往起到很重要的作用,现有模型大多忽视了这一关系。另外,在预测标签时,现有模型的方法通常假设所有标签都与文本有关,再依次计算出所有标签的概率,概率较大的几个标签即为预测的标签。发明人在研发过程中发现,该方法存在以下技术问题:往往与文本无关或相关性较低的标签,也计算出了它的概率,显然这些概率是没有必要的,不仅提高了训练误差,还降低了模型性能和分类的准确性。
发明内容
为了克服上述现有技术的不足,本公开提供了一种基于LSTM-CNN及注意力机制的多标签文本分类方法、系统、存储介质及计算机设备,计算出与文本相似度较大的几个标签的注意力向量,提高了分类的准确性。
本公开一方面提供的一种多标签文本分类方法的技术方案是:
一种多标签文本分类方法,该方法包括以下步骤:
获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;
分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;
对标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。
进一步的,所述文本序列包含若干个单词,所述标签空间包含多个标签,每个单词和标签分别用词向量表示。
进一步的,所述采用长短时记忆网络提取文本序列中所有单词的全局特征向量的步骤包括:
采用长短时记忆网络提取文本序列中每个单词在两个方向上的隐藏向量;
分别将每个单词在两个方向上的隐藏向量连接起来,得到每个单词向量的全局特征向量。
进一步的,所述采用卷积神经网络对得到的全局特征向量进行聚合的方法为:
对卷积神经网络进行训练,学习到卷积神经网络的权值参数和偏置参数;
利用训练后的卷积神经网络对全局特征向量进行聚合,得到文本序列中所有单词的语义向量。
进一步的,所述注意力权重系数矩阵的构建方法为:
分别计算标签空间中每个标签与文本序列中每个单词的相似度向量,并构建相似度矩阵;
利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量,得到注意力权重系数矩阵。
进一步的,所述对注意力权重系数矩阵进行处理的步骤包括:
对注意力权重系数矩阵进行动态最大池化处理,并利用归一化函数对动态最大池化处理后的权重系数矩阵中权重系统向量进行归一化处理,得到最优权重系数矩阵。
进一步的,得到标签的注意力向量后,还利用全线性连接层对标签的注意力向量进行线性处理。
本公开另一方面提供的一种多标签文本分类系统的技术方案是:
一种多标签文本分类系统,该系统包括:
编码模块,用于获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;
解码模块,用于分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;
分类模块,用于对标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。
本公开另一方面提供的一种计算机可读存储介质的技术方案是:
一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如上所述的多标签文本分类方法中的步骤。
本公开另一方面提供的一种计算机设备的技术方案是:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的多标签文本分类方法中的步骤。
通过上述技术方案,本公开的有益效果是:
(1)本公开引入向量余弦距离作为标签和文本之间的相似度度量标准,建模标签和文本之间的相关性,使用动态最大池化,在预测标签时,计算出与文本相关性较大的几个标签的概率,避免了不必要的误差,提供了分类的准确性。
(2)本公开采用LSTM作为句子的底层特征抽取器,能抽取出句子序列具有全局信息的语义上下文向量;在其后接入CNN聚合句子中单词的周围邻域的局部信息。将全局信息和局部信息进行融合,能获得更准确表达句子的语义向量。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。
图1是实施例一多标签文本分类方法的流程图;
图2是实施例一注意力向量计算过程示意图;
图3是实施例一注意力系数计算过程示意图;
图4是实施例一多标签文本分类系统的结构图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
名词解释:
(1)LSTM,长短时记忆网络,在处理序列文本任务表现出良好的效果,它能很好的表示出输入文本中的全局逻辑信息和信息彼此间复杂的时间关联性。
(2)CNN,卷积神经网络,用于文本任务能够很好的提取句子中心词的局部特征信息。
实施例一
为了解决现有的方法忽略标签和文本之间的相关性的问题,本实施例提供了一种基于LSTM-CNN及注意力机制的多标签文本分类方法,考虑标签和文本之间相关性,计算出与文本相关性较大的几个标签(标签子集)的概率即可,明显提升模型的预测效率,避免了不必要的误差,提高精度。
请参阅附图1,所述多标签文本分类方法包括以下步骤:
S101,给定包含文本序列以及标签空间的训练集,采用长短时记忆网络
LSTM提取文本序列中所有单词的全局特征向量,采用卷积神经网络CNN对得到文本序列中所有单词的全局特征向量进行聚合,得到文本序列中所有单词向量的语义向量。
给定训练集Xn为文本序列;Yn为标签空间;分类任务的目标是学习一个函数f,最小化损失函数:
其中,CE是计算两个概率向量之间的交叉熵,yn为每个训练样本对应要预测的标签子集;f为函数。
包含L个单词的文本序列:X={x1,x2,…,xL},xl是每个单词的词向量表示;有 J个标签的标签空间:C={c1,c2,…,cJ},cj是每个标签的词向量表示;词向量维度设置为d。
在本实施例中,采用长短时记忆网络LSTM提取文本序列中所有单词的全局特征向量的具体实现方式如下:
采用长短时记忆网络LSTM提取文本序列中所有单词的两个方向的隐藏向量的提取公式如下:
将每个单词的两个方向的隐藏向量连接起来,得到每个单词向量的隐藏表示,表示以第l个单词为中心的特征信息,即单词的全局特征向量表示。
采用长短时记忆网络LSTM提取文本序列中所有单词向量的全局特征向量为H={h0,h1,…,hl},hl为第l个单词向量的全局特征向量。
在本实施例中,采用卷积神经网络CNN对得到文本序列中所有单词的全局特征向量进行聚合的具体实现方式如下:
采用卷积神经网络CNN对上述得到的文本序列中所有单词向量的全局特征向量H进行聚合,得到文本序列的语义向量V。其实现公式如下:
V=conv(W1,H)+b1(4)
其中,W1和b1分别是权值参数和偏置参数,通过训练集中数据训练卷积神经网络CNN可以学习到权值参数和偏置参数;H为文本序列中所有单词向量的全局特征向量,V为文本序列的语义向量。
本实施例以LSTM和CNN组合的形式对全局信息和局部信息进行融合,以更好的提取出文本的全部信息。
S102,分别计算标签空间中每个标签与文本序列中所有单词的余弦相似度,并将其作为权重系数,选取相似度较大的权重系数,对每个单词向量的局部特征信息进行加权,得到标签的注意力向量。
在本实施例中,通过如下公式可以计算得到标签与单词的相似度向量:
基于所有标签向量与单词向量的相似度矩阵,构建相应的相似度矩阵G为:
其中,是标准化矩阵,大小为J×L,其每个元素为第j个标签和第l个单词的乘积:
在本实施例中,选取相似度较大的权重系数,对每个单词向量的局部特征向量进行加权的具体实现步骤如下:
(1)将该相似度向量作为权重系数向量,根据相似度矩阵G,经过线性层得到注意力权重系数矩阵:
A=ReLU(W2G+b2)(7)
其中,W2和b2是要学习的权值参数和偏置参数。ReLU是非线性激活函数,去除了G中余弦相似度小于零(负相关)的参数。
(2)对注意力权重系数矩阵A进行动态最大池化(K-max-pooling)处理,得到权重系数矩阵利用归一化函数对权重系数矩阵进行归一化处理。
在本实施例中,对注意力权重系数矩阵A进行动态最大池化(K-max-pooling) 处理和归一化处理的实现方式如下:
是包含较大权重系数向量的权重系数矩阵。Softmax是归一化函数, 中第k个标签未归一化的权重系数向量,βlk是第k个标签
归一化后的权重系数向量,向量长度为l;β为最优权重系数矩阵。
(3)将步骤101得到的语义向量V与归一化后的最优权重系数矩阵β中权重系数向量进行加权,得到标签的注意力向量Z:
zk∈Rd是第k个标签的注意力向量,vl为第l个单词的语义向量。
(4)经过线性层得到与标签相同维度大小的注意力向量:
z′K=W3zK+b3(11)
W3∈RK×J和b3∈RJ都是训练参数。
本实施例引入向量余弦距离作为标签和文本之间的相关性度量标准,并建模标签和文本之间的相关性;在训练时,使用动态最大池化,以减少模型训练时的误差;在预测标签时,计算出几个标签(标签子集)的注意力向量。
S103,得到z′K之后,使用Softmax函数作为分类器对每个标签的注意力向量进行归一化处理,得到每一个标签的概率,选取几个概率较大的标签进行文本分类。
实验验证
本实施例使用精确率(precision)、召回率(recall)、F1分数(F1-Score) 和汉明损失(Hamming loss)作为多标签文本分类方法的评价标准。
精确率:是指预测出来的某类样本中,被正确预测出来的所占的比例。该值越高,模型性能表现越好。
召回率:是指实际样本中,被正确预测出来的样本所占的比例。该值越高,模型性能表现越好。
F1分数:它同时兼顾了精确率和召回率,可以看作是模型精确率和召回率的一种加权平均。其计算公式:该值越高,模型表现越好。
汉明损失:该指标衡量了预测所得标签与样本实际标签之间的不一致程度,即样本具有标签但未被识别出,或不具有标签却被误判的可能性。其计算公式:N是样本的数量,L是标签的个数,Yi,j是第i个预测结果中第j个分量的真实值,Pi,j是第i个预测结果中第j个分量的预测值。该值越低,模型表现越好。
数据集:本实施例使用知乎的多标签文本分类数据集,截取其中的五十万条数据作为本实施例的训练数据,其样本标签数为103,样本最大标签数为7,从训练数据中提取单词形成词汇表,词汇表外单词被字符<unk>替换。词向量维度设置为256。文本句子的长度设置为128词,不足长度的样本进行补零,超过长度的样本则进行截断。
模型参数设置:本实施例设置长短时记忆网络LSTM的隐藏层大小为256,卷积神经网络的卷积核大小为3。
分别采用Bi-LSTM、BiLSTM+CNN(无attention)以及本实施例提出的多标签文本分类方法的实验结果如表1所示。
表1实验结果
由表1可以看出,只使用Bi-LSTM作为特征提取模块,精确率和召回率为 68.3%和61.9%,相应的F1分数和汉明损失为0.652和0.0291。而使用Bi-LSTM和 CNN作为特征提取模块时精确率提升了约2.3%,达到了69.7%;而F1分数提升了约1.7%,达到了0.663;汉明损失也降低了约3.8%,达到了0.0280。
而本实施例提出的多标签文本分类方法具有更好的效果,在使用Bi-LSTM 和CNN基础上,引入了标签和文本之间相关性作为注意力,精确率和召回率较基线提升了近6.0%和6.6%,F1分数也提升了4.4%左右,到达0.681,汉明损失降低了约8.2%,降低到0.0267。
实施例二
本实施例提供了一种基于LSTM-CNN及注意力机制的多标签文本分类系统,用于实现以上实施例所述的基于LSTM-CNN及注意力机制的多标签文本分类方法。
请参阅附图4,所述多标签文本分类系统包括编码模块、解码模块和分类模块,其中:
所述编码模块,用于获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;
所述解码模块,用于分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;
所述分类模块,用于对标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。
实施例三
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的多标签文本分类方法中的步骤。
实施例四
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的多标签文本分类方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种多标签文本分类方法,其特征是,包括以下步骤:
获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;
分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;
对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。
2.根据权利要求1所述的多标签文本分类方法,其特征是,所述文本序列包含若干个单词,所述标签空间包含多个标签,每个单词和标签分别用词向量表示。
3.根据权利要求1所述的多标签文本分类方法,其特征是,所述采用长短时记忆网络提取文本序列中所有单词的全局特征向量的步骤包括:
采用长短时记忆网络提取文本序列中每个单词在两个方向上的隐藏向量;
分别将每个单词在两个方向上的隐藏向量连接起来,得到每个单词向量的全局特征向量。
4.根据权利要求1所述的多标签文本分类方法,其特征是,所述采用卷积神经网络对得到的全局特征向量进行聚合的方法为:
对卷积神经网络进行训练,学习到卷积神经网络的权值参数和偏置参数;
利用训练后的卷积神经网络对全局特征向量进行聚合,得到文本序列中所有单词的语义向量。
5.根据权利要求1所述的多标签文本分类方法,其特征是,所述注意力权重系数矩阵的构建方法为:
分别计算标签空间中每个标签与文本序列中每个单词的相似度向量,并构建相似度矩阵;
利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量,得到注意力权重系数矩阵。
6.根据权利要求1所述的多标签文本分类方法,其特征是,所述对注意力权重系数矩阵进行处理的步骤包括:
对注意力权重系数矩阵进行动态最大池化处理,并利用归一化函数对动态最大池化处理后的权重系数矩阵中权重系统向量进行归一化处理,得到最优权重系数矩阵。
7.根据权利要求1所述的多标签文本分类方法,其特征是,得到标签的注意力向量后,还利用全线性连接层对标签的注意力向量进行线性处理。
8.一种多标签文本分类系统,其特征是,包括:
编码模块,用于获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;
解码模块,用于分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;
分类模块,用于对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如权利要求1-7中任一项所述的多标签文本分类方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多标签文本分类方法中的步骤。
CN201910507874.9A 2019-06-12 2019-06-12 一种多标签文本分类方法及系统 Active CN110209823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507874.9A CN110209823B (zh) 2019-06-12 2019-06-12 一种多标签文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507874.9A CN110209823B (zh) 2019-06-12 2019-06-12 一种多标签文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN110209823A true CN110209823A (zh) 2019-09-06
CN110209823B CN110209823B (zh) 2021-04-13

Family

ID=67792260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507874.9A Active CN110209823B (zh) 2019-06-12 2019-06-12 一种多标签文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN110209823B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN111061872A (zh) * 2019-11-26 2020-04-24 北京中科汇联科技股份有限公司 一种文本分类系统及其训练方法
CN111147396A (zh) * 2019-12-26 2020-05-12 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
CN111178458A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
CN111198949A (zh) * 2020-04-10 2020-05-26 支付宝(杭州)信息技术有限公司 一种文本标签确定方法和系统
CN111276133A (zh) * 2020-01-20 2020-06-12 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111400606A (zh) * 2020-06-02 2020-07-10 江苏省质量和标准化研究院 一种基于全局和局部信息抽取的多标签分类方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111651603A (zh) * 2020-06-04 2020-09-11 上海电力大学 一种基于lav参数微调的电力工单层次文本分类方法及系统
CN111666406A (zh) * 2020-04-13 2020-09-15 天津科技大学 基于自注意力的单词和标签联合的短文本分类预测方法
CN111737520A (zh) * 2020-06-22 2020-10-02 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111797234A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN112052356A (zh) * 2020-08-14 2020-12-08 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112084371A (zh) * 2020-07-21 2020-12-15 中国科学院深圳先进技术研究院 一种电影多标签分类方法、装置、电子设备以及存储介质
CN112183655A (zh) * 2020-10-10 2021-01-05 北京邮电大学 文档多标签分类方法和装置
CN112395419A (zh) * 2021-01-18 2021-02-23 北京金山数字娱乐科技有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN112434159A (zh) * 2020-11-17 2021-03-02 东南大学 一种利用深度神经网络进行论文多标签分类的方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112836502A (zh) * 2021-03-01 2021-05-25 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN112988921A (zh) * 2019-12-13 2021-06-18 北京四维图新科技股份有限公司 地图信息变化的识别方法和装置
CN113128622A (zh) * 2021-05-12 2021-07-16 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
CN113297375A (zh) * 2021-05-17 2021-08-24 广州锋网信息科技有限公司 一种基于标签的文档分类方法、系统、装置及存储介质
CN113486147A (zh) * 2021-07-07 2021-10-08 中国建设银行股份有限公司 一种文本处理方法、装置、电子设备及计算机可读介质
CN113486175A (zh) * 2021-07-08 2021-10-08 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
WO2021227935A1 (zh) * 2020-05-09 2021-11-18 支付宝(杭州)信息技术有限公司 训练词向量嵌入模型
CN113849655A (zh) * 2021-12-02 2021-12-28 江西师范大学 一种专利文本多标签分类方法
CN114398488A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于注意力机制的bilstm多标签文本分类方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN109189933A (zh) * 2018-09-14 2019-01-11 腾讯科技(深圳)有限公司 一种文本信息分类的方法及服务器
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109857865A (zh) * 2019-01-08 2019-06-07 北京邮电大学 一种文本分类方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109189933A (zh) * 2018-09-14 2019-01-11 腾讯科技(深圳)有限公司 一种文本信息分类的方法及服务器
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109857865A (zh) * 2019-01-08 2019-06-07 北京邮电大学 一种文本分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐蔚: "基于深度学习的中文新闻文本分类的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
薛涛: "基于词义消歧的卷积神经网络文本分类模型", 《计算机应用研究》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN111061872A (zh) * 2019-11-26 2020-04-24 北京中科汇联科技股份有限公司 一种文本分类系统及其训练方法
CN111061872B (zh) * 2019-11-26 2023-08-04 北京中科汇联科技股份有限公司 一种文本分类系统及其训练方法
CN112988921A (zh) * 2019-12-13 2021-06-18 北京四维图新科技股份有限公司 地图信息变化的识别方法和装置
CN111147396A (zh) * 2019-12-26 2020-05-12 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
CN111147396B (zh) * 2019-12-26 2023-03-21 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
CN111276133A (zh) * 2020-01-20 2020-06-12 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111178458A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
CN111178458B (zh) * 2020-04-10 2020-08-14 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
CN111198949A (zh) * 2020-04-10 2020-05-26 支付宝(杭州)信息技术有限公司 一种文本标签确定方法和系统
WO2021204269A1 (zh) * 2020-04-10 2021-10-14 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类
CN111666406A (zh) * 2020-04-13 2020-09-15 天津科技大学 基于自注意力的单词和标签联合的短文本分类预测方法
CN111666406B (zh) * 2020-04-13 2023-03-31 天津科技大学 基于自注意力的单词和标签联合的短文本分类预测方法
WO2021227935A1 (zh) * 2020-05-09 2021-11-18 支付宝(杭州)信息技术有限公司 训练词向量嵌入模型
CN111400606B (zh) * 2020-06-02 2020-12-01 江苏省质量和标准化研究院 一种基于全局和局部信息抽取的多标签分类方法
CN111400606A (zh) * 2020-06-02 2020-07-10 江苏省质量和标准化研究院 一种基于全局和局部信息抽取的多标签分类方法
CN111651603B (zh) * 2020-06-04 2024-03-19 上海电力大学 一种基于lav参数微调的电力工单层次文本分类方法及系统
CN111651603A (zh) * 2020-06-04 2020-09-11 上海电力大学 一种基于lav参数微调的电力工单层次文本分类方法及系统
CN111797234A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN111797234B (zh) * 2020-06-16 2024-04-30 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN111737520A (zh) * 2020-06-22 2020-10-02 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111737520B (zh) * 2020-06-22 2023-07-25 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN112084371B (zh) * 2020-07-21 2024-04-16 中国科学院深圳先进技术研究院 一种电影多标签分类方法、装置、电子设备以及存储介质
CN112084371A (zh) * 2020-07-21 2020-12-15 中国科学院深圳先进技术研究院 一种电影多标签分类方法、装置、电子设备以及存储介质
CN112052356B (zh) * 2020-08-14 2023-11-24 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112052356A (zh) * 2020-08-14 2020-12-08 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112183655A (zh) * 2020-10-10 2021-01-05 北京邮电大学 文档多标签分类方法和装置
CN112434159A (zh) * 2020-11-17 2021-03-02 东南大学 一种利用深度神经网络进行论文多标签分类的方法
CN112487143B (zh) * 2020-11-30 2022-11-18 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112395419B (zh) * 2021-01-18 2021-04-23 北京金山数字娱乐科技有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN112395419A (zh) * 2021-01-18 2021-02-23 北京金山数字娱乐科技有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN112836502A (zh) * 2021-03-01 2021-05-25 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN112836502B (zh) * 2021-03-01 2023-05-09 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN113220874B (zh) * 2021-03-13 2023-04-07 山东师范大学 一种多标签文本分类方法及系统
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113128622A (zh) * 2021-05-12 2021-07-16 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113128622B (zh) * 2021-05-12 2022-05-31 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113297375A (zh) * 2021-05-17 2021-08-24 广州锋网信息科技有限公司 一种基于标签的文档分类方法、系统、装置及存储介质
CN113297375B (zh) * 2021-05-17 2022-03-25 广州锋网信息科技有限公司 一种基于标签的文档分类方法、系统、装置及存储介质
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
CN113486147A (zh) * 2021-07-07 2021-10-08 中国建设银行股份有限公司 一种文本处理方法、装置、电子设备及计算机可读介质
CN113486175A (zh) * 2021-07-08 2021-10-08 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113486175B (zh) * 2021-07-08 2024-03-15 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113849655A (zh) * 2021-12-02 2021-12-28 江西师范大学 一种专利文本多标签分类方法
CN113849655B (zh) * 2021-12-02 2022-02-18 江西师范大学 一种专利文本多标签分类方法
CN114398488A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于注意力机制的bilstm多标签文本分类方法

Also Published As

Publication number Publication date
CN110209823B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN110209823A (zh) 一种多标签文本分类方法及系统
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
Barz et al. Hierarchy-based image embeddings for semantic image retrieval
CN110688502B (zh) 一种基于深度哈希和量化的图像检索方法及存储介质
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN109299342A (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN108628823A (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN109933670A (zh) 一种基于组合矩阵计算语义距离的文本分类方法
CN113407660B (zh) 非结构化文本事件抽取方法
CN111985581A (zh) 一种基于样本级注意力网络的少样本学习方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN114332545B (zh) 一种基于低比特脉冲神经网络的图像数据分类方法和装置
Jiang et al. Variational deep embedding: A generative approach to clustering
CN111125411A (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN110413993A (zh) 一种基于稀疏权值神经网络的语义分类方法、系统和介质
CN112257716A (zh) 一种基于尺度自适应及方向注意力网络的场景文字识别方法
Zhao et al. A real-time typhoon eye detection method based on deep learning for meteorological information forensics
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
CN110197213A (zh) 基于神经网络的图像匹配方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant