CN110851594A - 一种基于多通道深度学习模型的文本分类方法及其装置 - Google Patents

一种基于多通道深度学习模型的文本分类方法及其装置 Download PDF

Info

Publication number
CN110851594A
CN110851594A CN201910950166.2A CN201910950166A CN110851594A CN 110851594 A CN110851594 A CN 110851594A CN 201910950166 A CN201910950166 A CN 201910950166A CN 110851594 A CN110851594 A CN 110851594A
Authority
CN
China
Prior art keywords
word
convolution
full
class
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910950166.2A
Other languages
English (en)
Inventor
陈晋音
徐晓东
沈诗婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910950166.2A priority Critical patent/CN110851594A/zh
Publication of CN110851594A publication Critical patent/CN110851594A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多通道深度模型的文本分类方法,首先对输入的文本信息进行分词操作并分别建立基于该文本的字库与词库,然后由训练好的word2vec模型得到对应字向量与词向量,将其作为两个通道放入卷积神经网络进行卷积、池化以提取文本中的特征,然后通过全连接层将两个通道提取到的特征进行拼接,最后由softmax函数实现预测分类。本发明还包括实施基于多通道深度模型的文本分类方法的装置。本发明训练时间短:多通道提取特征,使得分类效果不过分依赖文本数据本身,即对于不同的文本数据都能有比较好且稳定的分类效果。

Description

一种基于多通道深度学习模型的文本分类方法及其装置
技术领域
本发明涉及一种基于多通道深度学习模型的文本分类方法及其装置。
背景技术
随着计算机技术高速发展、互联网产生大数据和神经网络训练方法改进,深度学习技术得到了快速发展。深度学习是一种特殊的机器学习,通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性,其中每个概念都定义为与简单概念相关联,而更为抽象的表示则以较不抽象的方式来计算。
近年来自然语言处理(NLP)技术已经不断渗透并应用于互联网垂直领域,在诸如文本分类、实体识别、问答系统、翻译系统中扮演着重要角色。深度学习处理自然语言任务可以避免传统算法对特征是重度依赖性,准确度也更高,近来颇受重视。作为深度学习领域两大阵营的CNN和RNN各具特色,一般来说CNN适用于空间任务(如图像),RNN适用于时序任务(如语音),自然语言处理任务一般以文本的形式出现,所以使用RNN较为自然,但经对比发现CNN在文本分类上表现良好,又因为RNN模型的训练时间普遍较长,所以使用CNN做文本分类是更明智的选择。
卷积神经网络是一种前馈型神经网络,受生物自然视觉认知机制启发而来的。现在,CNN已经成为众多科学领域的研究热点之一。本文提供一种新的卷积神经网络模型,对文本数据分别基于字和词进行两次提取特征,从而提高分类效果。
贾丹丹等人(参考文献1:文本分类方法及装置,申请号2017111200630)提出了一种文本分类方法,同样是基于卷积神经网络。该方法在分词的基础上以词向量确定句子向量,以句子向量确定每个句子的重要性评价参数,并以所述参数确定文本摘要信息,以实现分类。该方法过于依赖文本内容与摘要信息的相关性,对于相对不太规整的文本数据可能分类效果不太理想。而本方法中有一次特征提取是基于字的(参考文献2:Xiang Zhang,Junbo Zhao,et al.Character-level Convolutional Networks for TextClassification.arXiv:1509.01626v3[cs.LG]4 Apr 2016),对摘要信息的依赖性较弱,在大量数据集的训练下准确度较高;李钊等人(参考文献3:基于卷积循环神经网络的文本分类方法,申请号2019100251750)公开了一种基于卷积循环神经网络的文本分类方法,该方法先利用卷积神经网络提取文本特征,然后将提取到的特征放入长短期记忆网络处理序列信息,最后由全连接层处理得出分类结果。该方法虽然不是传统的循环神经网络(RNN),但还是未能避免RNN带来的模型训练时间较长的硬伤。
发明内容
本发明要解决现有技术的上述缺点,提供一种基于多通道深度模型的文本分类方法及其装置。
本发明首先对输入的文本信息进行分词操作并分别建立基于该文本的字库与词库,然后由训练好的word2vec模型得到对应字向量与词向量,将其作为两个通道放入卷积神经网络进行卷积、池化以提取文本中的特征,然后通过全连接层将两个通道提取到的特征进行拼接,最后由softmax函数实现预测分类。
本发明解决其技术问题所采用的技术方案是:
一种基于多通道深度模型的文本分类方法,包括以下步骤:
1)根据数据集中划分出来的训练集建立字库,该字库包含训练集中出现的所有的字;
具体包括:先根据所建立字库获取每个字的one-hot编码,然后再通过训练好的word2vec模型获取对应字向量。
2)根据数据集中划分出来的训练集建立词库,该词库包含训练集中出现的所有的词;
具体包括:建立词库前应对数据集进行分词操作,分词工具采用jieba分词并根据分词结果建立词库,并根据所建立的词库获取每个词的one-hot编码,然后通过训练好的word2vec模型获取对应词向量。
3)文本数据通过上述建立字库的和词库分别获得该文本的字向量和词向量,并将其视作两个通道放入卷积神经网络进行卷积获取特征。
具体包括:使用一维卷积对输入进行卷积操作,卷积核高度取3,卷积核数目为256,卷积后特征图的高度计算公式为其中W为原始输入的高度,H为卷积核的高度,S表示步长。假设Xi:i+j表示Xi到Xi+j个词,使用一个宽度为d,高度为h的卷积核W与Xi:i+j(h个词)进行卷积操作得到特征Ci,Ci=f(w*xi:i+h-1+b)。因此经过卷积操作后可以得到一个n-h+1维的向量c=[c1,c2,...,cn-h+1]。
4)卷积后通过池化层,在保留显著特征的同时降低输出结果的维度,池化层采用最大池化;
5)池化后为全连接层,本层全连接层神经元个数设置为350个,并后接dropout以及relu激活,以防止过拟合及去线性化;
6)之后再接一层全连接层,本层全连接层神经元个数为训练集中的类别数目,并通过softmax函数实现预测类别,对每个样本,它属于类别i的概率为yi,有
Figure BDA0002225383360000041
7)经过softmax处理后通过损失函数来刻画实际输出(概率)与期望输出(概率)的距离,也就是损失函数的值越小,两个概率分布就越接近。损失函数采用交叉熵,对于多分类问题,交叉熵损失函数其中M为类别数;yc为指示变量(0或1),如果该类别与样本类别相同就是1,否则0;pc为观测样本属于类别c的预测概率。
实施如基于多通道深度模型的文本分类方法的装置,包括依次连接的建立字库模块、建立词库模块、卷积模块、池化模块、第一全连接模块、第二全连接模块、输出模块;
建立字库模块,根据数据集中划分出来的训练集建立字库,该字库包含训练集中出现的所有的字;
具体包括:先根据所建立字库获取每个字的one-hot编码,然后再通过训练好的word2vec模型获取对应字向量;
建立词库模块,根据数据集中划分出来的训练集建立词库,该词库包含训练集中出现的所有的词;
具体包括:建立词库前应对数据集进行分词操作,分词工具采用jieba分词并根据分词结果建立词库,并根据所建立的词库获取每个词的one-hot编码,然后通过训练好的word2vec模型获取对应词向量;
卷积模块,文本数据通过上述建立字库的和词库分别获得该文本的字向量和词向量,并将其视作两个通道放入卷积神经网络进行卷积获取特征;
具体包括:使用一维卷积对输入进行卷积操作,卷积核高度取3,卷积核数目为256,卷积后特征图的高度计算公式为其中W为原始输入的高度,H为卷积核的高度,S表示步长;假设Xi:i+j表示Xi到Xi+j个词,使用一个宽度为d,高度为h的卷积核W与Xi:i+j(h个词)进行卷积操作得到特征Ci,Ci=f(w*xi:i+h-1+b);因此经过卷积操作后可以得到一个n-h+1维的向量c=[c1,c2,...,cn-h+1];
池化模块,卷积后通过池化层,在保留显著特征的同时降低输出结果的维度,池化层采用最大池化;
第一全连接模块,池化后为全连接层,本层全连接层神经元个数设置为350个,并后接dropout以及relu激活,以防止过拟合及去线性化;
第二全连接模块,再接一层全连接层,本层全连接层神经元个数为训练集中的类别数目,并通过softmax函数实现预测类别,对每个样本,它属于类别i的概率为yi,有
Figure BDA0002225383360000052
输出模块,经过softmax处理后通过损失函数来刻画实际输出概率与期望输出概率的距离;损失函数采用交叉熵,对于多分类问题,交叉熵损失函数
Figure BDA0002225383360000061
其中M为类别数;yc为指示变量(0或1),如果该类别与样本类别相同就是1,否则0;pc为观测样本属于类别c的预测概率。
本发明的优点是:完全基于卷积神经网络模型(CNN),训练时间短:多通道提取特征,使得分类效果不过分依赖文本数据本身,即对于不同的文本数据都能有比较好且稳定的分类效果。
附图说明
图1是本发明的多通道深度模型结构示意图。
图2是本发明的word2vec模型结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步描述。
实施例1
本实施例公开一种基于多通道深度模型的文本分类方法,本方法基于卷积神经网络模型,如图1所示,该模型包含embedding层(通过word2vec实现)、卷积层、最大池化层、全连接层、全连接层以及softmax。由文本数据中提出来的字向量与词向量首先分别作为两个通道通过卷积层和池化层得到文本特征,再由全连接层以及softmax函数得到分类结果。
一种基于多通道深度模型的文本分类方法,包括以下步骤:
1)根据数据集中划分出来的训练集建立字库,该字库包含训练集中出现的所有的字;
本实施例中,先根据所建立字库获取每个字的one-hot编码,然后再通过训练好的word2vec模型获取对应字向量。
2)根据数据集中划分出来的训练集建立词库,该词库包含训练集中出现的所有的词;
本实施例中,建立词库前应对数据集进行分词操作,分词工具采用jieba分词并根据分词结果建立词库,并根据所建立的词库获取每个词的one-hot编码,然后通过训练好的word2vec模型获取对应词向量。
3)文本数据通过上述建立字库的和词库分别获得该文本的字向量和词向量,并将其视作两个通道放入卷积神经网络进行卷积获取特征。
本实施例中,采用训练好的word2vec获得相应的字向量与词向量。word2vec是一个仅有3层的浅层神经网络,输入层和输出层都可以看做词汇表的one-hot表示,通过语料的训练,可以获得词汇的向量表示。在将文本送入word2vec之前需要预先建立文本的字库与词库,并基于字库词库分别获得每个字和词的one-hot表示,然后再放入训练好的word2vec模型得到相应的字向量和词向量。
由于数据集中每个样本的长度不一致,因此在词嵌入前需要将样本处理成统一的长度,样本长度根据实际情况而定。若将样本长度记为L,词向量维度记为M,则每个样本可表示为L*M的词向量矩阵,并以此作为卷积层的输入(字向量同理)。
本实施例中,使用一维卷积对输入进行卷积操作,卷积核高度取3,卷积核数目为256,卷积后特征图的高度计算公式为其中W为原始输入的高度,H为卷积核的高度,S表示步长。假设Xi:i+j表示Xi到Xi+j个词,使用一个宽度为d,高度为h的卷积核W与Xi:i+j(h个词)进行卷积操作得到特征Ci,Ci=f(w*xi:i+h-1+b)。因此经过卷积操作后可以得到一个n-h+1维的向量c=[c1,c2,...,cn-h+1]。
4)卷积后通过池化层,在保留显著特征的同时降低输出结果的维度,池化层采用最大池化;
5)池化后为全连接层,本实施例中,本层全连接层神经元个数设置为350个,并后接dropout以及relu激活,以防止过拟合及去线性化;
6)之后再接一层全连接层,本层全连接层神经元个数为训练集中的类别数目,并通过softmax函数实现预测类别,对每个样本,它属于类别i的概率为yi,有
Figure BDA0002225383360000082
7)经过softmax处理后通过损失函数来刻画实际输出(概率)与期望输出(概率)的距离,也就是损失函数的值越小,两个概率分布就越接近。损失函数采用交叉熵,对于多分类问题,交叉熵损失函数
Figure BDA0002225383360000083
其中M为类别数;yc为指示变量(0或1),如果该类别与样本类别相同就是1,否则0;pc为观测样本属于类别c的预测概率。
实施例2
1.数据集:使用运营商提供的数据进行训练与测试,数据集分为原因类数据和现象类数据,其中原因类数据共308类,现象类数据403类,类标分别为0~307和0~402,每个类的样本分别存在独立的TXT文件中,并以类标命名文件(n.txt)。
每个类的样本数量不一,数据集的80%划为训练集,10%验证集,10%测试集。
2.参数配置
Figure BDA0002225383360000091
3.训练与验证
Training and evaluating...
.
.
Epoch:9
Iter: 22000,Train Loss: 1.5,Train Acc: 54.69%,Val Loss: 3.1,Val Acc: 38.22%,Time:0:31:36
Iter: 22100,Train Loss: 1.3,Train Acc: 65.62%,Val Loss: 3.1,Val Acc: 38.11%,Time:0:31:45
Iter: 22200,Train Loss: 1.4,Train Acc: 67.19%,Val Loss: 3.2,Val Acc: 38.04%,Time:0:31:56
Iter: 22300,Train Loss: 1.4,Train Acc: 56.25%,Val Loss: 2.9,Val Acc: 39.54%,Time:0:32:05
Iter: 22400,Train Loss: 0.94,Train Acc: 70.31%,Val Loss: 3.0,Val Acc: 38.63%,Time:0:32:14
Iter: 22500,Train Loss: 1.5,Train Acc: 53.12%,Val Loss: 3.0,Val Acc: 38.74%,Time:0:32:22
Iter: 22600,Train Loss: 1.6,Train Acc: 59.38%,Val Loss: 2.9,Val Acc: 39.15%,Time:0:32:31
Iter: 22700,Train Loss: 1.8,Train Acc: 50.00%,Val Loss: 2.9,Val Acc: 39.60%,Time:0:32:40
Iter: 22800,Train Loss: 1.6,Train Acc: 53.12%,Val Loss: 3.0,Val Acc: 39.05%,Time:0:32:50
Iter: 22900,Train Loss: 1.3,Train Acc: 60.94%,Val Loss: 3.0,Val Acc: 38.91%,Time:0:32:58
Iter: 23000,Train Loss: 1.3,Train Acc: 60.94%,Val Loss: 3.0,Val Acc: 39.36%,Time:0:33:08
Iter: 23100,Train Loss: 1.6,Train Acc: 56.25%,Val Loss: 2.9,Val Acc: 40.06%,Time:0:33:17
Iter: 23200,Train Loss: 1.5,Train Acc: 57.81%,Val Loss: 3.0,Val Acc: 39.42%,Time:0:33:27
Iter: 23300,Train Loss: 1.5,Train Acc: 62.50%,Val Loss: 3.0,Val Acc: 39.41%,Time:0:33:37
Iter: 23400,Train Loss: 1.5,Train Acc: 53.12%,Val Loss: 3.0,Val Acc: 39.39%,Time:0:33:46
Iter: 23500,Train Loss: 1.4,Train Acc: 57.81%,Val Loss: 3.0,Val Acc: 38.67%,Time:0:33:55
No optimization for a long time,auto-stopping...
在验证集上的最佳效果为40.55%,经过了9轮迭代停止。
②测试结果
Testing...
Test Loss:2.5,Test Acc:41.87%
Confusion Matrix...
[[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
[0 0 8 ... 0 0 0]
...
[0 0 0 ... 0 0 0]
[0 0 0 ... 1 4 1]
[0 0 0 ... 0 0 0]]
Time usage:0:00:30
在测试集上的准确率为41.87%。
以上为原因类数据的实验结果,现象类在测试集上的准确率为58.66%。
实施例3
实施实施例1的基于多通道深度模型的文本分类方法的装置,包括依次连接的建立字库模块、建立词库模块、卷积模块、池化模块、第一全连接模块、第二全连接模块、输出模块;
建立字库模块,根据数据集中划分出来的训练集建立字库,该字库包含训练集中出现的所有的字;
具体包括:先根据所建立字库获取每个字的one-hot编码,然后再通过训练好的word2vec模型获取对应字向量;
建立词库模块,根据数据集中划分出来的训练集建立词库,该词库包含训练集中出现的所有的词;
具体包括:建立词库前应对数据集进行分词操作,分词工具采用jieba分词并根据分词结果建立词库,并根据所建立的词库获取每个词的one-hot编码,然后通过训练好的word2vec模型获取对应词向量;
卷积模块,文本数据通过上述建立字库的和词库分别获得该文本的字向量和词向量,并将其视作两个通道放入卷积神经网络进行卷积获取特征;
具体包括:使用一维卷积对输入进行卷积操作,卷积核高度取3,卷积核数目为256,卷积后特征图的高度计算公式为
Figure BDA0002225383360000111
其中W为原始输入的高度,H为卷积核的高度,S表示步长;假设Xi:i+j表示Xi到Xi+j个词,使用一个宽度为d,高度为h的卷积核W与Xi:i+j(h个词)进行卷积操作得到特征Ci,Ci=f(w*xi:i+h-1+b);因此经过卷积操作后可以得到一个n-h+1维的向量c=[c1,c2,...,cn-h+1];
池化模块,卷积后通过池化层,在保留显著特征的同时降低输出结果的维度,池化层采用最大池化;
第一全连接模块,池化后为全连接层,本层全连接层神经元个数设置为350个,并后接dropout以及relu激活,以防止过拟合及去线性化;
第二全连接模块,再接一层全连接层,本层全连接层神经元个数为训练集中的类别数目,并通过softmax函数实现预测类别,对每个样本,它属于类别i的概率为yi,有
输出模块,经过softmax处理后通过损失函数来刻画实际输出概率与期望输出概率的距离;损失函数采用交叉熵,对于多分类问题,交叉熵损失函数
Figure BDA0002225383360000121
其中M为类别数;yc为指示变量(0或1),如果该类别与样本类别相同就是1,否则0;pc为观测样本属于类别c的预测概率。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.一种基于多通道深度模型的文本分类方法,包括以下步骤:
步骤1.根据数据集中划分出来的训练集建立字库,该字库包含训练集中出现的所有的字;
具体包括:先根据所建立字库获取每个字的one-hot编码,然后再通过训练好的word2vec模型获取对应字向量;
步骤2.根据数据集中划分出来的训练集建立词库,该词库包含训练集中出现的所有的词;
具体包括:建立词库前应对数据集进行分词操作,分词工具采用jieba分词并根据分词结果建立词库,并根据所建立的词库获取每个词的one-hot编码,然后通过训练好的word2vec模型获取对应词向量;
步骤3.文本数据通过上述建立字库的和词库分别获得该文本的字向量和词向量,并将其视作两个通道放入卷积神经网络进行卷积获取特征;
具体包括:使用一维卷积对输入进行卷积操作,卷积核高度取3,卷积核数目为256,卷积后特征图的高度计算公式为
Figure FDA0002225383350000011
其中W为原始输入的高度,H为卷积核的高度,S表示步长;假设Xi:i+j表示Xi到Xi+j个词,使用一个宽度为d,高度为h的卷积核W与Xi:i+j(h个词)进行卷积操作得到特征Ci,Ci=f(w*xi:i+h-1+b);因此经过卷积操作后可以得到一个n-h+1维的向量c=[c1,c2,...,cn-h+1];
步骤4.卷积后通过池化层,在保留显著特征的同时降低输出结果的维度,池化层采用最大池化;
步骤5.池化后为全连接层,本层全连接层神经元个数设置为350个,并后接dropout以及relu激活,以防止过拟合及去线性化;
步骤6.之后再接一层全连接层,本层全连接层神经元个数为训练集中的类别数目,并通过softmax函数实现预测类别,对每个样本,它属于类别i的概率为yi,有
Figure FDA0002225383350000021
步骤7.经过softmax处理后通过损失函数来刻画实际输出(概率)与期望输出(概率)的距离;损失函数采用交叉熵,对于多分类问题,交叉熵损失函数
Figure FDA0002225383350000022
其中M为类别数;yc为指示变量(0或1),如果该类别与样本类别相同就是1,否则0;pc为观测样本属于类别c的预测概率。
2.实施如权利要求1所述的基于多通道深度模型的文本分类方法的装置,包括依次连接的建立字库模块、建立词库模块、卷积模块、池化模块、第一全连接模块、第二全连接模块、输出模块;
建立字库模块,根据数据集中划分出来的训练集建立字库,该字库包含训练集中出现的所有的字;
具体包括:先根据所建立字库获取每个字的one-hot编码,然后再通过训练好的word2vec模型获取对应字向量;
建立词库模块,根据数据集中划分出来的训练集建立词库,该词库包含训练集中出现的所有的词;
具体包括:建立词库前应对数据集进行分词操作,分词工具采用jieba分词并根据分词结果建立词库,并根据所建立的词库获取每个词的one-hot编码,然后通过训练好的word2vec模型获取对应词向量;
卷积模块,文本数据通过上述建立字库的和词库分别获得该文本的字向量和词向量,并将其视作两个通道放入卷积神经网络进行卷积获取特征;
具体包括:使用一维卷积对输入进行卷积操作,卷积核高度取3,卷积核数目为256,卷积后特征图的高度计算公式为
Figure FDA0002225383350000031
其中W为原始输入的高度,H为卷积核的高度,S表示步长;假设Xi:i+j表示Xi到Xi+j个词,使用一个宽度为d,高度为h的卷积核W与Xi:i+j(h个词)进行卷积操作得到特征Ci,Ci=f(w*xi:i+h-1+b);因此经过卷积操作后可以得到一个n-h+1维的向量c=[c1,c2,...,cn-h+1];
池化模块,卷积后通过池化层,在保留显著特征的同时降低输出结果的维度,池化层采用最大池化;
第一全连接模块,池化后为全连接层,本层全连接层神经元个数设置为350个,并后接dropout以及relu激活,以防止过拟合及去线性化;
第二全连接模块,再接一层全连接层,本层全连接层神经元个数为训练集中的类别数目,并通过softmax函数实现预测类别,对每个样本,它属于类别i的概率为yi,有
Figure FDA0002225383350000032
输出模块,经过softmax处理后通过损失函数来刻画实际输出概率与期望输出概率的距离;损失函数采用交叉熵,对于多分类问题,交叉熵损失函数其中M为类别数;yc为指示变量(0或1),如果该类别与样本类别相同就是1,否则0;pc为观测样本属于类别c的预测概率。
CN201910950166.2A 2019-10-08 2019-10-08 一种基于多通道深度学习模型的文本分类方法及其装置 Withdrawn CN110851594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910950166.2A CN110851594A (zh) 2019-10-08 2019-10-08 一种基于多通道深度学习模型的文本分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910950166.2A CN110851594A (zh) 2019-10-08 2019-10-08 一种基于多通道深度学习模型的文本分类方法及其装置

Publications (1)

Publication Number Publication Date
CN110851594A true CN110851594A (zh) 2020-02-28

Family

ID=69597388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910950166.2A Withdrawn CN110851594A (zh) 2019-10-08 2019-10-08 一种基于多通道深度学习模型的文本分类方法及其装置

Country Status (1)

Country Link
CN (1) CN110851594A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340637A (zh) * 2020-03-18 2020-06-26 浙江网新恩普软件有限公司 一种基于机器学习反馈规则增强的医疗保险智能审核系统
CN111506793A (zh) * 2020-04-16 2020-08-07 上海浩方信息技术有限公司 基于情感挖掘实现能源电力舆情分析处理的方法
CN111652229A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111881670A (zh) * 2020-06-12 2020-11-03 广州忘平信息科技有限公司 一种铁路安监数据处理方法、系统、装置和存储介质
CN112183677A (zh) * 2020-11-25 2021-01-05 湖北第二师范学院 一种基于多通道卷积神经网络的质谱成像分类方法
CN112464931A (zh) * 2020-11-06 2021-03-09 马上消费金融股份有限公司 文本检测方法、模型训练方法及相关设备
CN114186059A (zh) * 2021-11-01 2022-03-15 东风汽车集团股份有限公司 一种文章的分类方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN109684626A (zh) * 2018-11-16 2019-04-26 深思考人工智能机器人科技(北京)有限公司 语义识别方法、模型、存储介质和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN109684626A (zh) * 2018-11-16 2019-04-26 深思考人工智能机器人科技(北京)有限公司 语义识别方法、模型、存储介质和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张俊龙等: "基于深度学习的海底观测视频中鱼类的识别方法", 《计算机应用》 *
张斌等: "基于卷积神经网络的手势识别算法设计与实现", 《微型机与应用》 *
熊炜等: "基于CNN的改进行人重识别技术", 《计算机工程与科学》 *
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017, 电子科技大学出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340637A (zh) * 2020-03-18 2020-06-26 浙江网新恩普软件有限公司 一种基于机器学习反馈规则增强的医疗保险智能审核系统
CN111340637B (zh) * 2020-03-18 2021-10-29 浙江网新恩普软件有限公司 一种基于机器学习反馈规则增强的医疗保险智能审核系统
CN111506793A (zh) * 2020-04-16 2020-08-07 上海浩方信息技术有限公司 基于情感挖掘实现能源电力舆情分析处理的方法
CN111652229A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111652229B (zh) * 2020-05-25 2023-09-12 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111881670A (zh) * 2020-06-12 2020-11-03 广州忘平信息科技有限公司 一种铁路安监数据处理方法、系统、装置和存储介质
CN112464931A (zh) * 2020-11-06 2021-03-09 马上消费金融股份有限公司 文本检测方法、模型训练方法及相关设备
CN112183677A (zh) * 2020-11-25 2021-01-05 湖北第二师范学院 一种基于多通道卷积神经网络的质谱成像分类方法
CN114186059A (zh) * 2021-11-01 2022-03-15 东风汽车集团股份有限公司 一种文章的分类方法和装置

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN107122375B (zh) 基于图像特征的图像主体的识别方法
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN111488739A (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN113220865B (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN117610567A (zh) 一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
Zhao et al. Commented content classification with deep neural network based on attention mechanism
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN113568969B (zh) 信息抽取方法、装置、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200228

WW01 Invention patent application withdrawn after publication