CN107301246A - 基于超深卷积神经网络结构模型的中文文本分类方法 - Google Patents
基于超深卷积神经网络结构模型的中文文本分类方法 Download PDFInfo
- Publication number
- CN107301246A CN107301246A CN201710573388.8A CN201710573388A CN107301246A CN 107301246 A CN107301246 A CN 107301246A CN 201710573388 A CN201710573388 A CN 201710573388A CN 107301246 A CN107301246 A CN 107301246A
- Authority
- CN
- China
- Prior art keywords
- convolution
- model
- term vector
- language material
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,得出词向量模型;从网上搜集多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,分为训练集语料和测试集语料;将训练集语料和测试集语料分别进行分词处理,然后利用词向量模型得出训练集语料和测试集语料分别对应的词向量;建立超深卷积神经网络结构模型;将训练集语料所对应的词向量输入到超深卷积神经网络结构模型中,训练得出文本分类模型;将需要分类的中文文本输入到词向量模型中,得到该需要分类的中文文本的词向量,然后输入到文本分类模型中完成中文文本分类。
Description
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于超深卷积神经网络结构模型的中文文本分类方法。
背景技术
随着移动互联网、社交和新媒体等网络平台爆发式的增长,网络中充斥了大量缺乏有效信息组织但具有研究价值的文本,而文本分类作为自然语言处理的关键技术之一,能够有效解决信息杂乱等问题,并广泛应用于搜索引擎、垃圾邮件过滤、个性化新闻和资料分拣等任务中。因此,文本分类在自然语言处理、数据的智能化组织与管理等领域发挥着重要的作用。
传统的文本分类主要依靠知识工程分类法,首先需要对文本进行复杂预处理之后手动抽取文本特征,比如“词袋”(bag-of-words)、n-grams以及TF-IDF等,然后再利用特征训练分类器。卷积神经网络(CNN)最初被应用于图像处理和语音识别领域,目前也有越来越多的人将神经网络技术应用到自然语言处理领域中。
余本功等(余本功,张连彬.基于CP-CNN的中文短文本分类研究.计算机应用研究)提出了一种结合词和字符的双输入卷积神经网络模型CP-CNN,有效提高了短文本分类的效果。Yang Z等(Yang Z,Yang D,Dyer C,et al.Hierarchical attention networks fordocument classification[C]Proceedings of NAACL-HLT.2016:1480-1489.)将注意力机制引入到网络结构进行文本分类,提高了分类的准确率。夏从零等(夏从零,钱涛,&姬东鸿.(2017).基于事件卷积特征的新闻文本分类.计算机应用研究,34(4),991-994.)提出了一种基于事件卷积特征的文本分类方法。但由于自然语言本身结构的特殊性,自然语言中有着上下文依赖的非连续关系,上述所研究的卷积神经网络模型均存在着卷积核大小难以确定、文本的向量维度过高等问题,并且这些模型与目前应用于图像处理和语言识别领域优秀的网络相比结构仍然较浅,卷积神经网络(CNN)是多个网络层叠加组成的,较浅是指用于文本分类的CNN层数与图像处理和语音识别领域的CNN层数相比,文本分类的CNN层数少,分类的效果和准确率也低于图像处理和语音识别领域。He K等人(He K,Zhang X,Ren S,etal.Deep residual learning for image recognition[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:770-778.)研究表明,对现有的传统卷积神经网络模型(CNN)单纯增加网络层都会导致梯度消失和准确率下降,并不能提高文本分类的效果。
在自然语言处理中一般将每一个词作为基本单元进行向量表示。目前,词的表示主要分为独热表示(one-hot)和分布式表示(distributed representation)。独热表示是自然语言处理中最直观和最常用的词表示法,该方法把每个词表示为只有一个维度的值为1其余值为0的长向量。其中,维度表示词汇表的大小,值为1的维度表示当前词。但是利用独热表示词导致任意词之间都是无联系的,这对于卷积神经网络进行文本分类是致命的。同时,海量文本使用独热表示也会导致向量维度灾难。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于超深卷积神经网络结构(简称VDCNN)模型的中文文本分类方法,该方法解决了在中文文本分类中向量维度过高以及传统卷积神经网络存在的卷积核大小难以确定和梯度消失,准确率不足等问题。
本发明解决所述技术问题采用的技术方案是,提供一种基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:
步骤1:从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,同时去除停用词,建立词典D,然后利用Word2Vec工具训练词典D中的词,得出词向量模型,同时获得词向量;
步骤2:从网上搜集多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,并将文本分类的语料集中的文本分类语料分为训练集语料和测试集语料;
步骤3:将步骤2中的训练集语料和测试集语料分别进行分词处理,然后利用步骤1得到的词向量模型得出训练集语料和测试集语料分别对应的词向量;
步骤4:建立超深卷积神经网络结构模型,
第一层为词嵌入层,在词嵌入层之后连接五个卷积块,每个卷积块内部由卷积层连接而成,卷积块内部每进行一次卷积之后进行一次批规范化操作,每个卷积层中卷积核的数量均为3;设置每个卷积块之间进行池化操作,同时在每个卷积块之间设置一个捷径连接,在最后一个卷积块之后进行最大值池化,之后连接三个全连接层,设置卷积层和全连接层的激活函数均为ReLU,再通过Softmax进行分类,得到超深卷积神经网络结构模型,所述超深卷积神经网络结构模型的深度为词嵌入层的个数、全连接层的个数和卷积层的个数三者之和;
步骤5:将步骤3中得到的训练集语料所对应的词向量输入到步骤4中建立的超深卷积神经网络结构模型中,训练得出文本分类模型;将步骤3中测试集语料所对应的词向量输入到文本分类模型中,输出测试集语料所对应的分类结果,计算文本分类模型的准确率为90%以上即可用于中文文本分类;
步骤6:将需要分类的中文文本输入到步骤1的词向量模型中,得到该需要分类的中文文本的词向量,然后将该词向量输入到步骤5的文本分类模型中,即完成中文文本分类。
与现有技术相比,本发明的有益效果如下:
本发明将自行设计的超深卷积神经网络(VDCNN)模型用于中文文本分类,并且把词向量与之相结合,在设计超深卷积神经网络(VDCNN)模型时,将网络结构模型的深度增加,同时在超深卷积神经网络(VDCNN)中加入Batch Normalization和深度残差网络(ResNets)的Shortcut,用以解决深度增加所带来的梯度消失和精确度下降等问题。在以往的卷积神经网络模型中进行文本分类时,卷积核的数目大小可能是3、5或者7,但是对于本发明所设计的VDCNN模型而言,只需要将所有卷积层的卷积核大小设置为3,因为两个连续3×3的卷积核与一个5×5大小的卷积核具有相同的感受野,而3个连续的3×3的卷积核与一个7×7的卷积核具有相同的感受野。由于设置所有的卷积层激活函数为ReLU,所以每一个卷积层增加了决策函数的非线性。于是,相比使用一个7×7大小的卷积核,3个连续3×3大小的卷积核进行了3次非线性处理,这样就增加了网络结构的学习能力,输入文本经过深层网络的卷积之后就能得到具有更加优秀表征效果的特征向量。另外,使用3×3的卷积核降低了参数的个数,假设三个卷积层使用3×3大小的卷积核处理C通道的特征图时,一共有3×(32×C2)=27C2个参数,而一个7×7卷积核的卷积层则有1×(72×C2)=49C2个参数,减少了约50%。
在文本进入到词向量模型后,能够将文本单词转换为低维度向量,且把相似词和近义词的向量放置在距离较近的向量空间中,当文本向量经过超深卷积神经网络(VDCNN)模型之后能够优秀地将文本的特征提取出来,显著提升了文本分类的效果。最后在Sogou语料库和复旦大学中文语料库上进行了实验,其文本分类的精确度(Accuracy)能够达到99.12%,相较于其他文本分类方法,提高约3%,并且实验2的结果表明,随着文本分类模型深度的增加其分类效果也不断增强。
本发明方法将词向量和VDCNN相结合进行中文文本分类,可应用于文本的低维度向量化表示以及海量文本的分类任务等,并最终应用于用户个性化推荐系统、信息检索和意图理解等多个子领域。
附图说明
图1是Skip-gram模型的结构示意图;
图2是VDCNN模型结构示意图;
图3是卷积块的结构示意图,图中卷积块由两个卷积层构成。
具体实施方式
为使本发明的技术方案和优点更加清晰,以下结合实施例及附图对本发明作进一步详细说明。
本发明基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:
步骤1:从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,同时去除停用词,建立词典D,然后利用Word2Vec工具训练词典D中的词,得出词向量模型,同时获得词向量;
步骤2:从网上搜集新浪、网易、腾讯等多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,并将文本分类的语料集中的文本分类语料分为训练集语料和测试集语料;
步骤3:将步骤2中的训练集语料和测试集语料分别进行分词处理,然后利用步骤1得到的词向量模型得出训练集语料和测试集语料分别对应的词向量;
步骤4:建立超深卷积神经网络结构模型,
第一层为词嵌入层,在词嵌入层之后连接五个卷积块,每个卷积块内部由卷积层连接而成,卷积块内部每进行一次卷积之后进行一次批规范化操作(BatchNormalization),每个卷积层中卷积核的数量均为3;设置每个卷积块之间进行池化操作,同时在每个卷积块之间设置一个捷径连接(Shortcut),在最后一个卷积块之后进行最大值池化,之后连接三个全连接层,设置卷积层和全连接层的激活函数均为ReLU(RectifiedLinear Units),再通过Softmax进行分类,得到超深卷积神经网络结构模型,所述超深卷积神经网络结构模型的深度为词嵌入层的个数、全连接层的个数和卷积层的个数三者之和;
步骤5:将步骤3中得到的训练集语料所对应的词向量输入到步骤4中建立的超深卷积神经网络结构模型中,训练得出文本分类模型;将步骤3中测试集语料所对应的词向量输入到文本分类模型中,输出测试集语料所对应的分类结果,计算文本分类模型的准确率为90%以上即可用于中文文本分类;
步骤6:将需要分类的中文文本输入到步骤1的词向量模型中,得到该需要分类的中文文本的词向量,然后将该词向量输入到步骤5的文本分类模型中,即完成中文文本分类。
本发明方法的进一步特征在于所述超深卷积神经网络结构模型的深度为12-29,当深度为12时,前两个卷积块中卷积层的数量均为1,后三个卷积块中卷积层的数量均为2;当深度为14时,每个卷积块中卷积层的数量均为2;当深度为17时,前两个卷积块中卷积层的数量均为2,后三个卷积块中卷积层的数量均为3;当深度为20时,前两个卷积块中卷积层的数量均为2,后三个卷积块中卷积层的数量均为4;当深度为29时,前两个卷积块中卷积层的数量均为6,第三个卷积块中卷积层的数量为5,后两个卷积块中卷积层的数量均为4。
实施例1
本实施例基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:
步骤1:从网上搜集词向量的训练语料,使用jieba分词工具对训练语料进行分词处理,同时去除停用词,建立词典D,然后利用Word2Vec工具中的Skip-gram模型训练得到词典中每个词对应的词向量;所述Skip-gram模型(参见图1)是在已知当前词w(t)的前提下,对当前词w(t)的上下文定义Context(w)中的词进行预测,Skip-gram模型包含三层:输入层、投影层和输出层;
输入层(INPUT)输入为当前词w(t),投影层(PROJECTION)是输入层的恒等投影以应对CBOW模型中的投影层,输出层(OUTPUT)是以当前词在文本中的词频作为权值构造的一棵二叉树,其中叶子节点的向量即为一个词向量,当前词w(t)对应的叶子节点为w’(t-1)、w’(t-2)、w’(t+1)和w’(t+2),假设该叶子节点对应词典D中的词为w,记:
1,pw:从根节点出发到达w对应叶子节点的路径。
2.lw:路径pw中包含节点的个数,这里的节点包括叶子节点和非叶子节点,
3.表示路径pw中第j个节点对应的编码,这里的节点包括叶子节点和非叶子节点,
4.表示路径pw中第j个非叶子节点对应的向量;
该Skip-gram模型的目标函数为公式(1):
其中,T为Skip-gram模型中训练文本的大小;
采用随机梯度上升法优化Skip-gram模型的目标函数。即扫描全部文档,使用Skip-gram模型构造多个Context和w词对,定义条件概率函数p(Context(w)|w)为公式(2):
其中,p(u|w)定义为公式(3):
式中,u是Context(w)集合中的一个元素,即:u∈Context(w)。
以样本(w,Context(w))为例,Skip-gram模型中采用随机梯度上升法更新所有参数,每当Context(w)中处理一次分词之后会更新当前词w的向量,优化结束后,得到每个词的词向量;
步骤2:SogouCA是搜狗实验室(Sogou Lab)提供的全网新闻数据,该数据来自2012年6月-7月期间新浪、网易、腾讯以及凤凰资讯等若干个新闻站点,由国内、国际、体育、社会、娱乐等18个频道的全网新闻数据,提供URL和正文信息。SogouCS是搜狗实验室(SogouLab)提供的搜狐新闻数据,该数据集来自搜狐新闻2012年6月-7月期间国内、国际、体育、社会、娱乐等18个频道的新闻数据,将上述全网新闻数据和搜狐新闻数据根据类别放在不同的文件夹下,作为文本分类的语料集,并且从文本分类的语料集中随机选取10%作为测试集语料,剩余的90%作为训练集语料;
步骤3:利用jieba分词工具,设置分词模式为精确模式,将步骤2中的训练集语料和测试集语料进行分词处理,将被分词后的训练集语料和测试集语料输入到步骤1中的词向量模型,得出训练集语料和测试集语料分别对应的词向量;
步骤4:定义VDCNN超深卷积神经网络结构模型,其具体结构如图2所示。其中,Embedding Layer(256dim)表示维度为256维的词嵌入层,Conv3-64表示卷积核大小为3数量为64个,pool/2表示池化操作,下采样因子为2,FC(I,O)表示输入长度为I,输出长度为O的全连接层。由于网络结构模型层数较深,为了优化对内存的占用,结合VGG以及ResNets,在定义VDCNN模型结构时设置如下两条规则:
(1)如果卷积之后输出的向量不变,则卷积核数目和特征图像的大小保持不变。
(2)如果卷积之后输出的向量减半,则卷积核数目和特征图像的大小增加一倍。
以图2A列为例,A列是一个深度为12层的超深卷积神经网络(VDCNN),该模型的第一层为词嵌入层,将输入的文本分类语料展开成词向量的序列作为卷积层的输入,在本文实验中词向量是由Word2Vec在Skip-gram模型中训练得出,它生成一个二维张量(tensor),记做(fdim,s),fdim表示词向量在训练时设置的维度,s为输入文本中词的数量。词嵌入层之后的第一个卷积层设置为64个大小为3的卷积核,然后对卷积结果进行池化操作,之后连接一个卷积层,设置其卷积核大小为3数量为128个,然后进行了3次池化,每次池化操作连接两个卷积层,最后再进行池化操作,连接3个全连接层得出分类结果,共计12层。
由图2可知,整个网络模型包括5次池化操作,前三次对输出进行平均值池化,后两次采用最大值池化操作。这里把模型中每两次池化操作之间的卷积层称作为一个卷积块(Convolutional Block)。每个卷积块内的卷积层数可以增加,例如模型A中共有五个卷积块,第二个卷积块有一个卷积层,为128个大小为3×3的卷积核,而在模型B中的第二个卷积块有两个卷积层,所以,根据卷积块内卷积层数的不同,VDCNN模型的深度如A-E所示,可以从12层逐渐增加到29层。该模型为了防止过拟合现象以及降低特征的维数,优化内存占用,在每次平均值池化操作时将下采样因子(strides)设置为2,输出向量减半,根据上述的两条规则,每个卷积块的卷积核数目也由64变为128,256或512,卷积核数目与特征图像的大小相同,而在第四、五个卷积块之后进行k-max下采样策略,每次对采样区选取k个局部最优特征值,舍弃冗余特征,同时能够保证生成固定维度的特征向量。在图2中,FC(I,O)表示输入长度为I,输出长度为O的全连接层。如图2中所示,在进行最后一次最大值池化操作后,设置三个全连接层。当输入文本进入上述12至29层任意一个的网络结构进行特征提取之后,能够有效表示输入文本的特征。最后,再通过Softmax得到分类结果。
在以往的卷积神经网络模型中对自然语言处理时,卷积核的数目大小可能是3、5或者7,但是对于VDCNN模型而言,只需要将所有卷积层的卷积核大小设置为3,因为两个连续3×3的卷积核与一个5×5大小的卷积核具有相同的感受野,而3个连续的3×3的卷积核与一个7×7的卷积核具有相同的感受野。由于设置所有的卷积层激活函数为ReLU,所以每一个卷积层增加了决策函数的非线性。于是,相比使用一个7×7大小的卷积核,3个连续3×3大小的卷积核进行了3次非线性处理,这样就增加了网络结构的学习能力,输入文本经过深层网络的卷积之后就能得到具有更加优秀表征效果的特征向量。另外,使用3×3的卷积核降低了参数的个数,假设三个卷积层使用3×3大小的卷积核处理C通道的特征图时,一共有3×(32×C2)=27C2个参数,而一个7×7卷积核的卷积层则有1×(72×C2)=49C2个参数,减少了约50%。
在卷积块中,对数据进行卷积之后又进行了批规范化操作(Batch Normalization简称BN)。在超深卷积神经网络(VDCNN)中,每一个卷积块(Convolutional Block)的详细结构如图3所示。其中,Conv3-128表示卷积核大小为3数量为128个,ReLU表示激活函数为ReLU。当较深传统的网络结构模型进行训练时,随着层数的增加出现梯度消失问题(Vanishing Gradients)导致训练难以收敛。由于每一层网络的输入都会因为上一层参数的变化导致其分布发生改变,而训练过程要求每一层适应输入的分布,这就带来降低学习率、友好小心地初始化的问题,为了解决这个问题,本发明在每个卷积块中引入了BN,其基本思想是:在每次随机梯度下降(SGD)时,对于每个隐层的神经元,通过mini-batch(mini-batch指的就是分批处理,它的结果以错误率的方式表示为:每一次epoch(迭代)中,所有的小batch的平均损失函数值)来对相应的activation做规范化操作,把逐渐向非线性函数映射后取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的标准正态分布中,而最后的“scale and shift”(BN算法的最后一步被称为:“scale and shift”)操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入,即通过式(4)还原最初的输入:
其中,Var表示随机变量的方差,x表示在做非线性变换前的激活输入值,也就是神经元的输出;γ,β表示需要训练的参数,E表示数学期望,k表示第k维的数据。这样使非线性变换函数的输出落入到对输入更加敏感的区域以避免梯度消失问题。当梯度一直能保证较大状态时,神经网络的参数调整效率会大大增高,其损失函数迈向最优值的步进也会相应增大,能够加快收敛速度。
在VDCNN模型层数较多的情况下,为了加快收敛速度降低学习周期,在VDCNN模型的卷积层和全连接层设置激活函数为ReLU,具体公式为式(5):
Y(x)=max(0,x) (5)
其中,x表示神经元的输出,max表示取x和0中的较大的那个值。
如果只是单纯的增加网络结构的层数和深度,文本分类模型的精度得到饱和之后会迅速下滑,并且这个性能下降不是过拟合导致的。为了解决一个合适深度的模型因加入额外的层数导致训练误差变大的问题,本发明在VDCNN中的每个卷积块之间引入ResNets中的捷径连接(Shortcut),即每个卷积块之间的输出不是传统神经中的输入映射,而是输入的映射和输入的叠加,该过程用式(6)表示,其中,x0为上一层的输出,H(x0)为期望的网络层关系映射,F(x0)为需要学习的残差函数(Residual Function)使得:
H(x0)=F(x0)+x0 (6),
最后,通过Softmax进行分类,得到超深卷积神经网络结构模型;
步骤5:将步骤3中得到的训练集语料所对应的词向量输入到步骤4中建立的超深卷积神经网络结构模型中,一共迭代30次,训练得出文本分类模型;然后将步骤3中测试集语料所对应的词向量输入到文本分类模型中,即可输出测试集语料所对应的分类结果,计算出文本分类模型的准确率为90%以上即可用于中文文本分类;
步骤6:将需要分类的中文文本输入到步骤1的词向量模型中,得到该需要分类的中文文本的词向量,然后将该词向量输入到步骤5的文本分类模型中,即完成中文文本分类。
本实施例所采用的的硬件环境为但不限于此:Win8.1/64位操作系统,Xeon E5-1620 CPU,DDR4 8G内存,NVIDIA Quadro K2200 4G显卡。
为了全面且准确地评估本发明所提方法的性能,实验将在SogouCA、SogouCS以及复旦大学文本分类语料库3个数据集上测试。
实验1:
实验1是具有12层的VDCNN与其他分类方法的结果对比,为了评估本文提出的超深卷积神经网络(VDCNN)模型实验从错误率的角度与其他模型方法进行实验结果的对比。本实验中对于现有的其他分类方法均以SogouCA全网新闻数据为检验基础,对于本发明VDCNN模型分别以SogouCA全网新闻数据和SogouCS搜狐新闻数据为检验基础,详细实验结果如表1所示。实验结果中可以看出,本实施例提出的VDCNN网络结构模型在使用了BatchNormalization以及引入了ResNets的Shortcut之后,并没有因为网络结构模型深度的大幅度增加而导致梯度消失或者准确性下降等问题,并且通过Word Embedding与VDCNN模型二者相结合,其文本分类的精确率(accuracy)相较于其他文本分类的方法也得到明显提升。实验在迭代30次后错误率稳定在2.37%左右。
表1VDCNN模型与其他分类方法错误率比较
模型 | 错误率 | 模型 | 错误率 |
BoW | 7.15 | ConvNet(event) | 7 |
LSTM | 4.82 | ConvNet(event+bigram+trigram) | 4.9 |
Lg.w2v Conv. | 4.39 | Attention Based LSTM | 7.82 |
Sm.Lk.Conv | 4.95 | Bi-LSTM | 7.11 |
Lg.Conv | 4.88 | 正逆序组合Attention Based LSTM | 5.19 |
MI-SVM | 10.3 | VDCNN(Sogou CA) | 2.37 |
LSI-SVM | 9.3 | VDCNN(Sogou CS) | 2.19 |
实验2:
实验2分别使用12、14、17、20及29层的VDCNN模型对SogouCS语料库进行试验,以检验本发明提出的VDCNN模型在深度增加方面对分类效果提升的有效性。从实验2的结果可以得出,文本的分类效果会随着VDCNN模型深度的增加而提升。实验结果如表2所示。
表2不同深度的VDCNN模型的分类效果
深度(Depth) | 准确率(Precision) | 精确率(Accuracy) |
12 | 97.92 | 97.81 |
14 | 97.86 | 97.93 |
17 | 98.21 | 98.02 |
20 | 98.38 | 98.35 |
29 | 99.25 | 99.12 |
实验3:
为了解决由于网络深度增加导致准确率退化的问题,在本实施例提出的VDCNN模型中增加Shortcut进行残差学习。实验3将带有Shortcut的网络结构与没有添加Shortcut的网络结构进行了对比,使用的数据集为SogouCS语料库,实验结果如表3所示,其中,实验结果为文本分类的错误率。实验结果表明,使用带有Shortcut的网络结构能够有效提高文本分类的准确率。
表3带有Shortcut与不带Shortcut的VDCNN模型的分类效果
深度(Depth) | 带(With Shortcut) | 不带(Without Shortcut) |
12 | 2.19 | 5.23 |
14 | 2.07 | 4.62 |
17 | 1.98 | 3.98 |
20 | 1.65 | 2.37 |
29 | 0.88 | 1.61 |
实验4:
为了解决深度神经网络梯度消失的问题,以及提高模型的精度,本实施例方法在卷积块内中引入了批规范化操作(Batch Normalization),对卷积结果进行规范化操作后,可能会改变下一层原来的输入,也可能没有改变,这样,既可能改变也可能保持了原来的输入,大大提高了模型的容纳能力(capacity),从而提高了文本分类的准确率。实验4将没有进行批规范化操作的模型与本实施例提出的模型进行了对比,实验结果如表4所示,其中,实验结果为文本分类的精确率。
表4增加BN操作与没有BN操作的分类效果
深度(Depth) | 不带BN(Without BN) | 带有BN(With BN) |
12 | 94.17 | 97.81 |
14 | 94.89 | 97.93 |
17 | 95.34 | 98.02 |
20 | 94.92 | 98.35 |
29 | 96.76 | 99.12 |
综上所述,本发明基于超深卷积神经网络结构模型的中文文本分类方法将词向量与VDCNN模型相结合,能够有效解决中文文本分类中现有卷积神经网络模型卷积核大小难以确定、文本的向量维度过高等问题,本发明提出的方法通过在原有网络结构的基础之上融入Batch Normalization和Shortcut,有效解决了随着网络深度增加带来的梯度消失和分类精确度下降问题。基于真实数据集的实验测试,证明本发明相较以往方法,能够大幅增强分类任务的性能以及提高文本分类的准确度。
本发明中所述的Skip-gram模型、CBOW模型均为现有模型,随机梯度上升法、BN算法均为现有方法。VGG是牛津大学计算机视觉组(Visual Geometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。ResNets全称是ResidualNetworks,中文名为残差网络。
以上所述的具体实施例,对本发明的技术方案和测试效果进行了详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明权利要求的保护范围之内。
本发明未述及之处适用于现有技术。
Claims (2)
1.一种基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:
步骤1:从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,同时去除停用词,建立词典D,然后利用Word2Vec工具训练词典D中的词,得出词向量模型,同时获得词向量;
步骤2:从网上搜集多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,并将文本分类的语料集中的文本分类语料分为训练集语料和测试集语料;
步骤3:将步骤2中的训练集语料和测试集语料分别进行分词处理,然后利用步骤1得到的词向量模型得出训练集语料和测试集语料分别对应的词向量;
步骤4:建立超深卷积神经网络结构模型,
第一层为词嵌入层,在词嵌入层之后连接五个卷积块,每个卷积块内部由卷积层连接而成,卷积块内部每进行一次卷积之后进行一次批规范化操作,每个卷积层中卷积核的数量均为3;设置每个卷积块之间进行池化操作,同时在每个卷积块之间设置一个捷径连接,在最后一个卷积块之后进行最大值池化,之后连接三个全连接层,设置卷积层和全连接层的激活函数均为ReLU,再通过Softmax进行分类,得到超深卷积神经网络结构模型,所述超深卷积神经网络结构模型的深度为词嵌入层的个数、全连接层的个数和卷积层的个数三者之和;
步骤5:将步骤3中得到的训练集语料所对应的词向量输入到步骤4中建立的超深卷积神经网络结构模型中,训练得出文本分类模型;将步骤3中测试集语料所对应的词向量输入到文本分类模型中,输出测试集语料所对应的分类结果,计算文本分类模型的准确率为90%以上即可用于中文文本分类;
步骤6:将需要分类的中文文本输入到步骤1的词向量模型中,得到该需要分类的中文文本的词向量,然后将该词向量输入到步骤5的文本分类模型中,即完成中文文本分类。
2.根据权利要求1所述的基于超深卷积神经网络结构模型的中文文本分类方法,其特征在于所述超深卷积神经网络结构模型的深度为12-29,当深度为12时,前两个卷积块中卷积层的数量均为1,后三个卷积块中卷积层的数量均为2;当深度为14时,每个卷积块中卷积层的数量均为2;当深度为17时,前两个卷积块中卷积层的数量均为2,后三个卷积块中卷积层的数量均为3;当深度为20时,前两个卷积块中卷积层的数量均为2,后三个卷积块中卷积层的数量均为4;当深度为29时,前两个卷积块中卷积层的数量均为6,第三个卷积块中卷积层的数量为5,后两个卷积块中卷积层的数量均为4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710573388.8A CN107301246A (zh) | 2017-07-14 | 2017-07-14 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710573388.8A CN107301246A (zh) | 2017-07-14 | 2017-07-14 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107301246A true CN107301246A (zh) | 2017-10-27 |
Family
ID=60132889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710573388.8A Withdrawn CN107301246A (zh) | 2017-07-14 | 2017-07-14 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301246A (zh) |
Cited By (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN107992941A (zh) * | 2017-12-28 | 2018-05-04 | 武汉璞华大数据技术有限公司 | 一种合同条款分类方法 |
CN108153727A (zh) * | 2017-12-18 | 2018-06-12 | 浙江鹏信信息科技股份有限公司 | 利用语义挖掘算法标识营销电话的方法及治理营销电话的系统 |
CN108154235A (zh) * | 2017-12-04 | 2018-06-12 | 盈盛资讯科技有限公司 | 一种图像问答推理方法、系统及装置 |
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN108288077A (zh) * | 2018-04-17 | 2018-07-17 | 天津和或节能科技有限公司 | 废纸分类器建立装置及方法、废纸分类系统及方法 |
CN108304530A (zh) * | 2018-01-26 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108319633A (zh) * | 2017-11-17 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108647206A (zh) * | 2018-05-04 | 2018-10-12 | 重庆邮电大学 | 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 |
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN108960124A (zh) * | 2018-06-28 | 2018-12-07 | 北京陌上花科技有限公司 | 用于行人再识别的图像处理方法及装置 |
CN109087130A (zh) * | 2018-07-17 | 2018-12-25 | 深圳先进技术研究院 | 一种基于注意力机制的推荐系统及推荐方法 |
CN109101579A (zh) * | 2018-07-19 | 2018-12-28 | 深圳追科技有限公司 | 客服机器人知识库歧义检测方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109194635A (zh) * | 2018-08-22 | 2019-01-11 | 杭州安恒信息技术股份有限公司 | 基于自然语言处理与深度学习的恶意url识别方法及装置 |
CN109189901A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
CN109241283A (zh) * | 2018-08-08 | 2019-01-18 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109508461A (zh) * | 2018-12-29 | 2019-03-22 | 重庆猪八戒网络有限公司 | 基于中文自然语言处理的订单价格预测方法、终端及介质 |
CN109726299A (zh) * | 2018-12-19 | 2019-05-07 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
CN109766410A (zh) * | 2019-01-07 | 2019-05-17 | 东华大学 | 一种基于fastText算法的新闻文本自动分类系统 |
CN109858027A (zh) * | 2019-01-22 | 2019-06-07 | 北京万诚信用评价有限公司 | 互联网电商商品信息四品一械识别分类方法 |
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN109960726A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN110019792A (zh) * | 2017-10-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置和分类器模型训练方法 |
CN110020431A (zh) * | 2019-03-06 | 2019-07-16 | 平安科技(深圳)有限公司 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
CN110110085A (zh) * | 2019-04-24 | 2019-08-09 | 中电海康集团有限公司 | 基于字符级神经网络与svm的交通事故文本分类方法和系统 |
CN110188781A (zh) * | 2019-06-06 | 2019-08-30 | 焦点科技股份有限公司 | 一种基于深度学习的古诗文自动识别方法 |
CN110232188A (zh) * | 2019-06-04 | 2019-09-13 | 上海电力学院 | 电网用户故障报修工单的文本自动分类方法 |
CN110245353A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 自然语言表示方法、装置、设备及存储介质 |
CN110263152A (zh) * | 2019-05-07 | 2019-09-20 | 平安科技(深圳)有限公司 | 基于神经网络的文本分类方法、系统及计算机设备 |
CN110275954A (zh) * | 2019-06-21 | 2019-09-24 | 深圳大学 | 基于时间卷积网络的中文文本分类方法 |
CN110390010A (zh) * | 2019-07-31 | 2019-10-29 | 电子科技大学 | 一种自动文本摘要方法 |
CN110413769A (zh) * | 2018-04-25 | 2019-11-05 | 北京京东尚科信息技术有限公司 | 场景分类方法、装置、存储介质及其电子设备 |
CN110472041A (zh) * | 2019-07-01 | 2019-11-19 | 浙江工业大学 | 一种面向客服在线质检的文本分类方法 |
WO2019227629A1 (zh) * | 2018-05-30 | 2019-12-05 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
WO2020025285A1 (de) * | 2018-08-03 | 2020-02-06 | Robert Bosch Gmbh | Computerimplementiertes verfahren und vorrichtung für textanalyse |
WO2020034750A1 (zh) * | 2018-08-14 | 2020-02-20 | 阿里巴巴集团控股有限公司 | 一种分类模型生成方法及装置、一种数据识别方法及装置 |
WO2020048061A1 (zh) * | 2018-09-05 | 2020-03-12 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111159200A (zh) * | 2019-12-31 | 2020-05-15 | 华中科技大学鄂州工业技术研究院 | 一种基于深度学习的数据存储方法和装置 |
CN111177328A (zh) * | 2018-11-12 | 2020-05-19 | 阿里巴巴集团控股有限公司 | 问答匹配系统和方法及问答处理设备和介质 |
CN111199157A (zh) * | 2018-11-19 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 一种文本数据处理方法及其装置 |
CN111198945A (zh) * | 2019-12-03 | 2020-05-26 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN111291860A (zh) * | 2020-01-13 | 2020-06-16 | 哈尔滨工程大学 | 一种基于卷积神经网络特征压缩的异常检测方法 |
CN111339292A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 文本分类网络的训练方法、系统、设备及存储介质 |
CN111460818A (zh) * | 2020-03-31 | 2020-07-28 | 中国测绘科学研究院 | 一种基于增强胶囊网络的网页文本分类方法及存储介质 |
CN111738021A (zh) * | 2019-03-25 | 2020-10-02 | 株式会社理光 | 神经机器翻译模型的词向量处理方法、装置及存储介质 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112200318A (zh) * | 2020-10-10 | 2021-01-08 | 广州云从人工智能技术有限公司 | 一种目标检测方法、装置、机器可读介质及设备 |
CN112582074A (zh) * | 2020-11-02 | 2021-03-30 | 吉林大学 | 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法 |
CN112597764A (zh) * | 2020-12-23 | 2021-04-02 | 青岛海尔科技有限公司 | 文本分类方法及装置、存储介质、电子装置 |
CN112765348A (zh) * | 2021-01-08 | 2021-05-07 | 重庆创通联智物联网有限公司 | 一种短文本分类模型训练方法、装置 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
US11562145B2 (en) * | 2018-02-01 | 2023-01-24 | Tencent Technology (Shenzhen) Company Limited | Text classification method, computer device, and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095735A (zh) * | 2016-06-06 | 2016-11-09 | 北京中加国道科技有限责任公司 | 一种基于深度神经网络检测学术文献抄袭的方法 |
CN106202010A (zh) * | 2016-07-12 | 2016-12-07 | 重庆兆光科技股份有限公司 | 基于深度神经网络构建法律文本语法树的方法和装置 |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN106844738A (zh) * | 2017-02-14 | 2017-06-13 | 华南理工大学 | 基于神经网络的食材之间容克关系的分类方法 |
-
2017
- 2017-07-14 CN CN201710573388.8A patent/CN107301246A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095735A (zh) * | 2016-06-06 | 2016-11-09 | 北京中加国道科技有限责任公司 | 一种基于深度神经网络检测学术文献抄袭的方法 |
CN106202010A (zh) * | 2016-07-12 | 2016-12-07 | 重庆兆光科技股份有限公司 | 基于深度神经网络构建法律文本语法树的方法和装置 |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN106844738A (zh) * | 2017-02-14 | 2017-06-13 | 华南理工大学 | 基于神经网络的食材之间容克关系的分类方法 |
Non-Patent Citations (3)
Title |
---|
A.CONNEAU. ET AL: "《Very Deep Convolutional Networks for Text Classification》", 《PROCEEDINGS OF THE 15TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
K.SIMONYAN. ET AL: "《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》", 《ICLR》 * |
蔡慧苹: "《基于卷积神经网络的短文本分类方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (82)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019792A (zh) * | 2017-10-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置和分类器模型训练方法 |
CN108319633A (zh) * | 2017-11-17 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN107832458B (zh) * | 2017-11-27 | 2021-08-10 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN108154235A (zh) * | 2017-12-04 | 2018-06-12 | 盈盛资讯科技有限公司 | 一种图像问答推理方法、系统及装置 |
CN108153727A (zh) * | 2017-12-18 | 2018-06-12 | 浙江鹏信信息科技股份有限公司 | 利用语义挖掘算法标识营销电话的方法及治理营销电话的系统 |
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN107992941A (zh) * | 2017-12-28 | 2018-05-04 | 武汉璞华大数据技术有限公司 | 一种合同条款分类方法 |
CN108304530B (zh) * | 2018-01-26 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108304530A (zh) * | 2018-01-26 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
US11562145B2 (en) * | 2018-02-01 | 2023-01-24 | Tencent Technology (Shenzhen) Company Limited | Text classification method, computer device, and storage medium |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN108288077A (zh) * | 2018-04-17 | 2018-07-17 | 天津和或节能科技有限公司 | 废纸分类器建立装置及方法、废纸分类系统及方法 |
CN110413769A (zh) * | 2018-04-25 | 2019-11-05 | 北京京东尚科信息技术有限公司 | 场景分类方法、装置、存储介质及其电子设备 |
CN108647206B (zh) * | 2018-05-04 | 2021-11-12 | 重庆邮电大学 | 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 |
CN108647206A (zh) * | 2018-05-04 | 2018-10-12 | 重庆邮电大学 | 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 |
CN108763201B (zh) * | 2018-05-17 | 2021-07-23 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
WO2019227629A1 (zh) * | 2018-05-30 | 2019-12-05 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108960124A (zh) * | 2018-06-28 | 2018-12-07 | 北京陌上花科技有限公司 | 用于行人再识别的图像处理方法及装置 |
CN109087130A (zh) * | 2018-07-17 | 2018-12-25 | 深圳先进技术研究院 | 一种基于注意力机制的推荐系统及推荐方法 |
CN109101579A (zh) * | 2018-07-19 | 2018-12-28 | 深圳追科技有限公司 | 客服机器人知识库歧义检测方法 |
JP7271652B2 (ja) | 2018-08-03 | 2023-05-11 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング | テキスト分析のためのコンピュータ実装方法及び装置 |
JP2021533477A (ja) * | 2018-08-03 | 2021-12-02 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | テキスト分析のためのコンピュータ実装方法及び装置 |
WO2020025285A1 (de) * | 2018-08-03 | 2020-02-06 | Robert Bosch Gmbh | Computerimplementiertes verfahren und vorrichtung für textanalyse |
US11875265B2 (en) | 2018-08-03 | 2024-01-16 | Robert Bosch Gmbh | Computer-implemented method and device for text analysis |
CN109241283B (zh) * | 2018-08-08 | 2022-02-11 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN109241283A (zh) * | 2018-08-08 | 2019-01-18 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN109189901A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
WO2020034750A1 (zh) * | 2018-08-14 | 2020-02-20 | 阿里巴巴集团控股有限公司 | 一种分类模型生成方法及装置、一种数据识别方法及装置 |
US11107007B2 (en) | 2018-08-14 | 2021-08-31 | Advanced New Technologies Co., Ltd. | Classification model generation method and apparatus, and data identification method and apparatus |
TWI732226B (zh) * | 2018-08-14 | 2021-07-01 | 開曼群島商創新先進技術有限公司 | 分類模型生成方法及裝置、資料識別方法及裝置 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109194635A (zh) * | 2018-08-22 | 2019-01-11 | 杭州安恒信息技术股份有限公司 | 基于自然语言处理与深度学习的恶意url识别方法及装置 |
WO2020048061A1 (zh) * | 2018-09-05 | 2020-03-12 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN111177328B (zh) * | 2018-11-12 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 问答匹配系统和方法及问答处理设备和介质 |
CN111177328A (zh) * | 2018-11-12 | 2020-05-19 | 阿里巴巴集团控股有限公司 | 问答匹配系统和方法及问答处理设备和介质 |
CN111199157A (zh) * | 2018-11-19 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 一种文本数据处理方法及其装置 |
CN111199157B (zh) * | 2018-11-19 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 一种文本数据处理方法及其装置 |
CN111339292A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 文本分类网络的训练方法、系统、设备及存储介质 |
CN109726299A (zh) * | 2018-12-19 | 2019-05-07 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
CN109508461A (zh) * | 2018-12-29 | 2019-03-22 | 重庆猪八戒网络有限公司 | 基于中文自然语言处理的订单价格预测方法、终端及介质 |
CN109766410A (zh) * | 2019-01-07 | 2019-05-17 | 东华大学 | 一种基于fastText算法的新闻文本自动分类系统 |
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN109858027A (zh) * | 2019-01-22 | 2019-06-07 | 北京万诚信用评价有限公司 | 互联网电商商品信息四品一械识别分类方法 |
CN109960726B (zh) * | 2019-02-13 | 2024-01-23 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN109960726A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN110020431A (zh) * | 2019-03-06 | 2019-07-16 | 平安科技(深圳)有限公司 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
CN111738021B (zh) * | 2019-03-25 | 2023-10-31 | 株式会社理光 | 神经机器翻译模型的词向量处理方法、装置及存储介质 |
CN111738021A (zh) * | 2019-03-25 | 2020-10-02 | 株式会社理光 | 神经机器翻译模型的词向量处理方法、装置及存储介质 |
CN110110085A (zh) * | 2019-04-24 | 2019-08-09 | 中电海康集团有限公司 | 基于字符级神经网络与svm的交通事故文本分类方法和系统 |
CN110263152B (zh) * | 2019-05-07 | 2024-04-09 | 平安科技(深圳)有限公司 | 基于神经网络的文本分类方法、系统及计算机设备 |
CN110263152A (zh) * | 2019-05-07 | 2019-09-20 | 平安科技(深圳)有限公司 | 基于神经网络的文本分类方法、系统及计算机设备 |
CN110232188A (zh) * | 2019-06-04 | 2019-09-13 | 上海电力学院 | 电网用户故障报修工单的文本自动分类方法 |
CN110188781A (zh) * | 2019-06-06 | 2019-08-30 | 焦点科技股份有限公司 | 一种基于深度学习的古诗文自动识别方法 |
CN110188781B (zh) * | 2019-06-06 | 2022-07-22 | 焦点科技股份有限公司 | 一种基于深度学习的古诗文自动识别方法 |
CN110245353B (zh) * | 2019-06-20 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 自然语言表示方法、装置、设备及存储介质 |
CN110245353A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 自然语言表示方法、装置、设备及存储介质 |
CN110275954A (zh) * | 2019-06-21 | 2019-09-24 | 深圳大学 | 基于时间卷积网络的中文文本分类方法 |
CN110472041A (zh) * | 2019-07-01 | 2019-11-19 | 浙江工业大学 | 一种面向客服在线质检的文本分类方法 |
CN110390010A (zh) * | 2019-07-31 | 2019-10-29 | 电子科技大学 | 一种自动文本摘要方法 |
CN110609898B (zh) * | 2019-08-19 | 2023-05-05 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN111078833B (zh) * | 2019-12-03 | 2022-05-20 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111198945A (zh) * | 2019-12-03 | 2020-05-26 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN111159200A (zh) * | 2019-12-31 | 2020-05-15 | 华中科技大学鄂州工业技术研究院 | 一种基于深度学习的数据存储方法和装置 |
CN111159200B (zh) * | 2019-12-31 | 2023-10-17 | 华中科技大学鄂州工业技术研究院 | 一种基于深度学习的数据存储方法和装置 |
CN111291860A (zh) * | 2020-01-13 | 2020-06-16 | 哈尔滨工程大学 | 一种基于卷积神经网络特征压缩的异常检测方法 |
CN111460818A (zh) * | 2020-03-31 | 2020-07-28 | 中国测绘科学研究院 | 一种基于增强胶囊网络的网页文本分类方法及存储介质 |
CN112085837B (zh) * | 2020-09-10 | 2022-04-26 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112200318A (zh) * | 2020-10-10 | 2021-01-08 | 广州云从人工智能技术有限公司 | 一种目标检测方法、装置、机器可读介质及设备 |
CN112582074B (zh) * | 2020-11-02 | 2022-10-18 | 吉林大学 | 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法 |
CN112582074A (zh) * | 2020-11-02 | 2021-03-30 | 吉林大学 | 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法 |
CN112597764A (zh) * | 2020-12-23 | 2021-04-02 | 青岛海尔科技有限公司 | 文本分类方法及装置、存储介质、电子装置 |
CN112765348A (zh) * | 2021-01-08 | 2021-05-07 | 重庆创通联智物联网有限公司 | 一种短文本分类模型训练方法、装置 |
CN114357168B (zh) * | 2021-12-31 | 2022-08-02 | 成都信息工程大学 | 一种文本分类方法 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301246A (zh) | 基于超深卷积神经网络结构模型的中文文本分类方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
JP6738769B2 (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN110502742A (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN112966117A (zh) | 实体链接方法 | |
CN108038106A (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN111061873B (zh) | 一种基于Attention机制的多通道的文本分类方法 | |
Niyozmatova et al. | Classification based on decision trees and neural networks | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN111090749A (zh) | 一种基于TextCNN的报刊出版物分类方法及系统 | |
Touati-Hamad et al. | Arabic quran verses authentication using deep learning and word embeddings | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113688621A (zh) | 一种长短不一的文本在不同粒度下的文本匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171027 |