CN110532392A - 一种基于卷积神经网络短文本分类方法 - Google Patents
一种基于卷积神经网络短文本分类方法 Download PDFInfo
- Publication number
- CN110532392A CN110532392A CN201910821957.5A CN201910821957A CN110532392A CN 110532392 A CN110532392 A CN 110532392A CN 201910821957 A CN201910821957 A CN 201910821957A CN 110532392 A CN110532392 A CN 110532392A
- Authority
- CN
- China
- Prior art keywords
- short text
- convolution
- characteristic pattern
- neural networks
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种卷积神经网络的短文本分类方法,包括以下步骤文本表示、卷积处理、池化处理和特征组合;对短文本进行词向量训练,每个单词采用训练好的词向量表示,用词向量表示的单词进行级联能较好地表示出句子的语义特征,经过级联后每个短文本转换成矩阵,作为卷积神经网络的输入来提取短文本的特征值;本发明分类效果好、准确率高,耗时短的优点,具有较高的召回率和F1值。
Description
技术领域
本发明涉及机器学习和数据挖掘领域领域,特别是涉及一种基于卷积神经网络短文本分类方法。
背景技术
随着互联网技术的发展,文本信息作为网络交互主要手段,正源源不断的产生,例如评论、微博、问答等,面对这些大量的短文本信息,高效筛选与分类技术在信息处理中大量使用。然而,目前传统的词袋处理模型,是一种基于向量空间模型的表示方法,句子和文档被看成无序的单词集合,单词不包含语法信息,而且当面对大规模数据集时,很容易产生维度灾难和特征词稀疏问题,最终导致系统性能的降低。因此现在急需一种高效准确的短文本分类方法。
发明内容
本发明的目的是提供一种卷积神经网络的短文本分类方法,以解决上述现有技术存在的问题,实现从短文本中提取更抽象的特征值、单词位置信息和单词间的相关语义信息操作,以此来实现短文本分类的高效准确处理。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于卷积神经网络的短文本分类方法,包括如下步骤:
步骤一、文本表示:采用Word2vec模型对短文本进行词向量训练,每个单词采用训练好的词向量表示,所述词向量表示的单词进行级联能够表示出句子的语义特征,经过级联后每个短文本转换成矩阵,作为卷积神经网络的输入来提取短文本的特征值;
步骤二、卷积处理:对短文本中每个窗口中的单词序列进行卷积操作得到一个特征图,短文本经过一个卷积核形成的特征图,不同的卷积核从不同的角度提取出短文本的特征,通过设置不同的卷积核的个数进而得到多个不同的特征图;
步骤三、池化处理:以池化区域大小为步长来进行扫描采样,而不是连续采样,先将输入的特征图划分为若干个w×h大小的子区域,每个子区域经过池化之后,输出相应池化操作后的值,并取出特征图中每个池化区域中最大特征值;
步骤四、特征组合:通过设置卷积核的个数核池化区域大小,从原始文本中提取包含更多语义信息和位置信息的特征值,然后把所有提取的特征值拼接到一起,形成一个向量,所述向量就是经过卷积神经网络处理后对应于短文本的特征向量;
步骤五、将步骤四中的特征值组成n维向量,将所述n维向量输入到制定分类器中进行分类。
优选的,所述步骤一具体过程为:卷积核用w表示,w∈IRhk,其中,h表示卷积窗口高度,k表示词向量的维度大学,每经过一个高度为h,宽度为k的词序列窗口就产生一个新的特征值;其中,wi:h表示一个长度为h单词序列(wi,wi+1,…,wi+h),wi表示一个单词,每个特征值ci的计算公式如下:
ci=f(wWi:i+h+b)
其中,b是卷积层的偏置项,b∈R,操作符(.)表示卷积操作,f(.)是激活函数。优选的,所述步骤二具体过程为:对短文本中每个窗口中的单词序列(w1:h,w2:h,…,wN-h+1:N)进行卷积操作得到一个特征图,所述特征图的计算公式如下:
c=(c1,c2,…,cN-h+1)
其中,N表示一个短文本中单词的个数,h表示卷积核窗口的高度,c为短文本经过一个卷积核形成的特征图。
优选的,所述步骤二具体过程为:池化区域的宽度为w,高度为h,池化过程中先将输入的特征图划分为若干个w×h大小的子区域,每个子区域经过池化之后,输出相应池化操作后的值,然后取出特征图中每个池化区域中最大特征值,所述最大特征值的计算公式如下:
cmax=max(ci)
其中,ci表示一个卷积核对原文本进行卷积操作后形成的特征图,0<i≤M,M是特征图的个数,采用1-maxpooling操作,池化区域的高为N-h+1操作,宽度为1,经过池化后,一个特征图就会得到一个值。
本发明公开了以下技术效果:通过对短文本单词的位置信息和词间相关语义信息进行词向量训练,每个单词采用训练好的词向量表示,用词向量表示的单词进行级联能很好地表示出句子的语义特征,经过级联后每个短文本转换成矩阵,作为卷积神经网络的输入来提取更抽象的短文本的特征值,基于卷积和池化操作,相比较其他分类算法,具有分类效果好、准确率高,耗时短的优点;具有较高的召回率和F1值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明卷积神经网络短文本流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种本发明提供的短文本的卷积神经网络分类方法,包括如下步骤:
步骤一:文本表示:采用Word2vec模型对短文本进行词向量训练,每个单词采用训练好的词向量表示,所述词向量表示的单词进行级联能够表示出句子的语义特征,经过级联后每个短文本转换成矩阵,作为卷积神经网络的输入来提取短文本的特征值;
卷积核用w表示,w∈IRhk,其中,h表示卷积窗口高度,k表示词向量的维度大学,每经过一个高度为h,宽度为k的词序列窗口就产生一个新的特征值;其中,wi:h表示一个长度为h单词序列(wi,wi+1,…,wi+h),wi表示一个单词,每个特征值ci的计算公式如下:
ci=f(wWi:i+h+b)
其中,b是卷积层的偏置项,b∈R,操作符(·)表示卷积操作,f(·)是激活函数。
步骤二、卷积处理:对短文本中每个窗口中的单词序列进行卷积操作得到一个特征图,短文本经过一个卷积核形成的特征图,不同的卷积核从不同的角度提取出短文本的特征,通过设置卷积核的个数进而得到多个不同的特征图;
步骤三、池化处理:以池化区域大小为步长来进行扫描采样,而不是连续采样,池化的过程如下:设池化区域的宽度为w,高度为h,池化过程中先将输入的特征图划分为若干个w×h大小的子区域,每个子区域经过池化之后,输出相应池化操作后的值,可以采用max-pooling方法,该操作取出特征图中每个池化区域中最大特征值,所述最大特征值的计算公式如下:
cmax=max(ci)
其中,ci表示一个卷积核对原文本进行卷积操作后形成的特征图,0<i≤M,M是特征图的个数,采用1-maxpooling操作,池化区域的高为N-h+1操作,宽度为1,经过池化后,一个特征图就会得到一个值。
步骤四、特征组合:通过设置卷积核的个数核池化区域大小,从原始文本中提取包含更多语义信息和位置信息的特征值,然后把所有提取的特征值拼接到一起,形成一个向量,所述向量就是经过卷积神经网络处理后对应于短文本的特征向量。
步骤五、将步骤四中的特征值组成n维向量,将所述n维向量输入到制定可以采用K最近邻算法(KNN)作为分类器中进行分类。
为了验证基于卷积神经网络模型在短文本分类方面具有的更好的表现,我们使用ChnSentiCor中文数据集,与传统机器学习方法进行对比,包括NB(NaiveBayes)、RandomForest和LinearSVM,同时包括kim提出的CNN模型。为了排除文本特征表示方式不同带来的影响,本文在对比传统机器学习方式时,均采用词向量表示方式。不同分类模型间对比结果如表1所示:
表1
从表1中可以看到,基于卷积神经网络的分类模型,在文本分类领域,相比传统机器学习算法具有更好的效果。原因是基于深度学习的模型,能够更好刻画分类特征,保留更多的分类特征。其中CNN-rand与CNN-static较为接近,且后者比前者高,这是因为前者的词向量模型是随机初始化的,在训练时修改;后者是经过word2vec提前训练得到的词向量,能更好的表示文本语义。本文模型加入注意力机制后,优化特征的提取,同时采用更优的池化方式,使其分类效果得到了一定的提升。
为了突出所提出的模型对不同数据集的分类效果,我们使用多种英文分类数据集进行测试。与典型的CNN-static方法对比,验证本文模型的分类效果。不同方法分类效果结果对比如表2所示:
表2
从表2可以看出,本文所提出的模型在各个数据集上,均具有较好的表现,提升了分类精度。说明本文模型在不同数据集上拥有很好的泛化能力。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (4)
1.一种卷积神经网络的短文本分类方法,其特征在于,包括如下步骤:
步骤一、文本表示:采用Word2vec模型对短文本进行词向量训练,每个单词采用训练好的词向量表示,所述词向量表示的单词进行级联能够表示出句子的语义特征,经过级联后每个短文本转换成矩阵,作为卷积神经网络的输入来提取短文本的特征值;
步骤二、卷积处理:对短文本中每个窗口中的单词序列进行卷积操作得到一个特征图,短文本经过一个卷积核形成的特征图,不同的卷积核从不同的角度提取出短文本的特征,通过设置不同的卷积核的个数进而得到多个不同的特征图;
步骤三、池化处理:以池化区域大小为步长来进行扫描采样,而不是连续采样,先将输入的特征图划分为若干个w×h大小的子区域,每个子区域经过池化之后,输出相应池化操作后的值,并取出特征图中每个池化区域中最大特征值;
步骤四、特征组合:通过设置卷积核的个数核池化区域大小,从原始文本中提取包含更多语义信息和位置信息的特征值,然后把所有提取的特征值拼接到一起,形成一个向量,所述向量就是经过卷积神经网络处理后对应于短文本的特征向量;
步骤五、将步骤四中的特征值组成n维向量,将所述n维向量输入到制定分类器中进行分类。
2.根据权利要求1所述的卷积神经网络的短文本分类方法,其特征在于:所述步骤一具体过程为:卷积核用w表示,w∈IRhk,其中,h表示卷积窗口高度,k表示词向量的维度大学,每经过一个高度为h,宽度为k的词序列窗口就产生一个新的特征值;其中,wi:h表示一个长度为h单词序列(wi,wi+1,…,wi+h),wi表示一个单词,每个特征值ci的计算公式如下:
ci=f(wWi:i+h+b)
其中,b是卷积层的偏置项,b∈R,操作符(.)表示卷积操作,f(.)是激活函数。
3.根据权利要求1所述的卷积神经网络的短文本分类方法,其特征在于:所述步骤二具体过程为:对短文本中每个窗口中的单词序列(w1:h,w2:h,…,wN-h+1:N)进行卷积操作得到一个特征图,所述特征图的计算公式如下:
c=(c1,c2,…,cN-h+1)
其中,N表示一个短文本中单词的个数,h表示卷积核窗口的高度,c为短文本经过一个卷积核形成的特征图。
4.根据权利要求1所述的卷积神经网络的短文本分类方法,其特征在于:所述步骤三具体过程为:池化区域的宽度为W,高度为h,池化过程中先将输入的特征图划分为若干个w×h大小的子区域,每个子区域经过池化之后,输出相应池化操作后的值,然后取出特征图中每个池化区域中最大特征值,所述最大特征值的计算公式如下:
cmax=max(ci)
其中,ci表示一个卷积核对原文本进行卷积操作后形成的特征图,0<i≤M,M是特征图的个数,采用1-maxpooling操作,池化区域的高为N-h+1操作,宽度为1,经过池化后,一个特征图就会得到一个值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910821957.5A CN110532392A (zh) | 2019-09-02 | 2019-09-02 | 一种基于卷积神经网络短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910821957.5A CN110532392A (zh) | 2019-09-02 | 2019-09-02 | 一种基于卷积神经网络短文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532392A true CN110532392A (zh) | 2019-12-03 |
Family
ID=68666071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910821957.5A Pending CN110532392A (zh) | 2019-09-02 | 2019-09-02 | 一种基于卷积神经网络短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532392A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN108920586A (zh) * | 2018-06-26 | 2018-11-30 | 北京工业大学 | 一种基于深度神经映射支持向量机的短文本分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
-
2019
- 2019-09-02 CN CN201910821957.5A patent/CN110532392A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN108920586A (zh) * | 2018-06-26 | 2018-11-30 | 北京工业大学 | 一种基于深度神经映射支持向量机的短文本分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
Non-Patent Citations (3)
Title |
---|
YOON KIM: "Convolutional Neural Networks for Sentence Classification", 《ARXIV》 * |
殷亚博,杨文忠,杨慧婷,许超英: "基于卷积神经网络和KNN的短文本分类算法研究", 《计算机工程》 * |
牛亚峰: "基于Word2vec和CNN的文本分类:综述&实践", 《知乎》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815369B (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
Mahdavi et al. | ICDAR 2019 CROHME+ TFD: Competition on recognition of handwritten mathematical expressions and typeset formula detection | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
Jain et al. | Multimodal document image classification | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN107944480A (zh) | 一种企业行业分类方法 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN108427670A (zh) | 一种基于语境词向量和深度学习的情感分析方法 | |
CN107066553A (zh) | 一种基于卷积神经网络与随机森林的短文本分类方法 | |
CN107609121A (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN108280064A (zh) | 分词、词性标注、实体识别及句法分析的联合处理方法 | |
CN103699523A (zh) | 产品分类方法和装置 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN107766324A (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN106599155A (zh) | 一种网页分类方法及系统 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN107506786A (zh) | 一种基于深度学习的属性分类识别方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
Farid et al. | Mining complex data streams: discretization, attribute selection and classification | |
WO2021051864A1 (zh) | 词典扩充方法及装置、电子设备、存储介质 | |
Jung et al. | Devil's on the edges: Selective quad attention for scene graph generation | |
CN106886576A (zh) | 一种基于预分类的短文本关键词提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |