CN109947864A - 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 - Google Patents
一种基于tf-idf和cnn启发式短文本特征提取与分类方法 Download PDFInfo
- Publication number
- CN109947864A CN109947864A CN201810685215.XA CN201810685215A CN109947864A CN 109947864 A CN109947864 A CN 109947864A CN 201810685215 A CN201810685215 A CN 201810685215A CN 109947864 A CN109947864 A CN 109947864A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- training
- union
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000013459 approach Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000008676 import Effects 0.000 claims abstract description 7
- 238000013145 classification model Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012956 testing procedure Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本专利公开发明了一种基于TF‑IDF和CNN启发式短文本特征提取与分类方法,首先对短文本集用结巴分词工具实现中文的文本分词,然后去除文本噪声词,得到文本数据集UNION,其次使用TF‑IDF特征选择方法处理文本数据集UNION,得出选择后的文本特征值VALUE1,将VALUE1导入到卷积神经网络模型,集成标签并且生成批处理迭代器M,接着使用嵌入层、卷积层、池化层和softmax方法搭建CNN神经网络文本分类模型,导入M到模型中,然后配置训练集模型的超参数和训练参数,给出训练集每1步和测试集每100步的损失函数和准确度,生成训练模型MODEL,最后将待分类短文本集进行预处理之后,得到数据集VALUE2,导入MODEL到预测模型,得出分类结果。本发明不仅节约了计算时间,而且准确率高。
Description
技术领域
本发明属于文本分类技术领域,特别涉及一种基于TF-IDF和CNN启发式短文本特征提取与分类方法。
背景技术
建设工程图纸错误分类方法对图审系统人员评价建设工程图纸的设计质量有着重要的作用和意义。目前人工的错误分类方法已经不能满足数据量急剧攀升的任务需求,一种自动实现错误分类的方法亟待解决。近年来,研究者提出了相应的文本分类方法,如朴素贝叶斯、LSTM、卷积神经网络等。
朱全银等人已有的研究基础包括:朱全银,严云洋,周培,谷天峰.一种基于线性插补与自适应滑动窗口的商品价格预测模型.山东大学学报.2012, Vol.42(5):53-58;朱全银,潘禄,刘文儒,李翔,张永军,刘金岭.Web科技新闻分类算法.淮阴工学院学报,2015,Vol.24(5):23-27;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets. 2009,p:77-82;Quanyin Zhu,SuqunCao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based onDichotomy Backfilling and Disturbance Factor Algorithm.International Reviewon Computers and Software,2011, Vol.6(6):1089-1093;朱全银等人申请、公开与授权的相关专利:朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法. 中国专利:ZL 201110423015.5,2015.07.01;朱全银,尹永华,严云洋,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:ZL 201210325368.6;曹苏群,朱全银,左晓明,高尚兵等人,一种用于模式分类的特征选择方法.中国专利公开号:CN 103425994 A,2013.12.04;朱全银,严云洋,李翔,张永军等人,一种用于文本分类和图像深度挖掘的科技情报获取与推送方法. 中国专利公开号:CN 104035997A,2014.09.10。
TF-IDF:
TF-IDF算法是最广泛使用的特征选择和提取方法之一,在大量信息的检索中,TF-IDF通常被人们认作一种基于数字值的统计方法,目的是通过统计词汇在文档中的频率,来表达其重要性,它通常被用作检验文本重要信息的权重因子。其中Ni,j是文档Dj中第i个单词的呈现次数,分母表现文档Dj中单词的总数,|D|是语料库中文档的总数, {dj∈D:ti∈dj}代表该语料库中包含了特征ti的文件数量。
CNN:
目前常用的分类算法之一Convolutional Neural Network(CNN),即卷积神经网络。
在训练数据中,X(i)表示数据集中第i张图片,H*W*D表示每个图片的大小, W表示可以学习的参数,也就是说图像的宽度,D表示全部的训练集,也就是图像的宽度。
卷积公式:
Adl=X*Wdl+bdl (4 )
Wdl的意义是滤波器或核,Dl的意义是第l个使用滤波器数量。写成求和的形式是:
传统的CNN对于中文短文本分类存在这样的问题:经过卷积之后得到的特征太多而且对于后期分类没有太价值,浪费了大量计算时间;由于短文本的特征不明显,导致最后分类的准确率不高。
发明内容
发明目的:针对上述问题,本发明提供一种通过使用TF-IDF特征选择方法对短文本进行特征选择,为图纸审查人员提供常见建设工程图纸错误分类的基于 TF-IDF和CNN启发式短文本特征提取与分类方法。
技术方案:本发明提出一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,包括如下步骤:
(1)对短文本集用结巴分词工具实现中文的文本分词,然后去除文本噪声词,得到文本数据集UNION;
(2)使用TF-IDF特征选择方法处理文本数据集UNION,得出选择后的文本特征值VALUE1,将VALUE1导入到卷积神经网络模型,集成标签并且生成批处理迭代器M;
(3)使用嵌入层、卷积层、池化层和softmax方法搭建CNN神经网络文本分类模型,导入M到模型中;
(4)配置训练集模型的超参数和训练参数,给出训练集每1步和测试集每 100步的损失函数和准确度,生成训练模型MODEL;
(5)最后将待分类短文本集进行预处理之后,得到数据集VALUE2,导入 MODEL到预测模型,得出分类结果。
进一步的,所述步骤(1)中得到文本数据集UNION的具体步骤如下:
(1.1)定义短文本集L={l1,l2,…,ln},其中,l是小于等于50个中文字符的文本,将L进行类别标记,定义CATE={CATE1,CATE2,…,CATEn}表示标记后的类别文本集;
(1.2)调用结巴分词工具,对CATE进行中文分词,得到词集 SEG={segi1,segi2,segi3,…,segin},其中,segi∈CATEi,i∈[1,n];
(1.3)定义文本常用停用词集SWORD={sword1,sword2,…,swordn};
(1.4)定义变量UNION存储去除停用词库后信息,并初始化为字符s;
(1.5)如果segi∈SWORD,UNION=UNION+segi,否则,segi=segi+1;
(1.6)将UNION写入到目标文件中。
进一步的,所述步骤(2)中集成标签并且生成批处理迭代器M的具体步骤如下:
(2.1)定义列名name,weight分别表示待存入数据的名称和权重;
(2.2)去除停用词库集合UNION={union1,union2,…,unionn};
(2.3)将词库集合UNION转化为词频矩阵,然后计算词频矩阵中每个词语的TF-IDF值TI={ti1,ti2,…,tin};
(2.4)定义集合VECTOR={vector1,vector2,…,vectorn}分别表示UNION中对应元素的向量值,将VECTOR中元素提取出特征值名称,存储到集合 WORD={word1,word2,…,wordn}中,其中,wordj的值对应于vectorj,j∈[1,n];
(2.5)定义WEIGHT={weight1,weight2,…,weightn,}表示TI数组化后的结果,其中,weightk的值对应于tik的值,k∈[1,n];
(2.6)求得集合WEIGHT的元素个数为L1,集合WORD的元素个数为L2,定义变量m,n循环遍历L1,L2;
(2.7)定义集合VALUE={name1,weight1;name2,weight2;…;namen,weightn},将遍历得到的WORDt[n],WEIGHTt[m][n]赋值给namet,weightt,其中,t∈[1,n];
(2.8)定义LABEL={label1,label2,…,labeln}分别表示类别标签, CATE=cate1+cate2+…+caten;
(2.9)如果Shuffle为真,随机打乱原来的数据,并将洗牌后的数据加入到 CATE中;
(2.10)计算每一轮迭代处理批次的大小,定义开始索引start_index和结束索引end_index,生成从开始索引到结束索引的批处理集成器M。
进一步的,所述步骤(3)中使用嵌入层、卷积层、池化层和softmax方法搭建CNN神经网络文本分类模型,导入M到模型中的具体步骤如下:
(3.1)将词汇索引映射到低维向量表示,TensorFlow的操作放在CPU上执行,定义学习的嵌入矩阵为W,用随机均匀分布初始化W;
(3.2)使用relu函数作为激活函数,将卷积层的结果最大化为长特征向量,然后将所有长特征向量合并成一个特征向量;
(3.3)添加丢失正则化,在训练期间设置启用的神经元比例为0.5,在测试期间设置为1禁用丢失;
(3.4)通过矩阵乘法生成对数据类别的预测,然后选择得分最高的类别,使用softmax对结果进行分类;
(3.5)定义准确度和损失函数作为训练和测试期间模型的评价标准。
进一步的,所述步骤(4)中生成训练模型MODEL的具体步骤如下:
(4.1)配置模型超参数,嵌入层大小设置为256,过滤器分别取3、4、5 三个不同的值,每个过滤器过滤的大小为128,丢失保持率设置为0.5;
(4.2)配置训练参数,隐藏神经元的数量设置为200,定义批处理大小 batch_size,初始化为64;
(4.3)加载训练集和测试集,数据集的划分采用7:3,并且对划分的数据集采用交叉验证的方法;
(4.4)定义训练的过程,实例化CNN,使用Adam优化器来优化网络的损失函数;
(4.5)使用summarywritter记录在训练和测试的过程中跟踪损失值和准确度随时间的变化;
(4.6)建立检查点文件checkpoint保存模型的参数;
(4.7)定义单个训练步骤和测试步骤,在每一步的训练步骤中,输出训练集的损失值和准确率;
(4.8)如果batch_size<64为真,定义测试集当前步数current_step,否则,转到步骤(4.12);
(4.9)如果current_step是100的整倍数,输出测试集的损失值和准确率,保存训练的模型,否则转到步骤(4.10);
(4.10)current_step=current_step+1,转到步骤(4.9);
(4.11)batch_size=batch_size+1,转到步骤(4.8);
(4.12)模型训练结束。
进一步的,所述步骤(5)中最后将待分类短文本集进行预处理之后,得到数据集VALUE2,导入MODEL到预测模型,得出分类结果的具体步骤如下:
(5.1)将短文本进行中文分词,然后结合常用停用词库去除停用词,再用 TF-IDF特征选择方法进行特征选择,得到验证集VALUE2;
(5.2)将验证集加载到VALUE2神经网络中,加载训练好的模型MODEL;
(5.3)获得短文本的分类。
本发明采用上述技术方案,具有以下有益效果:本发明方法利用现有的CNN 文本分类方法,结合TF-IDF特征选择方法,实现了一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,提高了短文本分类的准确度,具体的:本发明利用结巴分词工具对中文短文本信息进行分词,然后结合常用停用词库去除文本信息停用词,利用TF-IDF特征选择方法,提取出文本特征和权重之后生成批处理迭代器,利用CNN对文本进行训练,通过使用TF-IDF方法选择特征值之后导入到CNN模型继续进行特征提取的方法,实现较高的短文本分类效果。
附图说明
图1为本发明的方法流程图;
图2为图1中得到文本数据集UNION的流程图;
图3为图1中集成标签并且生成批处理迭代器M的流程图;
图4为图1中CNN文本分类模型的流程图;
图5为图1中短文本分类训练模型的流程图;
图6为图1中短文本分类的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-5所示,本发明所述的一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,包括如下步骤:
步骤1:将图审系统数据库中的problem和reproblem表中专家评审意见导出为csv文件,用结巴分词工具实现中文的文本分词,去除文本噪声词,得到文本数据集UNION,具体方法为:
步骤1.1:定义CATE={CATE1,CATE2,CATE3}分别表示一般错误、中等错误、严重错误类别文本集;
步骤1.2:调用结巴分词工具,对CATE进行中文分词,得到词集SEG={segi1,segi2,segi3,…,segin},其中,segi∈CATEi,i∈[1,3];
步骤1.3:定义文本常用停用词集SWORD={sword1,sword2,…,swordn};
步骤1.4:定义变量UNION存储去除停用词库后信息,并初始化为字符s;
步骤1.5:如果segi∈SWORD,UNION=UNION+segi,否则,segi=segi+1;
步骤1.6:将UNION写入到目标文件中。
步骤2:使用TF-IDF特征选择方法处理文本数据集UNION,得出选择后的文本特征值VALUE1,将VALUE1导入到卷积神经网络模型,集成标签并且生成批处理迭代器M,具体方法为:
步骤2.1:定义列名name,weight分别表示待存入数据的名称和权重;
步骤2.2:去除停用词库集合UNION={union1,union2,…,unionn};
步骤2.3:将词库集合UNION转化为词频矩阵,然后计算词频矩阵中每个词语的TF-IDF值TI={ti1,ti2,…,tin};
步骤2.4:定义集合VECTOR={vector1,vector2,…,vectorn}分别表示UNION 中对应元素的向量值,将VECTOR中元素提取出特征值名称,存储到集合 WORD={word1,word2,…,wordn}中,其中,wordj的值对应于vectorj,j∈[1,n];
步骤2.5:定义WEIGHT={weight1,weight2,…,weightn,}表示TI数组化后的结果,其中,weightk的值对应于tik的值,k∈[1,n];
步骤2.6:求得集合WEIGHT的元素个数为L1,集合WORD的元素个数为 L2,定义变量m,n循环遍历L1,L2;
步骤2.7:定义集合VALUE={name1,weight1;name2,weight2;…;namen,weightn},将遍历得到的WORDt[n],WEIGHTt[m][n]赋值给namet,weightt,其中,t∈[1,n];
步骤2.8:定义LABEL={label1,label2,label3}分别表示一般错误、中等错误、严重错误,CATE=cate1+cate2+cate3;
步骤2.9:如果Shuffle为真,随机打乱原来的数据,并将洗牌后的数据加入到CATE中;
步骤2.10:计算每一轮迭代处理批次的大小,定义开始索引start_index和结束索引end_index,生成从开始索引到结束索引的批处理集成器。
步骤3:使用嵌入层、卷积层、池化层和softmax方法搭建CNN神经网络文本分类模型,导入M到模型中,具体方法为:
步骤3.1:将词汇索引映射到低维向量表示,TensorFlow的操作放在CPU上执行,定义学习的嵌入矩阵为W,用随机均匀分布初始化W;
步骤3.2:使用relu函数作为激活函数,将卷积层的结果最大化为长特征向量,然后将所有长特征向量合并成一个特征向量;
步骤3.3:添加丢失正则化,在训练期间设置启用的神经元比例为0.5,在测试期间设置为1禁用丢失;
步骤3.4:通过矩阵乘法生成对数据类别的预测,然后选择得分最高的类别,使用softmax对结果进行分类;
步骤3.5:定义准确度和损失函数作为训练和测试期间模型的评价标准。
步骤4:配置训练集模型的超参数和训练参数,给出训练集每1步和测试集每100步的损失函数和准确度,生成训练模型MODEL,具体方法为:
步骤4.1:配置模型超参数,嵌入层大小设置为256,过滤器分别取3、4、5 三个不同的值,每个过滤器过滤的大小为128,丢失保持率设置为0.5;
步骤4.2:配置训练参数,隐藏神经元的数量设置为200,定义批处理大小 batch_size,初始化为64;
步骤4.3:加载训练集和测试集,数据集的划分采用7:3,并且对划分的数据集采用交叉验证的方法;
步骤4.4:定义训练的过程,实例化CNN,使用Adam优化器来优化网络的损失函数;
步骤4.5:使用summarywritter记录在训练和测试的过程中跟踪损失值和准确度随时间的变化;
步骤4.6:建立检查点文件checkpoint保存模型的参数;
步骤4.7:定义单个训练步骤和测试步骤,在每一步的训练步骤中,输出训练集的损失值和准确率;
步骤4.8:如果batch_size<64为真,定义测试集当前步数current_step,否则,转到步骤4.12;
步骤4.9:如果current_step是100的整倍数,输出测试集的损失值和准确率,保存训练的模型,否则转到步骤4.10;
步骤4.10:current_step=current_step+1,转到步骤4.9;
步骤4.11:batch_size=batch_size+1,转到步骤4.8;
步骤4.12:模型训练结束。
步骤5:将专家对图纸的审查意见进行预处理之后,得到数据集VALUE2,导入MODEL到预测模型,得出图纸错误分类结果,具体方法为:
步骤5.1:将problem和reproblem中的待验证评审意见进行中文分词,然后结合常用停用词库去除停用词,再用TF-IDF特征选择方法进行特征选择,得到验证集VALUE2;
步骤5.2:将验证集加载到VALUE2神经网络中,加载训练好的模型MODEL;
步骤5.3:获得建设工程图纸的错误分类。
为了更好的说明本方法的有效性,抽取10000条专家对于建设工程图纸的评审意见进行分析。对原始数据进行中文分词和去除停用词处理,接着使用TF-IDF 特征选择算法提取出短文本的特征值,将提取的特征值导入到CNN模型中进行启发式的特征提取,达到了改善短文本分类准确率的效果。实验在二分类效果上,原始模型和改善后的模型相比较,准确率从70.0%达到了99.5%,提升了29.5%,并且损失值从0.50降到了0.11;在三分类效果上,从原始模型82.0%的准确率上升到了改善后模型的92%,提升了10%,损失值从1.1升高到了1.2。
Claims (6)
1.一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,其特征在于,包括如下步骤:
(1)对短文本集用结巴分词工具实现中文的文本分词,然后去除文本噪声词,得到文本数据集UNION;
(2)使用TF-IDF特征选择方法处理文本数据集UNION,得出选择后的文本特征值VALUE1,将VALUE1导入到卷积神经网络模型,集成标签并且生成批处理迭代器M;
(3)使用嵌入层、卷积层、池化层和softmax方法搭建CNN神经网络文本分类模型,导入M到模型中;
(4)配置训练集模型的超参数和训练参数,给出训练集每1步和测试集每100步的损失函数和准确度,生成训练模型MODEL;
(5)最后将待分类短文本集进行预处理之后,得到数据集VALUE2,导入MODEL到预测模型,得出分类结果。
2.根据权利要求1所述的一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,其特征在于,所述步骤(1)中得到文本数据集UNION的具体步骤如下:
(1.1)定义短文本集L={l1,l2,…,ln},其中,l是小于等于50个中文字符的文本,将L进行类别标记,定义CATE={CATE1,CATE2,…,CATEn}表示标记后的类别文本集;
(1.2)调用结巴分词工具,对CATE进行中文分词,得到词集SEG={segi1,segi2,segi3,…,segin},其中,segi∈CATEi,i∈[1,n];
(1.3)定义文本常用停用词集SWORD={sword1,sword2,…,swordn};
(1.4)定义变量UNION存储去除停用词库后信息,并初始化为字符s;
(1.5)如果segi∈SWORD,UNION=UNION+segi,否则,segi=segi+1;
(1.6)将UNION写入到目标文件中。
3.根据权利要求2所述的一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,其特征在于,所述步骤(2)中集成标签并且生成批处理迭代器M的具体步骤如下:
(2.1)定义列名name,weight分别表示待存入数据的名称和权重;
(2.2)去除停用词库集合UNION={union1,union2,…,unionn};
(2.3)将词库集合UNION转化为词频矩阵,然后计算词频矩阵中每个词语的TF-IDF值TI={ti1,ti2,…,tin};
(2.4)定义集合VECTOR={vector1,vector2,…,vectorn}分别表示UNION中对应元素的向量值,将VECTOR中元素提取出特征值名称,存储到集合WORD={word1,word2,…,wordn}中,其中,wordj的值对应于vectorj,j∈[1,n];
(2.5)定义WEIGHT={weight1,weight2,…,weightn,}表示TI数组化后的结果,其中,weightk的值对应于tik的值,k∈[1,n];
(2.6)求得集合WEIGHT的元素个数为L1,集合WORD的元素个数为L2,定义变量m,n循环遍历L1,L2;
(2.7)定义集合VALUE={name1,weight1;name2,weight2;…;namen,weightn},将遍历得到的WORDt[n],WEIGHTt[m][n]赋值给namet,weightt,其中,t∈[1,n];
(2.8)定义LABEL={label1,label2,…,labeln}分别表示类别标签,CATE=cate1+cate2+…+caten;
(2.9)如果Shuffle为真,随机打乱原来的数据,并将洗牌后的数据加入到CATE中;
(2.10)计算每一轮迭代处理批次的大小,定义开始索引start_index和结束索引end_index,生成从开始索引到结束索引的批处理集成器M。
4.根据权利要求3所述的一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,其特征在于,所述步骤(3)中使用嵌入层、卷积层、池化层和softmax方法搭建CNN神经网络文本分类模型,导入M到模型中的具体步骤如下:
(3.1)将词汇索引映射到低维向量表示,TensorFlow的操作放在CPU上执行,定义学习的嵌入矩阵为W,用随机均匀分布初始化W;
(3.2)使用relu函数作为激活函数,将卷积层的结果最大化为长特征向量,然后将所有长特征向量合并成一个特征向量;
(3.3)添加丢失正则化,在训练期间设置启用的神经元比例为0.5,在测试期间设置为1禁用丢失;
(3.4)通过矩阵乘法生成对数据类别的预测,然后选择得分最高的类别,使用softmax对结果进行分类;
(3.5)定义准确度和损失函数作为训练和测试期间模型的评价标准。
5.根据权利要求4所述的一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,其特征在于,所述步骤(4)中生成训练模型MODEL的具体步骤如下:
(4.1)配置模型超参数,嵌入层大小设置为256,过滤器分别取3、4、5三个不同的值,每个过滤器过滤的大小为128,丢失保持率设置为0.5;
(4.2)配置训练参数,隐藏神经元的数量设置为200,定义批处理大小batch_size,初始化为64;
(4.3)加载训练集和测试集,数据集的划分采用7:3,并且对划分的数据集采用交叉验证的方法;
(4.4)定义训练的过程,实例化CNN,使用Adam优化器来优化网络的损失函数;
(4.5)使用summarywritter记录在训练和测试的过程中跟踪损失值和准确度随时间的变化;
(4.6)建立检查点文件checkpoint保存模型的参数;
(4.7)定义单个训练步骤和测试步骤,在每一步的训练步骤中,输出训练集的损失值和准确率;
(4.8)如果batch_size<64为真,定义测试集当前步数current_step,否则,转到步骤(4.12);
(4.9)如果current_step是100的整倍数,输出测试集的损失值和准确率,保存训练的模型,否则转到步骤(4.10);
(4.10)current_step=current_step+1,转到步骤(4.9);
(4.11)batch_size=batch_size+1,转到步骤(4.8);
(4.12)模型训练结束。
6.根据权利要求5所述的一种基于TF-IDF和CNN启发式短文本特征提取与分类方法,其特征在于,所述步骤(5)中最后将待分类短文本集进行预处理之后,得到数据集VALUE2,导入MODEL到预测模型,得出分类结果的具体步骤如下:
(5.1)将短文本进行中文分词,然后结合常用停用词库去除停用词,再用TF-IDF特征选择方法进行特征选择,得到验证集VALUE2;
(5.2)将验证集加载到VALUE2神经网络中,加载训练好的模型MODEL;
(5.3)获得短文本的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810685215.XA CN109947864B (zh) | 2018-06-27 | 2018-06-27 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810685215.XA CN109947864B (zh) | 2018-06-27 | 2018-06-27 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109947864A true CN109947864A (zh) | 2019-06-28 |
CN109947864B CN109947864B (zh) | 2023-08-22 |
Family
ID=67006325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810685215.XA Active CN109947864B (zh) | 2018-06-27 | 2018-06-27 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109947864B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543629A (zh) * | 2019-08-01 | 2019-12-06 | 淮阴工学院 | 一种基于w-att-cnn算法的化工装备文本分类方法 |
CN111191031A (zh) * | 2019-12-24 | 2020-05-22 | 上海大学 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
CN111191691A (zh) * | 2019-12-16 | 2020-05-22 | 杭州电子科技大学 | 基于词性分解的深度用户点击特征的细粒度图像分类方法 |
CN111291860A (zh) * | 2020-01-13 | 2020-06-16 | 哈尔滨工程大学 | 一种基于卷积神经网络特征压缩的异常检测方法 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
CN112382388A (zh) * | 2020-12-14 | 2021-02-19 | 中南大学 | 一种压疮不良事件的预警方法 |
CN112749756A (zh) * | 2021-01-21 | 2021-05-04 | 淮阴工学院 | 一种基于NB-Bagging的短文本分类方法 |
CN114186064A (zh) * | 2021-12-14 | 2022-03-15 | 建信金融科技有限责任公司 | 标签分类方法、装置、设备及计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
-
2018
- 2018-06-27 CN CN201810685215.XA patent/CN109947864B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
Non-Patent Citations (2)
Title |
---|
MAHMOOD YOUSEFI-AZAR 等: "Text summarization using unsupervised deep learning", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
郭东亮: "基于卷积神经网络的互联网短文分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543629A (zh) * | 2019-08-01 | 2019-12-06 | 淮阴工学院 | 一种基于w-att-cnn算法的化工装备文本分类方法 |
CN111191691A (zh) * | 2019-12-16 | 2020-05-22 | 杭州电子科技大学 | 基于词性分解的深度用户点击特征的细粒度图像分类方法 |
CN111191691B (zh) * | 2019-12-16 | 2023-09-29 | 杭州电子科技大学 | 基于词性分解的深度用户点击特征的细粒度图像分类方法 |
CN111191031A (zh) * | 2019-12-24 | 2020-05-22 | 上海大学 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
CN111291860A (zh) * | 2020-01-13 | 2020-06-16 | 哈尔滨工程大学 | 一种基于卷积神经网络特征压缩的异常检测方法 |
CN112382388A (zh) * | 2020-12-14 | 2021-02-19 | 中南大学 | 一种压疮不良事件的预警方法 |
CN112749756A (zh) * | 2021-01-21 | 2021-05-04 | 淮阴工学院 | 一种基于NB-Bagging的短文本分类方法 |
CN112749756B (zh) * | 2021-01-21 | 2023-10-13 | 淮阴工学院 | 一种基于NB-Bagging的短文本分类方法 |
CN114186064A (zh) * | 2021-12-14 | 2022-03-15 | 建信金融科技有限责任公司 | 标签分类方法、装置、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109947864B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947864A (zh) | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 | |
Lemhadri et al. | Lassonet: Neural networks with feature sparsity | |
Dhal et al. | A comprehensive survey on feature selection in the various fields of machine learning | |
Blalock et al. | What is the state of neural network pruning? | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
Bengio et al. | Group sparse coding | |
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
US20050251347A1 (en) | Automatic visual recognition of biological particles | |
Tsai et al. | Evolutionary instance selection for text classification | |
CN109933670A (zh) | 一种基于组合矩阵计算语义距离的文本分类方法 | |
CN111428853A (zh) | 一种带噪声学习的负样本对抗生成方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN110751216A (zh) | 一种基于改进卷积神经网络的裁判文书行业分类方法 | |
Gu et al. | Image-based hot pepper disease and pest diagnosis using transfer learning and fine-tuning | |
Yu et al. | A recognition method of soybean leaf diseases based on an improved deep learning model | |
CN111026870A (zh) | 一种综合文本分类和图像识别的ict系统故障分析方法 | |
Wolf et al. | Computerized paleography: tools for historical manuscripts | |
CN108376257B (zh) | 一种燃气表不完整码字识别方法 | |
Nongmeikapam et al. | Handwritten Manipuri Meetei-Mayek classification using convolutional neural network | |
Thuon et al. | Improving isolated glyph classification task for palm leaf manuscripts | |
CN103136377A (zh) | 一种基于演化超网络的中文文本分类方法 | |
CN112434145A (zh) | 一种基于图像识别和自然语言处理的看图作诗方法 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
CN116778205A (zh) | 柑橘病害等级识别方法、设备、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240103 Address after: Floor 12, 102-3, Qingcheng Creative Valley Industrial Park, No. 67 Xiyuan Street, Qingjiangpu District, Huai'an City, Jiangsu Province, 223001 Patentee after: HUAIAN FUN SOFWARE CO.,LTD. Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road. Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY |