CN110909164A - 一种基于卷积神经网络的文本增强语义分类方法及系统 - Google Patents
一种基于卷积神经网络的文本增强语义分类方法及系统 Download PDFInfo
- Publication number
- CN110909164A CN110909164A CN201911154059.5A CN201911154059A CN110909164A CN 110909164 A CN110909164 A CN 110909164A CN 201911154059 A CN201911154059 A CN 201911154059A CN 110909164 A CN110909164 A CN 110909164A
- Authority
- CN
- China
- Prior art keywords
- article
- text
- word
- matrix
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于卷积神经网络的文本增强语义分类方法及系统,属于自然语言处理技术领域,包括以下步骤:S1:收集训练样本;S2:预处理;S3:分词;S4:构建分词矩阵;S5:数据增强;S6:利用模型进行训练。本发明能够生成相同标签的新的文本词向量矩阵,很大程度上增强了原数据集中的少量标签的数据,扩充了样本容量,达到提升后续模型的鲁棒性,提升正确率,准确率和召回率等效果;通过改进后的卷积神经网络进行训练模型,能够对政务舆情中文文本标签下的文本进行有效的分类判断;适用于解决中文文本的语义类别分类问题,同样也适用于解决情感二分类等其他分类问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于卷积神经网络的文本增强语义分类方法及系统。
背景技术
随着互联网和智能手机的快速普及,信息的传播速度和广度在短短数年间得到了指数级的提升。对于信息的重要载体之一的新闻媒体,随着微信朋友圈,微博自媒体,今日头条推送等的新技术的出现在网络上得到了快速的发展。网络媒体的发展推动了民众对于这些新闻事件的获取与讨论,这种现象使得网络媒体成为反映社会舆情的重要载体之一。对于网络媒体的文本数据的分析,能帮助人们更好的获取新闻背后的信息,例如民众的观点和情感,帮助人们掌握舆论走向和分析社会事件的影响。实现这一点这就需要中文文本分类技术的帮助。
中文文本分类是属于自然语言处理(Natural Language Process)的一个重要课题,承担着从现有的中文大数据文本中快速分类和挖掘有用信息的职能。中文文本分类是实现舆情分析的一个重要手段。目前基于中文文本分类的舆情分析技术主要是在于关键词检索,文本的情感二分类和短文本语义分类。对于关键词检索,由于中文文本中有大量同义词的干扰和长文本中多个关键词同时出现的可能性,并不是一种高效且准确的算法。对于舆情分析,不进行具体类别的分类,光是使用文本情感的正负面二分类无法很好的对于大数据文本进行有效率的归类,从而影响进行后续的查询和分析。对于短文本语义分类,较为成熟的技术有循环神经网络(Recurrent Neural Network)和长短期记忆(Long ShortTerm Memory),但是这些技术很难适用于长网页文本,尤其是网络爬虫爬取新闻页面中会往往会爬取到大量的非正文内容的文本噪声,会极大地干扰分类的正确率。不仅如此,目前的语义分类往往是把文本分入例如“体育”,“经济”,“民生”等单个词语的分类标签,和对于针对政务舆情系统的分类例如“工程建设”,“公共安全公信”,“法院检察院公信”的多词短语类别标签相较甚远。对于单个次的标签可以利用词向量技术在向量空间中投影成一维向量,然后利用使用例如支持向量机技术(Support Vector Machine)很好的去分类,但是对于多个单词的短语分类标签,经词向量处理过后形成二维的矩阵,并不适用于支持向量机等技术,而且不同标签中的重复词会带来很大干扰。所以基于中文文本分类的舆情分类需要更准确切有效的方法。
中文语义分类中的一个重要途径是将中文文本分词后的词语转化为词向量进行后续的分析。这个概念的一个重要扩展是扩展词嵌入(Word Embedding),其中Word2vec作为一个行业成熟技术被应用于本发明中。
对于舆情分析的一个难点就在于很多分类标签下的样本数据不足。这个特征严重影响了分类结果的准确率和召回率。数据增强在很大程度上解决这个问题。现有的针对中文文本的增强方法主要有回译,同义词替换,生成对抗网络等。回译是中文文本翻译成别的语言后再翻译回来,这个方法需要额外的API接口和翻译费用,所以很少应用。同义词替换方法容易造成语义歧义,而且对于长文本会增加大量额外的运行时间。生成对抗网络能生成分类标签下的新的文本,但是这个训练方式很容易生成错误样本,或是形成噪声样本。为此,提出一种基于卷积神经网络的文本增强语义分类方法及系统。
发明内容
本发明所要解决的技术问题在于:如何解决现有中文文本语义分类在政务舆情分类分析上存在的分析准确率低,标签样本数量不均衡等问题,从而更好地对政务舆情进行监测,提供了一种基于卷积神经网络的文本增强语义分类方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:收集训练样本
通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
S2:预处理
对数据库中的文章标题和文章正文内容进行预处理;
S3:分词
对经预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和文章标题分词后的词频信息;
S4:构建分词矩阵
通过Word2Vec技术将分别在文章标题和文章正文中出现频率高于一定阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
S5:数据增强
统计各个分类标签下的训练样本数量,并对数量少的样本进行数据增强,数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序,生成一定数量的新组合矩阵,新组合矩阵加上原来的分类标签即经过增强的新训练样本;
S6:利用模型进行训练
构建卷积神经网络模型,将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练。
更进一步的,在所述步骤S2中,预处理包括去除部分样本在爬取时同时爬取的无关推送的短标题连接,并在此基础上去除噪声字词,噪声字词包括标点符号,英文字母,人称代词,数字,年月日等。
更进一步的,在所述步骤S3中,词频信息包括词频的中、位数、众数、最大值和最小值。
更进一步的,在所述步骤S4中,词向量矩阵需要统一维度,不足时需要进行补零操作。
更进一步的,在所述步骤S5中,词向量矩阵的随机排序组合需要将文章标题和文章正文分开操作。
更进一步的,在所述步骤S6中,卷积神经网络模型的具体结构如下:
第一层为卷积运算层,将词向量矩阵作为输入,与卷积核进行卷积运算,得到降维后的特征映射;
第二层为池化层,优选的使用最大池化,即用卷积运算后的矩阵中的相邻矩形区域内的最大值组成输出矩阵中,得到提取出特征并降维的矩阵;
第三层为卷积运算层,将上一层池化运算获得的矩阵继续进行卷积运算降维;
第四层为池化层,将上一层卷积运算获得的矩阵继续提取出特征并降维的矩阵;
第五层为全连接层,将上一层池化运算后得到的特征映射的矩阵映射到样本标签空间中。
更进一步的,全连接层的输出单元数为分类标签数。
更进一步的,在所述步骤S6中,利用卷积神经网络模型进行训练的过程,包括以下步骤:
S61:进行卷积运算
通过设置卷积核的大小,提取文本矩阵中的词向量的空间特征;
S62:进行池化运算
进一步提取文本的特征,得到降维后的短文本的全局特征矩阵;
S63:修改参数重复运算
修改卷积核的大小,重复步骤S61和S62,至少一次,并根据需要选择是否对文本特征矩阵外圈进行填零处理;
S64:过滤并输出结果
将经过步骤S63处理后的矩阵输入全连接层展开成为一维向量,通过使用线性整流函数(Rectified Linear Unit,缩写为ReLU)进行过滤,再利用Softmax函数对语义分类标签结果进行输出。
更进一步的,在所述步骤S63中,进行填零处理的同时进行Dropout(随机失活)操作防止过拟合,Dropout的比例为文本特征矩阵的10%。
更进一步的,在步骤S64中,对于输出语义分类标签结果的Softmax函数输出值小于0.9的分类文章,剔除分类标签并重新进行人工分类,形成新的训练样本进行后续的训练。
本发明还提供了一种基于卷积神经网络的文本增强语义分类系统,包括:
样本收集模块,用于通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
预处理模块,用于对数据库中爬取的文章标题和正文内容进行预处理;
分词模块,用于对预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和标题的分词后的词频信息;
分词矩阵构建模块,用于将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
数据增强模块,用于统计各个分类标签下的训练样本数量,并对数量少的标签样本进行数据增强,即依据词频统计得来的文章词向量矩阵中的词向量进行随机排序,生成同标签下的新的训练样本;
训练模块,用于构建卷积神经网络模型,将经过增强后的训练样本代入卷积神经网络模型进行训练;
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述样本收集模块、预处理模块、分词模块、分词矩阵构建模块、数据增强模块、训练模块均与中央处理模块电连接。
本发明相比现有技术具有以下优点:该基于卷积神经网络的文本增强语义分类方法,能够生成相同标签的新的文本词向量矩阵,很大程度上增强了原数据集中的少量标签的数据,扩充了样本容量,达到提升后续模型的鲁棒性,提升正确率,准确率和召回率等效果;通过改进后的卷积神经网络进行训练模型,能够对政务舆情中文文本标签下的文本进行有效的分类判断;适用于解决中文文本的语义类别分类问题,同样也适用于解决情感二分类等其他分类问题。
附图说明
图1是本发明实施例二中基于卷积神经网络的文本增强语义分类方法的流程示意图;
图2是本发明实施例二中数据增强方式的示意图;
图3是本发明实施例二中所构建的卷积神经网络模型的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
本实施例提供一种技术方案:一种基于卷积神经网络的文本增强语义分类方法,包括以下步骤:
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:收集训练样本
通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
S2:预处理
对数据库中的文章标题和文章正文内容进行预处理;预处理包括去除部分样本在爬取时同时爬取的无关推送的短标题连接,并在此基础上去除噪声字词,噪声字词包括标点符号,英文字母,人称代词,数字,年月日等;
S3:分词
对经预处理后的文章标题和文章正文使用jieba分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和文章标题分词后的词频信息;词频信息包括词频的中、位数、众数、最大值和最小值;
S4:构建分词矩阵
通过Word2Vec技术将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
S5:数据增强
统计各个分类标签下的训练样本数量,并对数量少的样本进行数据增强,数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序,生成一定数量的新组合矩阵,新组合矩阵加上原来的分类标签即经过增强的新训练样本;通过生成相同标签的新的文本词向量矩阵,很大程度上增强了原数据集中的少量标签的数据,扩充了样本容量,达到提升后续模型的鲁棒性,提升正确率,准确率和召回率等效果;
S6:利用模型进行训练
构建卷积神经网络模型,将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练;过改进后的卷积神经网络进行训练模型,能够对政务舆情中文文本标签下的文本进行有效的分类判断,该方法不仅适用于解决中文文本的语义类别分类问题,同样也适用于解决情感二分类等其他分类问题。
在所述步骤S4中,词向量矩阵需要统一维度,不足时需要进行补零操作。
在所述步骤S6中,卷积神经网络模型的具体结构如下:
第一层为卷积运算层,将词向量矩阵作为输入,与卷积核进行卷积运算,得到降维后的特征映射;
第二层为池化层,优选的使用最大池化,即用卷积运算后得到的矩阵中的相邻矩形区域内的最大值组成输出矩阵中,得到提取出特征并降维的矩阵;
第三层为卷积运算层,将上一层池化运算获得的矩阵继续进行卷积运算降维;
第四层为池化层,将上一层卷积运算后获得的矩阵继续提取出特征并降维的矩阵;
第五层为全连接层,将上一层池化运算后得到的特征映射的矩阵映射到样本标签空间中,在本实施例中,全连接层的输出单元数为分类标签数。
在所述步骤S6中,利用卷积神经网络模型进行训练的过程,包括以下步骤:
S61:进行卷积运算
通过设置卷积核的大小,提取文本矩阵中的词向量的空间特征;
S62:进行池化运算
进一步提取文本的特征,得到降维后的短文本的全局特征矩阵;
S63:修改参数重复运算
修改卷积核的大小,重复步骤S61和S62,至少一次,并根据需要选择是否对文本特征矩阵外圈进行填零处理;
S64:过滤并输出结果
将经过步骤S63处理后的矩阵输入全连接层展开成为一维向量,通过使用线性整流函数进行过滤,再利用Softmax函数对语义分类标签结果进行输出。
在所述步骤S63中,进行填零处理的同时进行Dropout操作防止过拟合,Dropout的比例为文本特征矩阵的10%。
在步骤S64中,对于输出语义分类标签结果的Softmax函数输出值小于0.9的分类文章,剔除分类标签并重新进行人工分类,形成新的训练样本重复步骤S6的训练。
本实施例还提供了一种基于卷积神经网络的文本增强语义分类系统,包括:
样本收集模块,用于通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
预处理模块,用于对数据库中爬取的文章标题和正文内容进行预处理;
分词模块,用于对预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和标题的分词后的词频信息;
分词矩阵构建模块,用于将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
数据增强模块,用于统计各个分类标签下的训练样本数量,并对数量少的标签样本进行数据增强,即依据词频统计得来的文章词向量矩阵中的词向量进行随机排序,生成同标签下的新的训练样本;
训练模块,用于构建卷积神经网络模型,将经过增强后的训练样本代入卷积神经网络模型进行训练;
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述样本收集模块、预处理模块、分词模块、分词矩阵构建模块、数据增强模块、训练模块均与中央处理模块电连接。
实施例二
如图1所示,本实施例提供一种技术方案:一种基于卷积神经网络的文本增强语义分类方法,包括以下步骤:
S1:收集训练文本。
具体为:利用网络爬虫技术,爬取目标网页上的中文文章的文本内容。然后人工进行分类。可选的,在本实施例中,分类标签有'工程建设','依法行政','政府采购和招投标','文化体育教育科研知识产权','公共安全公信','流通领域','税务','生产领域','公务员诚信','环境保护和能源节约','守信践诺','法院检察院公信','价格','旅游','社会保障','金融领域','医药卫生','社会治安','社会文明','交通运输领域','电子商务','自然人社会组织诚信建设情况','社会其他','中介会展广告统计'共计24种,将分类标签,文章标题和文章正文作为训练样本对应存入数据库中。
S2:预处理。
具体为:对于数据库中的爬取文本(文章标题和文章正文)进行预处理,例如去除有些样本在爬取时同时爬取的无关推送的短标题连接,在此基础上去除标点符号,英文字母,人称代词,数字,年月日等噪声字词。
S3:分词。
具体为:对于预处理后的文章标题和文章正文使用jieba分词库进行分词,具体采用的是使用最为效率的精确模式,并将分词的结果分别存入数据库,同时统计文章正文和标题的分词后的词频,具体到词频的中位数,众数,最大值和最小值。
S4:构建分词矩阵。(此步骤使用Word2vec库进行分词处理)
具体为:根据步骤S3所得到的数据来决定词向量空间的维度和最小词频计入,在本实施例中,所选择的文章标题的最小计入数为2,文章正文的最小计入数为5;为了便于计算,可选的,文章标题和文章正文的词向量的维度统一为150。所有的文章标题词向量集合可表示为其中n是文章标题计入词向量的总分词数。所有文章正文的词向量集合可以表示为其中m是文章正文计入词向量的总分词数。建立好词向量之后用对应的文章标题和文章正文词向量以在当篇文章中的出现次数为权重组成分词矩阵。选择50为文章标题矩阵的列数,以词频大小的顺序填充当篇文章标题的词向量到矩阵中,不足的补零,超过的部分舍弃。所生成的向量可以表示为或当存留文章标题词向量数i≥50时的文章正文矩阵重复相同操作。
然后将文章标题矩阵和文章正文矩阵拼接成(150,150)的混合矩阵,可用符号表述为此处选择50列为文章标题列数是因为文章标题和文章正文的词向量是不同的映射,而且文章标题的最大长度要远少于50,可以预防后续卷积运算的歧义。
单篇文本数据的混合矩阵可以表示为:
其中下标i和j分别是当前文章标题和文章正文的最大分词数。对于分类标签不需要进行分词处理,直接用one-hot(一位有效编码)技术分别投影成长度为24的向量。例如'工程建设'可表示为(0,0,0,0,1,0,…,0)。虽然这样会丢失标签的含义,但是对于无法很好处理的复杂标签是可行的方式。最后将上述结果储存到数据库中。
S5:进行数据增强
具体为:本实施例公开了一种数据增强的技术,包括数据增强的数量计算和数据增强的方式。对于数据增强的数量计算,在本实施例中如果将24个分类标签按样本数量从大到小排序后可以设置为N=(n1,n2,n3,…,n24),取样本最多的一半标签,即前2个标签的数量算出充足样本标签的平均数目,即average=(n1+n2+n3+…+n12)/12。
一般而言,随机的可能组合远大于增强的数量,所以不存在有重复增强样本。数据增强的方式如图2所示。选取小样本数量的分类标签下的文章的标题正文混合矩阵进行增强。对于混合矩阵中的标题部分的矩阵的非零向量的列进行随机排序,同时对于文章正文部分的列也进行随机排序,从而生成新的混合矩阵。随机生成的新混合矩阵和原分类标签的组合即是新的训练样本和其分类标签。随机生成的样本数量k是先前的计算结果。这种数据增强实际意义是打乱文章中的词频顺序,从而改变整个文章矩阵的特征。
S6:利用模型进行训练。(如图3所示,为本实施中所构建的卷积神经网络模型)
具体为:搭建卷积神经网络模型,并对处理好的监督数据(增强后的训练样本)放入模型进行运算。
卷积神经网络的输入元素包括数量×矩阵行数×矩阵列数×通道数,在本实施例中,数量是所选取的进行增强后的文章样本,长度和宽度都设定为150,因为是单篇文本,所以通道数为1。
S61:进行卷积运算
构建的卷积神经网络模型的第一层是卷积运算层。卷积是对两个实变函数的一种数学运算,可以用*表示卷积运算f(t)=(x*w)(t)。对于文本词向量矩阵这种二维的输入,可以利用一个二维的卷积核进行运算,可以表示为S(i,j)=(I*K)(i,j)=∑m∑nI(m,n)K(i-m,j-n)。同时卷积可交换的,上个式子等价于Si,j=K*Ii,j=mnIi-m,j-nK(m,n)。利用上述公式对输入文本词向量混合矩阵进行运算。作为优选的,使用卷积核大小为5×5的卷积核,具体的,将步幅设定为1,将运行的padding设置成‘valid’,即改变此次卷积运算后的输出维度。第一次卷积运算后的维度为(矩阵行数-卷积核行数+1)×(矩阵列数-卷积核列数+1)=(146,146)。同时使用线性整流函数作为激励函数,以协助表达文本矩阵的复杂特征。
S62:进行池化运算
S63:修改参数重复运算
修改参数并重复一次上述的卷积层和池化层的运算。
在本次运算中卷积核使用3×3的维度,同时对于输入的矩阵进行padding=‘same’的周围填零处理,从而更好地进行降维;
最大池化可以使用2×2的维度,同时进行Dropout操作防止过拟合,Dropout比例为0.1如果结果没法很好收敛,出现有且不限于随着训练时间推移,训练集误差降低但是验证集误差上升;模型在最开始就收敛在高误差值的现象。作为优选的,可以重复多次上述卷积和池化运算。
S64:过滤并输出结果
将经过步骤S63处理后的矩阵输入全连接层展开成为一维向量,通过使用线性整流函数进行过滤,再利用Softmax函数对语义分类标签结果进行输出。
需要说明的是,在本实施例中,为了让本实施例中的卷积神经网络模型更好的收敛,优选的,模型的优化算法选择使用RMSprop算法。RMSprop算法使用平均的指数衰减来舍弃梯度的历史,使模型能在找到凸碗状结构后快速收敛。在RMSprop算法中,设置全局学习率∈,衰减速率ρ和初始参数θ,也可以使用keras库略去参数选择。设置一个小常数δ=1×10-7和初始化积累变量r=0。在模型达到收敛前,从增强好的训练集中选取小批量的样本集合与之对应的是输出目标y(i)。然后计算梯度使用方法如和累计平方梯度最后是计算参数更新并应用参数更新θ+=Δθ直到模型收敛。
在本实施例中,作为优选的,设定随机10%的增强前的训练文本作为模型的测试集,运用小批量(mini-batch)为32,以50个周期(epoch)对于训练样本进行迭代,直到模型达到收敛。如果训练用的CPU配置较低,可以考虑使用1000个样本进行训练,同时根据模型表现优选的调整之前的参数,实施例中分类的正确率可超过80%。
在本实施例中可以根据需要设定阈值来筛选卷积神经网络模型的分类输出,作为优选的,本实施例中的阈值为即输入文本经过模型判断是某个分类的概率达到0.9就保留分类标签和文本至数据库,不足的返回人工标签分类作为后续训练的样本集合。
综上所述,上述两组实施例的基于卷积神经网络的文本增强语义分类方法及系统,能够生成相同标签的新的文本词向量矩阵,很大程度上增强了原数据集中的少量标签的数据,扩充了样本容量,达到提升后续模型的鲁棒性,提升正确率,准确率和召回率等效果;通过改进后的卷积神经网络进行训练模型,能够对政务舆情中文文本标签下的文本进行有效的分类判断;适用于解决中文文本的语义类别分类问题,同样也适用于解决情感二分类等其他分类问题,值得被推广使用。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于卷积神经网络的文本增强语义分类方法,其特征在于,包括以下步骤:
S1:收集训练样本
通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
S2:预处理
对数据库中的文章标题和文章正文内容进行去重复,去非中文文本噪声预处理;
S3:分词
对经预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和文章标题分词后的词频信息;
S4:构建分词矩阵
将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
S5:数据增强
统计各个分类标签下的训练样本数量,并对数量少的样本进行数据增强,数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序,生成一定数量的新组合矩阵,新组合矩阵加上原来的分类标签即经过增强的新训练样本;
S6:利用模型进行训练
构建卷积神经网络模型,将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练。
2.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S2中,预处理包括去除部分样本在爬取时同时爬取的无关推送的短标题连接,并在此基础上去除噪声字词,噪声字词包括标点符号,英文字母,人称代词,数字,年月日。
3.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S3中,词频信息包括词频的中、位数、众数、最大值和最小值;在所述步骤S4中,词向量矩阵需要统一维度,不足时需要进行补零操作。
4.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S5中,词向量矩阵中的标题词向量和正文词向量中分别进行随机排序并组合成新的增强文本词向量矩阵。
5.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S6中,卷积神经网络模型的具体结构如下:
第一层为卷积运算层,将词向量矩阵作为输入,与卷积核进行卷积运算,得到降维后的特征映射;
第二层为池化层,使用最大池化,即用卷积运算后得到的矩阵中的相邻矩形区域内的最大值组成输出矩阵中,得到提取出特征并降维的矩阵;
第三层为卷积运算层,将上一层池化运算获得的矩阵继续进行卷积运算降维;
第四层为池化层,将上一层卷积运算后获得的矩阵继续提取出特征并降维的矩阵;
第五层为全连接层,将上一层池化运算后得到的特征映射的矩阵映射到样本标签空间中。
6.根据权利要求5所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:全连接层的输出单元数为分类标签数。
7.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S6中,利用卷积神经网络模型进行训练的过程,包括以下步骤:
S61:进行卷积运算
通过设置卷积核的大小,提取文本矩阵中的词向量的空间特征;
S62:进行池化运算
进一步提取文本的特征,得到降维后的短文本的全局特征矩阵;
S63:修改参数重复运算
修改卷积核的大小,重复步骤S61和S62,至少一次,并根据需要选择是否对文本特征矩阵外圈进行填零处理;
S64:过滤并输出结果
将经过步骤S63处理后的矩阵输入全连接层展开成为一维向量,通过使用线性整流函数进行过滤,再利用Softmax函数对语义分类标签结果进行输出。
8.根据权利要求7所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S63中,进行填零处理的同时进行Dropout操作防止过拟合,Dropout的比例为文本特征矩阵的10%。
9.根据权利要求7所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在步骤S64中,对于输出语义分类标签结果的Softmax函数输出值小于0.9的分类文章,剔除分类标签并重新进行人工分类,形成新的训练样本。
10.一种基于卷积神经网络的文本增强语义分类系统,其特征在于,利用如权利要求1~9任一所述的分类方法进行中文文本语义分类工作,包括:
样本收集模块,用于通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
预处理模块,用于对数据库中爬取的文章标题和正文内容进行预处理;
分词模块,用于对预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和标题的分词后的词频信息;
分词矩阵构建模块,用于将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
数据增强模块,用于统计各个分类标签下的训练样本数量,并对数量少的标签样本进行数据增强,即依据词频统计得来的文章词向量矩阵中的词向量进行随机排序,生成同标签下的新的训练样本;
训练模块,用于构建卷积神经网络模型,将经过增强后的训练样本代入卷积神经网络模型进行训练;
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述样本收集模块、预处理模块、分词模块、分词矩阵构建模块、数据增强模块、训练模块均与中央处理模块电连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911154059.5A CN110909164A (zh) | 2019-11-22 | 2019-11-22 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911154059.5A CN110909164A (zh) | 2019-11-22 | 2019-11-22 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909164A true CN110909164A (zh) | 2020-03-24 |
Family
ID=69818815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911154059.5A Pending CN110909164A (zh) | 2019-11-22 | 2019-11-22 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909164A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538766A (zh) * | 2020-05-19 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
CN111581381A (zh) * | 2020-04-29 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
CN111666378A (zh) * | 2020-06-11 | 2020-09-15 | 暨南大学 | 一种基于词向量的中文年报标题分类方法 |
CN112001154A (zh) * | 2020-08-25 | 2020-11-27 | 浙江方正印务有限公司 | 一种基于报刊版面ai自动排版设计的印刷排版系统及方法 |
CN112115331A (zh) * | 2020-09-21 | 2020-12-22 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN112183074A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据增强方法、装置、设备及介质 |
CN112765989A (zh) * | 2020-11-17 | 2021-05-07 | 中国信息通信研究院 | 基于表示分类网络的变长文本语义识别方法 |
CN112906392A (zh) * | 2021-03-23 | 2021-06-04 | 北京天融信网络安全技术有限公司 | 一种文本增强方法、文本分类方法及相关装置 |
CN112989045A (zh) * | 2021-03-17 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 神经网络训练方法、装置、电子设备及存储介质 |
CN113076424A (zh) * | 2021-04-23 | 2021-07-06 | 昆明理工大学 | 一种面向不平衡文本分类数据的数据增强方法及系统 |
CN113111174A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的群体识别方法与装置、设备及介质 |
CN113239205A (zh) * | 2021-06-10 | 2021-08-10 | 阳光保险集团股份有限公司 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
CN113254590A (zh) * | 2021-06-15 | 2021-08-13 | 北京建筑大学 | 一种基于多核双层卷积神经网络的中文文本情绪分类方法 |
CN113434685A (zh) * | 2021-07-06 | 2021-09-24 | 中国银行股份有限公司 | 一种资讯分类处理的方法及系统 |
CN113656586A (zh) * | 2021-08-20 | 2021-11-16 | 平安国际智慧城市科技股份有限公司 | 情感分类方法、装置、电子设备及可读存储介质 |
CN113723075A (zh) * | 2021-08-28 | 2021-11-30 | 重庆理工大学 | 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN114510911A (zh) * | 2022-02-16 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN115429289A (zh) * | 2022-09-01 | 2022-12-06 | 天津大学 | 一种脑机接口训练数据扩增方法、装置、介质及电子设备 |
CN117009534A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 文本分类方法、装置、计算机设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
US20190332896A1 (en) * | 2018-04-27 | 2019-10-31 | Jianming Liang | Methods, systems, and media for selecting candidates for annotation for use in training classifiers |
-
2019
- 2019-11-22 CN CN201911154059.5A patent/CN110909164A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
US20190332896A1 (en) * | 2018-04-27 | 2019-10-31 | Jianming Liang | Methods, systems, and media for selecting candidates for annotation for use in training classifiers |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111174A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的群体识别方法与装置、设备及介质 |
CN111581381A (zh) * | 2020-04-29 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
CN111581381B (zh) * | 2020-04-29 | 2023-10-10 | 北京字节跳动网络技术有限公司 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
CN111538766B (zh) * | 2020-05-19 | 2023-06-30 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
CN111538766A (zh) * | 2020-05-19 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
CN111666378A (zh) * | 2020-06-11 | 2020-09-15 | 暨南大学 | 一种基于词向量的中文年报标题分类方法 |
CN112001154A (zh) * | 2020-08-25 | 2020-11-27 | 浙江方正印务有限公司 | 一种基于报刊版面ai自动排版设计的印刷排版系统及方法 |
CN112115331A (zh) * | 2020-09-21 | 2020-12-22 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN112183074A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据增强方法、装置、设备及介质 |
CN112765989A (zh) * | 2020-11-17 | 2021-05-07 | 中国信息通信研究院 | 基于表示分类网络的变长文本语义识别方法 |
CN112989045A (zh) * | 2021-03-17 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 神经网络训练方法、装置、电子设备及存储介质 |
CN112989045B (zh) * | 2021-03-17 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 神经网络训练方法、装置、电子设备及存储介质 |
CN112906392A (zh) * | 2021-03-23 | 2021-06-04 | 北京天融信网络安全技术有限公司 | 一种文本增强方法、文本分类方法及相关装置 |
CN113076424A (zh) * | 2021-04-23 | 2021-07-06 | 昆明理工大学 | 一种面向不平衡文本分类数据的数据增强方法及系统 |
CN113239205A (zh) * | 2021-06-10 | 2021-08-10 | 阳光保险集团股份有限公司 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
CN113239205B (zh) * | 2021-06-10 | 2023-09-01 | 阳光保险集团股份有限公司 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
CN113254590A (zh) * | 2021-06-15 | 2021-08-13 | 北京建筑大学 | 一种基于多核双层卷积神经网络的中文文本情绪分类方法 |
CN113254590B (zh) * | 2021-06-15 | 2021-11-09 | 北京建筑大学 | 一种基于多核双层卷积神经网络的中文文本情绪分类方法 |
CN113434685A (zh) * | 2021-07-06 | 2021-09-24 | 中国银行股份有限公司 | 一种资讯分类处理的方法及系统 |
CN113656586A (zh) * | 2021-08-20 | 2021-11-16 | 平安国际智慧城市科技股份有限公司 | 情感分类方法、装置、电子设备及可读存储介质 |
CN113656586B (zh) * | 2021-08-20 | 2024-03-12 | 平安国际智慧城市科技股份有限公司 | 情感分类方法、装置、电子设备及可读存储介质 |
CN113723075A (zh) * | 2021-08-28 | 2021-11-30 | 重庆理工大学 | 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN114510911A (zh) * | 2022-02-16 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN115429289A (zh) * | 2022-09-01 | 2022-12-06 | 天津大学 | 一种脑机接口训练数据扩增方法、装置、介质及电子设备 |
CN117009534A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 文本分类方法、装置、计算机设备以及存储介质 |
CN117009534B (zh) * | 2023-10-07 | 2024-02-13 | 之江实验室 | 文本分类方法、装置、计算机设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN111274405B (zh) | 一种基于gcn的文本分类方法 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110633373B (zh) | 一种基于知识图谱和深度学习的汽车舆情分析方法 | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN106447066A (zh) | 一种大数据的特征提取方法和装置 | |
Ju et al. | An efficient method for document categorization based on word2vec and latent semantic analysis | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN110059181A (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN114896386A (zh) | 基于BiLSTM的电影评论语义情感分析方法及系统 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
CN112148886A (zh) | 一种内容知识图谱的构建方法及系统 | |
Smitha et al. | Meme classification using textual and visual features | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
Saha et al. | Sentiment Classification in Bengali News Comments using a hybrid approach with Glove |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |