CN111046183A - 用于文本分类的神经网络模型的构建方法和装置 - Google Patents
用于文本分类的神经网络模型的构建方法和装置 Download PDFInfo
- Publication number
- CN111046183A CN111046183A CN201911269394.XA CN201911269394A CN111046183A CN 111046183 A CN111046183 A CN 111046183A CN 201911269394 A CN201911269394 A CN 201911269394A CN 111046183 A CN111046183 A CN 111046183A
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- vector
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种神经网络模型文本分类构建方法和装置、本申请在神经网络文本分类模型的训练中引入了虚拟对抗训练,可以使用未标记的文本数据进行模型训练,降低了对人工标记语料的依赖。该方法包括:获取训练数据,包括获取已标记文本数据以及未标记文本数据;获取文本数据中各个字对应的字向量并正则化处理;将各文本数据的正则化后的字向量输入至LSTM文本特征提取模型中,得到各文本数据的隐含特征向量;利用已标记文本数据的隐含特征向量以及对应的标签和未标记文本数据的隐含特征向量对全连接神经网络模型进行半监督学习训练;最终将LSTM文本特征提取模型和目标神经网络模型确定为文本分类模型。
Description
技术领域
本申请实施例涉及文本识别领域,具体涉及用于文本分类的神经网络模型的构建方法和装置。
背景技术
文本分类问题是自然语言处理领域中一个经典的问题,文本分类是自然语言处理中一个很经典也很重要的问题,它的应用很广泛,在很多领域发挥着重要作用,例如垃圾邮件过滤、舆情分析以及新闻分类等。
神经网络模型在文本分类任务上有出色的效果,可以有效代替人工进行文本分类工作。但是,神经网络模型的训练需要大量人工标记好的语料进行训练,以改善神经网络模型的准确率,耗费的人力成本较高。
发明内容
本申请实施例提供了用于文本分类的神经网络模型的构建方法和装置。
本申请实施例第一方面提供了一种用于文本分类的神经网络模型的构建方法,包括:
获取训练文本数据,所述训练文本数据包括已标记数据和未标记文本数据;
对所述训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量;
将所述正则文本向量输入至长短期记忆网络文本特征提取模型,对所述长短期记忆网络文本特征提取模型进行训练,得到所述文本数据的隐含特征向量;
使用所述已标记数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量对全连接神经网络模型进行半监督学习训练;
综合所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型生成用于文本分类的神经网络模型。
优选的,所述对所述文本数据中各个字对应的字向量并正则化处理,得到正则文本向量,包括:
使用预训练的字向量模型向量化所述文本数据中各个字符,得到字嵌入;
对所述字嵌入进行正则化处理,得到所述文本数据的正则文本向量。
优选的,所述将所述文本向量输入至长短期记忆网络文本特征提取模型中,得到所述文本数据的隐含特征向量,包括:
将所述正则文本向量按照上下文顺序输入至所述长短期记忆网络文本特征提取模型;
使用所述正则文本向量对所述长短期记忆网络文本特征提取模型进行无监督训练,并输出所述训练文本数据的隐含特征向量,所述训练文本数据的隐含特征向量包括已标记文本的隐含特征向量和所述未标记文本的隐含特征向量。
优选的,所述使用所述已标记文本数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量对全连接神经网络模型进行半监督学习训练,包括:
使用所述已标记文本数据和所述已标记文本对应的标签对全连接神经网络模型模型进行监督训练;
使用所述未标记文本数据对所述全连接神经网络进行虚拟对抗训练。
优选的,所述使用所述已标记文本数据的隐含特征向量和所述已标记文本对应的标签对全连接神经网络模型模型进行有监督训练,包括:
获取所述已标记文本的隐含特征向量,作为第一隐含特征向量;
根据所述第一隐含特征向量计算所述已标记文本的第一标签概率分布;
获取所述已标记文本的人工标记概率分布,作为第二标签概率分布;
计算所述第一标签概率分布和第二标签概率分布的交叉熵损失作为监督信号,使用反向传播算法对所述全连接神经网络模型进行监督训练,以修改所述全连接神经网络模型的权重参数。
优选的,所述使用所述未标记文本数据对所述全连接神经网络进行虚拟对抗训练,包括:
获取所述未标记文本的正则文本向量;
将所述未标记文本的正则文本向量输入所述长短期记忆网络文本特征提取模型,得到所述第二隐含特征向量;
将所述第二隐含特征向量输入所述全连接神经网络模型,得到第三标签概率分布;
将所述未标记文本的正则化字向量加入虚拟对抗扰动,输入所述长短期记忆网络文本特征提取模型,得到第三隐含特征向量;
将所述第三隐含特征向量输入所述全连接神经网络模型,得到第四标签概率分布;
计算第三标签概率分布和所述第四标签概率分布的K-L散度均值,作为虚拟对抗训练损失,进行虚拟对抗训练;
使用优化算法最小化所述虚拟对抗损失和监督训练损失调整所述全连接神经网络模型的参数,以使得所述全连接神经网络模型收敛。
优选的,在将所述未标记文本的正则化字向量加入虚拟对抗扰动之前,所述方法还包括:
在所述未标记本文数据的正则化文本字向量中加入一个随机扰动输入所述长短期记忆网络文本特征提取模型,得到第四隐含特征向量,所述随机扰动符合标准正态分布;
将所述第四隐含特征向量输入至所述全连接神经网络模型计算第五标签概率分布;
计算所述第二本文数据的标签概率分布和加上所述随机向量后的所述第五标签概率分布的K-L散度的梯度的二范数,得到虚拟对抗扰动。
优选的,所述方法还包括:
获取待预测文本;
将所述待预测文本以字为单位进行向量化和正则化处理;
提取所述待预测文本的隐含特征向量;
将所述隐含特征向量输入至所述目标神经网络模型中,得到所述待预测文本的标签。
本申请第二方面还提供了一种用于文本分类的神经网络模型的构建装置,包括:
文本获取模块,用于获取训练文本数据,所述训练文本数据包括已标记数据和未标记文本数据;
字向量模块,用于对所述训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量。
隐含特征向量获取模块,用于将训练文本数据文本向量输入至长短期记忆网络文本特征提取模型中,得到所述训练文本数据的隐含特征向量。
模型训练模块,使用所述已标记数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量以及对应的标签对所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型进行半监督学习训练;
模型生成模块,用于综合所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型,生成用于文本分类的神经网络模型。
本申请实施例第三方面提供了一种可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的任意一种方法。
本申请实施例第四方面提供了一种计算机设备,包括中央处理器和存储器,所述存储器为短暂存储存储器或持久存储存储器,所述中央处理器配置为与所述存储器通信,在所述计算机设备上执行所述存储器中的指令操作以执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:在训练用于文本分类的神经网络模型过程中,引入了虚拟对抗训练来改善模型。由于虚拟对抗训练的损失函数只需要用到输入而不需要其对应标签的信息,使用未标记的语料训练用于文本分类的神经网络模型就能够根据损失函数改善模型,有效降低了训练过程中对标记数据资源的依赖,降低了模型训练所需的人力成本。
附图说明
图1为本申请实施例中用于文本分类的神经网络模型的构建方法的一个流程示意图;
图2为本申请实施例中采用CBOW方法训练字向量模型的一个流程示意图;
图3为本申请实施例中采用CBOW方法训练字向量模型的另一流程示意图;
图4为本申请实施例中构建的用于文本分类的神经网络模型结构示意图;
图5为本申请实施例中用于文本分类的神经网络模型的构建方法的另一流程示意图;
图6为本申请实施例中用于文本分类的神经网络模型的使用方法的一个流程示意图;
图7为本申请实施例中用于文本分类的神经网络模型的构建装置的一个结构示意图;
图8为本申请实施例中用于文本分类的神经网络模型的构建装置的另一结构示意图。
具体实施方式
本申请实施例提供了用于文本分类的神经网络模型的构建方法和装置,在模型训练中采用了虚拟对抗训练的半监督学习方法,通过虚拟对抗训练会来改善模型。由于虚拟对抗训练的损失函数只需要用到输入而不需要其对应分类标签的信息,因此可以扩展到半监督的文本分类和未标记样本,有效降低了文本分类对标记数据资源的依赖。
请参见图1,本申请的一个实施例包括以下步骤:
101、获取训练文本数据;
获取已标文本和未标记文本作为训练用的语料,可以是句子、段落或文章。此处的已标记文本是指已经正确地人工标记和分类过的文本数据,假设未标记文本所揭示的数据分布与已标记文本相同,但所述未标记文本的类别标签未知。
102、对训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量;
对训练文本数据以字为单位,进行向量化和正则化处理。向量化的过程中,优选的方案是采用基于字级别的向量化技术,相对于常用的词向量,基于字级别的向量化技术在神经网络框架下进行中文的自然语言处理任务表现更优。词级别的数据稀疏性问题不可避免地导致过拟合,而且大量的未登录词(out-of-vocabulary,OOV)限制了长短期记忆网络模型的学习能力。分词方法不统一与分词效果欠佳,导致对下游的任务产生错误的引导,也会影响模型的效果。随着时间的推移,新词会不断涌现,之前所训练的词向量模型会出现越来越严重的特征命中率下滑问题。而基于字符的向量则有效避免了此问题,因为每年被创造出来的新字符相对很少。综上,选择基于字符的向量化技术具有明显的优势。
在一种可行的实施方式中,可以使用预训练字向量模型向量化文本的每个字符,提高处理效率。以word2vec模型为例,该模型的结构如图2所示,word2vec模型能够将每个字变成一个低维空间中的向量,通常几百维,这样字符之间的语义相关性可以用向量的距离来近似描述。对字向量模型的训练方法常见的有两种,分别是CBOW和Skip-gram。在本实例实施中,采用CBOW方法进行训练效果更好。在大量数据的条件下,采用CBOW方法训练速度更加快。本申请实施例中所用的CBOW模型的训练流程是,收集某个指定领域的语料,并将语料进行低频字过滤、无意义字过滤等处理后作为CBOW模型的训练样本,人工设置CBOW模型的窗口大小、字频率、语料大小等超参数,使用收集的语料训练生成来得到本实施例中所用到的CBOW模型。
可以理解的是,训练文本数据向量化的过程可以不局限于以上方式,使用其他向量化模型或方式也可以达到类似效果。
为了防止字嵌入过大导致虚拟对抗训练中添加的扰动无效,在使用字向量模型得到向量化处理的字嵌入后,还需要对其进行正则化。本实施例中对字嵌入进行正则化处理的方式是:
其中,fj是在所有训练样本中第j个字出现的频率,K表示总的字数,vk为输入序列中第k个字对应的字嵌入。
103、使用长短期记忆网络文本特征提取模型提取隐含特征向量;
将步骤102得到的训练文本数据对应的正则文本向量,输入至长短期记忆网络文本特征提取模型进行特征编码,得到训练文本数据对应的隐含特征向量。其中长短期记忆网络(LSTM,Long Short-Term Memory)是一种改进之后的循环神经网络,可以解决传统循环神经网络无法处理长距离的依赖的问题,避免反向传播过程中出现梯度消失的情况。LSTM适合处理和预测时间序列中间隔和延迟相对较长的重要事件,其通过遗忘门、输入门和输出门来控制历史信息的去留和长期状态,将其使用在文本处理任务中,可以有效利用文本的上下文联系对已标记文本数据和未标记文本数据的正则文本向量进行编码。在编码过程中,长短期记忆网络可以使用已标记文本数据和未标记文本数据的正则文本向量,根据输入文本的顺序,对长短期记忆网络自身进行无监督的训练,在提取隐含特征向量的过程中调整LSTM自身的参数。
104、对全连接神经网络模型进行半监督学习训练;
利用已标记文本数据和未标记文本数据作为训练样本,对全连接神经网络模型进行半监督学习训练,训练过程由有监督训练和无监督训练共同组成。其中,已标记文本数据用于对全连接神经网络进行监督训练,未标记文本用于对全连接神经网络进行无监督训练,在训练过程中使用反向传播算法根据模型训练过程中损失函数变化,优化模型的参数。较优的方式是,使用Adam优化算法根据损失函数的梯度,来更新模型的权重参数以最小化损失函数。本模型的损失函数通常用交叉熵损失函数替代,如果预测值与实际值的损失越大,那么在训练的反向传播的过程中,权重参数调整的幅度就要更大,从而使训练更快收敛。
105、综合长短期记忆网络文本特征提取模型和全连接神经网络模型生成用于文本分类的神经网络模型。
按照上述经过训练模型的参数,综合生成一个复合神经网络,该神经网络的结构和功能可参阅图4,分为向量化和正则化层、LSTM层、全连接层、输出层,其中向量化和正则化层对应步骤102,全连接层对应步骤103,全连接层和输出层对应步骤104,组成一个用于文本分类的神经网络模型。
请参阅图5,在本申请的另一实施例中,对本申请中模型的半监督训练过程做了更详细地举例说明,该实施例的方法包括:
501、获取训练文本数据;
502、对训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量;
503、使用长短期记忆网络文本特征提取模型提取隐含特征向量;
本实施例中步骤501至503与前述图1所示实施例的步骤101至103类似,此处不再赘述
504、对全连接神经网络模型进行监督训练;
使用已标记文本数据作为训练样本,以已标文本数据的标签作为监督训练信号,对全连接神经网络模型进行监督训练。首先将已标记文本的隐含特征向量输入初始化的全连接神经网络,对其进行文本分类,全连接层神经网络包括一个线性变换,设置ReLu等函数作为激活函数,输出对应的标签概率分布。选的激活函数可以是relu函数,采用sigmoid或tanh等其他激活函数亦可。将已标记文本数据经过正则化和向量化处理后,得到已标记文本对应的第一隐含特向量,将第一隐含特征向量输入全连接神经网络得到的分类结果,即为第一标签概率分布。需要说明的是,第一标签概率分布是全连接神经网络模型计算的结果,其得到的文本分类结果不一定是文本真实的分类结果。将全连接神经网络的分类结果与人工标记的分类结果进行比对,根据第一标签概率分布和第二标签概率分布,用反向传播算法对模型网络中所有权重参数计算损失函数的梯度,这个梯度会反馈给Adam优化算法,用来更新权重参数以最小化损失函数,损失函数通常用交叉熵损失函数替代。如果预测值与实际值的损失越大,那么在训练的反向传播的过程中,权重参数调整的幅度就要更大,从而使训练更快收敛,让模型的分类结果更加贴近人工标记的第二标签概率分布的分类结果。
505、对全连接神经网络模型进行无监督训练;
在使用已标记文本的数据对全连接神经网络进行训练后,可以通过在未标记文本中加入小扰动的方式,进行虚拟对抗训练来提高全连接神经网络的准确度,减少了训练中需要的已标记文本数量。在一个可行的实施方式中,先将未标记文本在步骤502中生成的正则文本向量作为第二隐含特征向量,输入到全连接神经网络中,计算第三概率分布p。而后将一个小扰动输入到未标记文本在步骤102中对应生成的正则文本向量中,再将未标记文本加入小扰动后的正则文本向量作为第三隐含特征向量,输入全连接神经网络模型,推演对应的第四标签概率分布q,虚拟对抗过程中的损失函数为q和p的KL散度,使用反向传播算法最小化该损失函数,以对全连接神经网络的参数进行优化。
更进一步地,本申请实施例中无监督训练过程中所添加的小扰动的一种计算方法是,在未标记本文数据的正则化文本字向量中加入一个符合正态分布的随机向量,输入长短期记忆网络文本特征提取模型,得到第四隐含特征向量,所述随机扰动符合标准正态分布;将所述第四隐含特征向量输入至所述全连接神经网络模型计算第五标签概率分布计算所述第二本文数据的标签概率分布和加上所述随机向量后的所述第五标签概率分布的K-L散度的梯度的二范数,得到虚拟对抗扰动,使用r表示该虚拟对抗扰动,用d表示标准正态分布向量,s表示对应的正则本文向量,则r=g/||g||2,其中
506、综合长短期记忆网络文本特征提取模型和全连接神经网络模型生成用于文本分类的神经网络模型。
本步骤与前述图1所示的实施例步骤105类似,具体此处不再赘述。
相应地,本申请实施例还提供了该用于文本分类的神经网络模型使用方法,请参阅图6,该方法包括:
601、获取训练文本数据;
602、对训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量;
603、使用长短期记忆网络文本特征提取模型提取隐含特征向量;
604、对全连接神经网络模型进行半监督学习训练;
605、综合长短期记忆网络文本特征提取模型和全连接神经网络模型生成用于文本分类的神经网络模型。
步骤501至步骤505的具体过程与图1所示实施例类似,此处不再赘述。
606、获取待预测文本;
获取需要分类的待预测文本,输入到训练好的神经网络模型中,开始使用步骤505中的神经网络模型进行文本分类。
607、将待预测文本以字为单位进行向量化和正则化处理;
神经网络模型的向量化和正则化层首先对待预测文本以字为单位,进行向量化和正则化处理,得到待预测文本的正则文本向量,处理过程可参考步骤502中的训练过程。
608、提取待预测文本的隐含特征向量;
将向量化和正则化层输出的正则文本向量送入LSTM层中,使用长短期神经网络可以联系待预测文本的上下文关系,提取待预测文本的隐含特征向量;
609、根据待预测文本的隐含特征向量得到待预测文本的标签。
将待预测文本的隐含特征向量输入到全连接神经网络模型中,计算后从输出层输出得到的待预测文本的标签。该方法构建的神经网络模型在文本分类任务上效果出色,能准确得到待预测文本的标签。
本申请实施例还提供了用于文本分类的神经网络模型的构建装置,请参阅图6,该装置包括:
文本获取模块701,用于获取训练文本数据,所述文本数据包括获取已标记文本的第一文本数据以及和未标记文本的第二文本数据。
字向量模块702,用于对所述文本数据中各个字对应的字向量并正则化处理,得到正则文本向量。
隐含特征向量提取模块703,用于将训练文本数据文本向量输入至长短期记忆网络文本特征提取模型中,得到所述训练文本数据的隐含特征向量。
模型训练模块704,使用所述已标记数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量以及对应的标签对所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型进行半监督学习训练;
模型生成模块705,用于综合所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型,生成用于文本分类的神经网络模型。
本实施例中,该装置的各模块所执行的操作与前述图1或图5所示实施例中描述的类似,此处不再赘述。
本申请实施例还提供了另一用于文本分类的神经网络模型的构建装置,图7是本申请实施例提供的装置结构示意图,神经网络模型的构建装置可以包括一个或一个以上中央处理器(central processing units,CPU)801和存储器805,该存储器805中存储有一个或一个以上的应用程序或数据。
其中,存储器805可以是易失性存储或持久存储。存储在存储器805的程序可以包括一个或一个以上模块,每个模块可以包括对装置中的一系列指令操作。更进一步地,中央处理器801可以设置为与存储器805通信,在神经网络模型的构建装置上执行存储器805中的一系列指令操作。
该用装置还可以包括一个或一个以上电源802,一个或一个以上有线或无线网络接口803,一个或一个以上输入输出接口804,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器801可以执行前述图1或图5所示实施例中的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取训练文本数据,所述训练文本数据包括已标记数据和未标记文本数据;
对所述训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量;
将所述正则文本向量输入至长短期记忆网络文本特征提取模型,对所述长短期记忆网络文本特征提取模型进行训练,得到所述文本数据的隐含特征向量;
使用所述已标记数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量对全连接神经网络模型进行半监督学习训练;
综合所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型生成用于文本分类的神经网络模型。
更进一步地,计算机可读存储介质上存储的计算机程序被处理器执行时,实现图1所示实施例的任一方法,此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种用于文本分类的神经网络模型的构建方法,其特征在于,包括:
获取训练文本数据,所述训练文本数据包括已标记数据和未标记文本数据;
对所述训练文本数据中各个字对应的字向量并正则化处理,得到正则文本向量;
将所述正则文本向量输入至长短期记忆网络文本特征提取模型,对所述长短期记忆网络文本特征提取模型进行无监督训练,得到所述文本数据的隐含特征向量;
使用所述已标记数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量对全连接神经网络模型进行半监督学习训练;
综合所述长短期记忆网络文本特征提取模型和所述全连接神经网络模型生成用于文本分类的神经网络模型。
2.根据权利要求1所述的用于文本分类的神经网络模型的构建方法,其特征在于,所述对所述文本数据中各个字对应的字向量并正则化处理,得到正则文本向量,包括:
使用预训练的字向量模型向量化所述文本数据中各个字符,得到字嵌入;
对所述字嵌入进行正则化处理,得到所述文本数据的正则文本向量。
3.根据权利要求1所述的用于文本分类的神经网络模型的构建方法,其特征在于,所述将所述文本向量输入至长短期记忆网络文本特征提取模型中,得到所述文本数据的隐含特征向量,包括:
将所述正则文本向量按照上下文顺序输入至所述长短期记忆网络文本特征提取模型;
使用所述正则文本向量对所述长短期记忆网络文本特征提取模型进行无监督训练,并输出所述训练文本数据的隐含特征向量,所述训练文本数据的隐含特征向量包括已标记文本的隐含特征向量和所述未标记文本的隐含特征向量。
4.根据权利要求1所述的用于文本分类的神经网络模型的构建方法,其特征在于,
所述预训练的字向量模型是word2vec模型;
所述方法还包括:
整理收集特定领域相关的文本语料;
对所述特定领域相关的文本语料进行预处理,所述预处理包括包括低频字过滤和无意义符号过滤。处理为字符级别训练数据;
把所述字符级别训练数据输入CBOW模型,调整窗口大小,字频率等超参数,训练所述字向量模型。
5.根据权利要求1所述的用于文本分类的神经网络模型的构建方法,其特征在于,所述使用所述已标记数据的隐含特征向量以及对应的标签和所述未标记文本数据的隐含特征向量对全连接神经网络模型进行半监督学习训练,包括:
使用所述已标记文本数据和所述已标记文本对应的标签对全连接神经网络模型模型进行监督训练;使用所述未标记文本数据对所述全连接神经网络进行虚拟对抗训练。
6.根据权利要求5所述的用于文本分类的神经网络模型的构建方法,其特征在于,所述使用所述已标记文本数据的隐含特征向量和所述已标记文本对应的标签对全连接神经网络模型模型进行有监督训练,包括:
获取所述已标记文本的隐含特征向量,作为第一隐含特征向量;
根据所述第一隐含特征向量计算所述已标记文本的第一标签概率分布;
获取所述已标记文本的人工标记概率分布,作为第二标签概率分布;
计算所述第一标签概率分布和第二标签概率分布的K-L散度作为监督信号,使用反向传播算法对所述全连接神经网络模型进行监督训练,以修改所述全连接神经网络模型的权重参数。
7.根据权利要求5所述的用于文本分类的神经网络模型的构建方法,其特征在于,所述使用所述未标记文本数据对所述全连接神经网络进行虚拟对抗训练,包括:
获取所述未标记文本的正则文本向量;
将所述未标记文本的正则文本向量输入所述长短期记忆网络文本特征提取模型,得到所述第二隐含特征向量;
将所述第二隐含特征向量输入所述全连接神经网络模型,得到第三标签概率分布;
将所述未标记文本的正则文本向量加入虚拟对抗扰动,输入所述长短期记忆网络文本特征提取模型,得到第三隐含特征向量;
将所述第三隐含特征向量输入所述全连接神经网络模型,得到第四标签概率分布;
计算第三标签概率分布和所述第四标签概率分布的K-L散度均值,作为虚拟对抗训练损失,进行虚拟对抗训练;
使用优化算法最小化所述虚拟对抗损失和监督训练损失调整所述全连接神经网络模型的参数,以使得所述全连接神经网络模型收敛。
8.根据权利要求5或6所述的用于文本分类的神经网络模型的构建方法,其特征在于,在将所述未标记文本的正则化字向量加入虚拟对抗扰动之前,所述方法还包括:
在所述未标记本文数据的正则化文本字向量中加入一个随机向量输入所述长短期记忆网络文本特征提取模型,得到第四隐含特征向量,所述随机向量符合标准正态分布;
将所述第四隐含特征向量输入至所述全连接神经网络模型计算第五标签概率分布;
计算所述第二本文数据的标签概率分布和加入所述随机向量后的所述第五标签概率分布的K-L散度的梯度的二范数,得到虚拟对抗扰动。
9.根据权利要求1至7中任意一项所述的用于文本分类的神经网络模型的构建方法,其特征在于,所述方法还包括:
获取待预测文本;
将所述待预测文本以字为单位进行向量化和正则化处理;
提取所述待预测文本的隐含特征向量;
将所述隐含特征向量输入至所述全连接神经网络模型中,得到所述待预测文本的标签。
10.一种计算机设备,包括中央处理器和存储器,所述存储器为短暂存储存储器或持久存储存储器,所述中央处理器配置为与所述存储器通信,在所述计算机设备上执行所述存储器中的指令操作以执行权利要求1至9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269394.XA CN111046183A (zh) | 2019-12-11 | 2019-12-11 | 用于文本分类的神经网络模型的构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269394.XA CN111046183A (zh) | 2019-12-11 | 2019-12-11 | 用于文本分类的神经网络模型的构建方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111046183A true CN111046183A (zh) | 2020-04-21 |
Family
ID=70235777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911269394.XA Pending CN111046183A (zh) | 2019-12-11 | 2019-12-11 | 用于文本分类的神经网络模型的构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046183A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
CN111666734A (zh) * | 2020-04-24 | 2020-09-15 | 北京大学 | 序列标注方法及装置 |
CN111885000A (zh) * | 2020-06-22 | 2020-11-03 | 网宿科技股份有限公司 | 一种基于图神经网络的网络攻击检测方法、系统及装置 |
CN111930947A (zh) * | 2020-08-26 | 2020-11-13 | 施建军 | 一种现代汉语文字作品作者鉴别系统和方法 |
CN112579777A (zh) * | 2020-12-23 | 2021-03-30 | 华南理工大学 | 一种未标注文本的半监督分类方法 |
CN113742479A (zh) * | 2020-05-29 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 筛选目标文本的方法和装置 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113837294A (zh) * | 2021-09-27 | 2021-12-24 | 平安科技(深圳)有限公司 | 模型训练及调用方法、装置、计算机设备、存储介质 |
CN117216668A (zh) * | 2023-11-09 | 2023-12-12 | 北京安华金和科技有限公司 | 一种基于机器学习的数据分类分级处理方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336471A1 (en) * | 2017-05-19 | 2018-11-22 | Mehdi Rezagholizadeh | Semi-supervised regression with generative adversarial networks |
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN110532377A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
-
2019
- 2019-12-11 CN CN201911269394.XA patent/CN111046183A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336471A1 (en) * | 2017-05-19 | 2018-11-22 | Mehdi Rezagholizadeh | Semi-supervised regression with generative adversarial networks |
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN110532377A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666734A (zh) * | 2020-04-24 | 2020-09-15 | 北京大学 | 序列标注方法及装置 |
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
CN113742479A (zh) * | 2020-05-29 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 筛选目标文本的方法和装置 |
CN111885000A (zh) * | 2020-06-22 | 2020-11-03 | 网宿科技股份有限公司 | 一种基于图神经网络的网络攻击检测方法、系统及装置 |
CN111930947A (zh) * | 2020-08-26 | 2020-11-13 | 施建军 | 一种现代汉语文字作品作者鉴别系统和方法 |
CN112579777A (zh) * | 2020-12-23 | 2021-03-30 | 华南理工大学 | 一种未标注文本的半监督分类方法 |
CN112579777B (zh) * | 2020-12-23 | 2023-09-19 | 华南理工大学 | 一种未标注文本的半监督分类方法 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113806536B (zh) * | 2021-09-14 | 2024-04-16 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113837294A (zh) * | 2021-09-27 | 2021-12-24 | 平安科技(深圳)有限公司 | 模型训练及调用方法、装置、计算机设备、存储介质 |
CN113837294B (zh) * | 2021-09-27 | 2023-09-01 | 平安科技(深圳)有限公司 | 模型训练及调用方法、装置、计算机设备、存储介质 |
CN117216668A (zh) * | 2023-11-09 | 2023-12-12 | 北京安华金和科技有限公司 | 一种基于机器学习的数据分类分级处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046183A (zh) | 用于文本分类的神经网络模型的构建方法和装置 | |
Athiwaratkun et al. | Probabilistic fasttext for multi-sense word embeddings | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN108319666B (zh) | 一种基于多模态舆情分析的供电服务评估方法 | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN110196980B (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN110110080A (zh) | 文本分类模型训练方法、装置、计算机设备及存储介质 | |
CN109947931B (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN109710916B (zh) | 一种标签提取方法、装置、电子设备及存储介质 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN111160191B (zh) | 一种视频关键帧提取方法、装置及存储介质 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN111008266A (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
Ma et al. | Jointly trained sequential labeling and classification by sparse attention neural networks | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
CN114328927A (zh) | 基于标签感知的门控循环采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |