CN109960726B - 文本分类模型构建方法、装置、终端及存储介质 - Google Patents
文本分类模型构建方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN109960726B CN109960726B CN201910113183.0A CN201910113183A CN109960726B CN 109960726 B CN109960726 B CN 109960726B CN 201910113183 A CN201910113183 A CN 201910113183A CN 109960726 B CN109960726 B CN 109960726B
- Authority
- CN
- China
- Prior art keywords
- dimensional matrix
- neural network
- convolutional neural
- network model
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 71
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 128
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 98
- 239000013598 vector Substances 0.000 claims abstract description 90
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims description 89
- 230000007246 mechanism Effects 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 13
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 241000124033 Salix Species 0.000 description 3
- 244000144730 Amygdalus persica Species 0.000 description 2
- 241000345998 Calamus manan Species 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000012950 rattan cane Nutrition 0.000 description 2
- 241000219000 Populus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Abstract
本发明涉及神经网络技术领域,提供了一种文本分类模型构建方法、装置、终端及存储介质。所述文本分类模型构建方法包括:利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层;获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。本发明的文本分类模型采用Pytorch框架,由于Pytorch框架面向对象的接口设计来源于torch,而torch的接口设计具有灵活易用的特点,并且PyTorch框架能够逐层打印出计算结果以便于调试,因此构建的文本分类模型更易于维护和调试。
Description
技术领域
本发明涉及神经网络技术领域,尤其涉及一种文本分类模型构建方法、装置、终端及存储介质。
背景技术
随着移动互联网时代的到来,内容的生产和传播都发生了深刻的变化,为了满足信息爆炸背景下用户的多样化需求,迫切需要对文本信息进行有效的组织,文本分类是数据挖掘和信息检索领域研究的热点和核心技术。
现有的文本分类模型,如果要在文本分类问题上采用神经网络算法一般会采用tensorflow框架。但tensorflow框架代码冗长、接口设计过于晦涩难懂,导致构建的文本分类模型维护困难、调试不便、不易于操作。
发明内容
本发明提供一种文本分类模型构建方法、装置、终端及存储介质,以解决当前采用tensorflow框架构建文本分类模型时,因tensorflow框架代码冗长、接口设计过于晦涩难懂而导致构建的文本分类模型维护困难、调试不便、不易于操作的问题。
为解决上述问题,本发明采用如下技术方案:
本发明提供一种文本分类模型构建方法,包括如下步骤:
利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层;
获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;
将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。
在一实施例中,所述利用Word2Vec算法将所述文本训练数据进行词向量训练之前,还包括:
根据正则表达式匹配规则去除文本训练数据的停用词和符号;
利用结巴分词库将去除停用词和符号的文本训练数据进行中文分词。
在一实施例中,所述利用结巴分词库将去除停用词和符号的文本训练数据进行中文分词的步骤,包括:
利用结巴分词库确定文本训练数据中汉字之间的相关度;
将相关度大于预设值的汉字组成分词,得到分词结果。
在一实施例中,所述将所述词向量输入卷积神经网络模型进行分类训练的步骤,包括:
根据所述词向量并通过交叉熵损失函数和ADAM优化算法对卷积神经网络模型进行分类训练。
在一实施例中,所述利用Word2Vec算法将所述文本训练数据进行词向量训练的步骤,包括:
利用Word2Vec算法对大型语料数据进行词向量训练,得到词向量字典;
根据所述词向量字典将文本训练数据转化为词向量。
在一实施例中,所述利用pytorch框架搭建卷积神经网络模型之后,还包括:
在所述卷积神经网络模型上建立位置注意力机制和通道注意力机制;其中,所述位置注意力机制和通道注意力机制的输入与卷积神经网络模型的激活层的输出连接,所述位置注意力机制和通道注意力机制的输出与卷积神经网络模型的全连接层的输入连接。
在一实施例中,所述将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型的步骤,包括:
根据分类训练结果计算卷积神经网络模型的分类准确率;
当分类准确率低于预设值时,调整卷积神经网络模型的参数,利用词向量对所述卷积神经网络模型重新训练,直至收敛时,得到文本分类模型。
本发明提供的一种文本分类模型构建装置,包括:
搭建模块,用于利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层;
获取模块,用于获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;
训练模块,用于将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。
本发明提供一种终端,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上任一项所述的文本分类模型构建方法的步骤。
本发明提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的文本分类模型构建方法。
相对于现有技术,本发明的技术方案至少具备如下优点:
本发明提供的文本分类模型构建方法,通过利用pytorch框架搭建卷积神经网络模型,然后获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。本发明的文本分类模型采用Pytorch框架,由于Pytorch框架面向对象的接口设计来源于torch,而torch的接口设计具有灵活易用的特点,并且PyTorch框架能够逐层打印出计算结果以便于调试,因此构建的文本分类模型更易于维护和调试。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1本发明文本分类模型构建方法一种实施例流程框图;
图2为本发明文本分类模型构建装置一种实施例模块框图;
图3为本发明一个实施例中终端的内部结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S11、S12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了一种文本分类模型构建方法,以解决当前采用tensorflow框架构建文本分类模型时,因tensorflow框架代码冗长、接口设计过于晦涩难懂而导致构建的文本分类模型维护困难、调试不便、不易于操作的问题。其中一种实施方式中,所述文本分类模型构建方法包括如下步骤:
S11、利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层;
本实施例的卷积神经网络模型基于pytorch框架搭建,所述pytorch框架是一个python优先的深度学习框架,相对于Tensorflow深度学习框架,其具有更好的灵活性,可以在执行时动态构建或调整计算图,以便于训练过程直接打印隐含变量数值,用于进行调试。而Tensorflow深度学习框架运行时必须提前建好静态计算图,然后通过feed和run重复执行建好的图,因图是静态的,网络结构需要预先建立编译,然后进行训练,训练过程中,每一隐含变量无法直接打印,而是需要重新载入数据进行相关输出,操作不便。所述嵌入层具有降维的作用,输入到卷积神经网络模型的向量往往是高维度数据,比如8000维,嵌入层可以将其降到比如100维度的空间下进行运算,可以在压缩数据的同时让信息损失最小化,从而提高运算效率。
S12、获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;
在本实施例中,可通过爬虫技术自动抓取互联网信息,从互联网信息中提取出文本分类训练数据,然后利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量。其中,所述word2vec算法基于一个浅层神经网络,其可以在百万数量级的词典和上亿的数据集上进行高效地训练,得到训练结果——词向量,并可以良好地度量词与词之间的相似性。
S13、将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。
本实施例将训练得到的词向量输入预先搭建好的卷积神经网络模型中,以对卷积神经网络模型进行分类训练,直至其收敛时,也即训练结果满足要求时,得到训练合格的文本分类模型,以后续用于对文本数据进行分类,如新闻标题分类、评论情感分类等。需要说明的是,输入卷积神经网络模型的词向量越多,则训练得到的文本分类模型的分类准确性越高。
本发明提供的文本分类模型构建方法,通过利用pytorch框架搭建卷积神经网络模型,然后获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;最后将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到训练合格的文本分类模型,以提高文本分类模型的分类准确率;同时,由于本发明的文本分类模型采用Pytorch框架,Pytorch框架面向对象的接口设计来源于torch,而torch的接口设计具有灵活易用的特点,并且PyTorch框架能够逐层打印出计算结果以便于调试,因此构建的文本分类模型更易于维护和调试。
在一实施例中,步骤S12的利用Word2Vec算法将所述文本训练数据进行词向量训练之前,还可包括:
根据正则表达式匹配规则去除文本训练数据的停用词和符号;
在本实施例中,正则表达式是由一些具有特殊含义的字符组成的字符串,多用于查找、替换符合规则的字符串。所述正则表达式匹配规则可以对字符串进行操作,以简化对字符串的复杂操作,其主要功能有匹配、切割、替换、获取。本实施例可以利用正则表达式匹配规则去除文本训练数据的停用词和符号,如文本中标点符号的删除,以得到有效文本训练数据。
利用结巴分词库将去除停用词和符号的文本训练数据进行中文分词。
在本实施例中,可根据结巴分词库中字词的搭配频率对文本训练数据进行中文分词,经过中文分词后的文本训练数据,在利用Word2Vec算法对其进行词向量训练时,训练效率更高,训练结果更佳。例如,当对“燕子去了,有再来的时候;杨柳枯了,有再青的时候;桃花谢了,有再开的时候”这段文本进行分词时,可根据结巴分词库中字词的搭配频率分为“燕子/去了,有/再来/的/时候;杨柳/枯了,有/再/青/的/时候;桃花/谢了,有/再开/的/时候”。当然,所述文本训练数据还可通过其他方式进行分词,在此不做具体限定。
在一实施例中,所述利用结巴分词库将去除停用词和符号的文本训练数据进行中文分词的步骤,包括:
利用结巴分词库确定文本训练数据中汉字之间的相关度;
将相关度大于预设值的汉字组成分词,得到分词结果。
在本实施例中,可通过计算文本训练数据中相邻汉字之间的相关度,并将相关度高的汉字组成分词,从而得到分词结果,以提高分词的准确性。例如,在对“枯藤老树昏鸦,小桥流水人家”这段文本进行分词时,根据结巴分词库确定“枯”和“藤”的相关度比“藤”和“老”的相关度要高,因此可以组成分词“枯藤”,依此类推,得到这段文本的分词结果为“枯藤”、“老树”、“昏鸦”、“小桥”、“流水”、“人家”。其中,所述相关度的预设值可根据需要灵活调整。
在一实施例中,步骤S13的将所述词向量输入卷积神经网络模型进行分类训练的步骤,包括:
根据所述词向量并通过交叉熵损失函数和ADAM优化算法对卷积神经网络模型进行分类训练。
在本实施例中,所述交叉熵损失函数可用来评估当前训练得到的概率分布与真实分布的差异情况,以了解文本分类模型的分类准确率,以对文本分类模型的相关参数实时调整,直至训练合格。其中,ADAM优化算法是在带动量的梯度下降法的基础上融合了一种加速梯度下降算法而形成的。相较于带动量的梯度下降法,所述ADAM优化算法可对分类训练结果进行偏差纠正,以提高分类准确性。
在一实施例中,步骤S12的利用Word2Vec算法将所述文本训练数据进行词向量训练的步骤,可具体包括:
利用Word2Vec算法对大型语料数据进行词向量训练,得到词向量字典;
本实施例可通过Word2Vec算法将大型语料数据进行词向量训练,得到词向字典量。这一步骤可通过Python中的gensim库实现,Gensim库是一个基于python的自然语言处理库,能够利用TF-IDF、LDA,、LSI等模型将文本转化成向量模式,以便进行进一步的处理。
根据所述词向量字典将文本训练数据转化为词向量。
本实施例可通过训练得到的词向量字典将文本训练数据转化为词向量,其中,文本训练数据中每一个字词在词向量字典中都有相应的词向量,从而得到文本训练数据中所有字词的词向量。
在一实施例中,步骤S11的利用pytorch框架搭建卷积神经网络模型之后,还可包括:
在所述卷积神经网络模型上建立位置注意力机制和通道注意力机制;其中,所述位置注意力机制和通道注意力机制的输入与卷积神经网络模型的激活层的输出连接,所述位置注意力机制和通道注意力机制的输出与卷积神经网络模型的全连接层的输入连接。
在本实施例中,位置注意力机制与通道注意力机制的输入来源于卷积神经网络的激活层输出。卷积神经网络模型的输出可以为384*100*1的三维矩阵,对于位置注意力机制,可先将卷积神经网络模型的输出三维矩阵转化为384*100的矩阵,并通过两个并行全连接层输出100*384与384*100的矩阵,然后进行矩阵乘法及softmax映射,得到100*100的位置注意力矩阵。在此基础上,通过另一并行全连接层输出384*100的矩阵与位置注意力矩阵进行矩阵乘法,得到384*100的矩阵并将其转化为384*100*1的三维矩阵,并与卷积神经网络模型的输出加和,得到位置注意力机制的输出结果。
对于通道注意力机制,可首先将卷积神经网络模型的输出三维矩阵转化为384*100的矩阵,并通过两个并行全连接层输出384*100与100*384的矩阵,然后进行矩阵乘法及softmax映射,得到384*384的通道注意力矩阵。在此基础上通过另一并行全连接层输出100*384的矩阵与通道注意力矩阵进行矩阵乘法,得到100*384的矩阵并将其转化为384*100*1的三维矩阵,并与卷积神经网络模型输出加和,得到通道注意力机制输出结果。最后将位置注意力机制和通道注意力机制输出,并输入全连接层,从而完成整个卷积神经网络模型的输出。
其中,所述全连接层在整个卷积神经网络模型中起到“分类器”的作用。如果说卷积神经网络模型的卷积层、池化层和激活层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。
在一实施例中,卷积神经网络模型的卷积层含高度为1、3、5的一维卷积和128条通道(通过padding实现卷积层输入输出维度一致),激活层函数可以为ReLU,其收敛更快,并且能保持同样效果。
在一实施例中,步骤S13的将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型的步骤,可具体包括:
根据分类训练结果计算卷积神经网络模型的分类准确率;
当分类准确率低于预设值时,调整卷积神经网络模型的参数,利用词向量对所述卷积神经网络模型重新训练,直至收敛时,得到文本分类模型。
本实施例对卷积神经网络模型的分类准确率进行计算,并判断卷积神经网络模型的分类准确率是否低于预设值,若是,则调整卷积神经网络模型的参数,利用词向量对所述卷积神经网络模型重新训练,直至卷积神经网络模型的分类准确率高于预设值时,得到训练合格的文本分类模型,从而保证训练得到的文本分类模型有较好的分类效果。
请参考图2,本发明的实施例还提供了一种文本分类模型构建装置,一种本实施例中,包括搭建模块21、获取模块22和训练模块23。其中,
搭建模块21,用于利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层;
本实施例的卷积神经网络模型基于pytorch框架搭建,所述pytorch框架是一个python优先的深度学习框架,相对于Tensorflow深度学习框架,其具有更好的灵活性,可以在执行时动态构建或调整计算图,以便于训练过程直接打印隐含变量数值,用于进行调试。而Tensorflow深度学习框架运行时必须提前建好静态计算图,然后通过feed和run重复执行建好的图,因图是静态的,网络结构需要预先建立编译,然后进行训练,训练过程中,每一隐含变量无法直接打印,而是需要重新载入数据进行相关输出,操作不便。所述嵌入层具有降维的作用,输入到卷积神经网络模型的向量往往是高维度数据,比如8000维,嵌入层可以将其降到比如100维度的空间下进行运算,可以在压缩数据的同时让信息损失最小化,从而提高运算效率。
获取模块22,用于获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;
在本实施例中,可通过爬虫技术自动抓取互联网信息,从互联网信息中提取出文本分类训练数据,然后利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量。其中,所述word2vec算法基于一个浅层神经网络,其可以在百万数量级的词典和上亿的数据集上进行高效地训练,得到训练结果——词向量,并可以良好地度量词与词之间的相似性。
训练模块23,用于将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。
本实施例将训练得到的词向量输入预先搭建好的卷积神经网络模型中,以对卷积神经网络模型进行分类训练,直至其收敛时,也即训练结果满足要求时,得到训练合格的文本分类模型,以后续用于对文本数据进行分类,如新闻标题分类、评论情感分类等。需要说明的是,输入卷积神经网络模型的词向量越多,则训练得到的文本分类模型的分类准确性越高。
本发明提供的文本分类模型构建装置,通过利用pytorch框架搭建卷积神经网络模型,然后获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;最后将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到训练合格的文本分类模型,以提高文本分类模型的分类准确率;同时,由于本发明的文本分类模型采用Pytorch框架,Pytorch框架面向对象的接口设计来源于torch,而torch的接口设计具有灵活易用的特点,并且PyTorch框架能够逐层打印出计算结果以便于调试,因此构建的文本分类模型更易于维护和调试。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明提供的一种终端,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上任一项所述的文本分类模型构建方法的步骤。
在一实施例中,所述终端为一种计算机设备,如图3所示。本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括处理器302、存储器303、输入单元304以及显示单元305等器件。本领域技术人员可以理解,图3示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器303可用于存储计算机程序301以及各功能模块,处理器302运行存储在存储器303的计算机程序301,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
输入单元304用于接收信号的输入,以及接收用户输入的关键字。输入单元304可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
作为一个实施例,所述计算机设备包括:一个或多个处理器302,存储器303,一个或多个计算机程序301,其中所述一个或多个计算机程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行,所述一个或多个计算机程序301配置用于执行以上实施例所述的文本分类模型构建方法。
在一个实施例中,本发明还提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述文本分类模型构建方法。例如,所述存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccess Memory,RAM)等。
综合上述实施例可知,本发明最大的有益效果在于:
本发明提供的文本分类模型构建方法、装置、终端及存储介质,通过利用pytorch框架搭建卷积神经网络模型,然后获取文本分类训练数据,利用Word2Vec算法将所述文本训练数据进行词向量训练,得到词向量;最后将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到训练合格的文本分类模型,以提高文本分类模型的分类准确率;同时,由于本发明的文本分类模型采用Pytorch框架,Pytorch框架面向对象的接口设计来源于torch,而torch的接口设计具有灵活易用的特点,并且PyTorch框架能够逐层打印出计算结果以便于调试,因此构建的文本分类模型更易于维护和调试。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种文本分类模型构建方法,其特征在于,包括:
利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层,所述嵌入层用于将输入到所述卷积神经网络模型的向量进行降维;
在所述卷积神经网络模型上建立位置注意力机制和通道注意力机制;其中,所述位置注意力机制和通道注意力机制的输入与卷积神经网络模型的激活层的输出连接,所述位置注意力机制和通道注意力机制的输出与卷积神经网络模型的全连接层的输入连接;所述卷积神经网络的全连接层的输出为第一三维矩阵,对于所述位置注意力机制,通过所述位置注意力机制将所述第一三维矩阵转化为第一二维矩阵,并通过两个并行全连接层对所述第一二维矩阵进行处理,输出第二二维矩阵和第三二维矩阵,对所述第二二维矩阵和所述第三二维矩阵进行矩阵乘法以及softmax映射,得到第四二维矩阵,通过另一并行全连接层输出的所述第一二维矩阵与所述第四二维矩阵进行矩阵乘法,得到第五二维矩阵,并将第二二维矩阵转换成第二三维矩阵,将所述第二三维矩阵与所述第一三维矩阵相加得到位置注意力机制的输出结果;对于通道注意力机制,将所述第一三维矩阵转化为第一二维矩阵,并通过两个并行全连接层对所述第一二维矩阵进行处理,输出第二二维矩阵和第三二维矩阵,对所述第二二维矩阵和所述第三二维矩阵进行矩阵乘法以及softmax映射,得到第六二维矩阵,通过另一并行全连接层输出的所述第一二维矩阵和所述第六二维矩阵进行矩阵乘法,得到第七二维矩阵,并将所述第七二维矩阵转化为第三三维矩阵,将位置注意力机制和通道注意力机主输出,并输入全连接层,得到整个卷积神经网络模型的输出;
获取文本分类训练数据,根据正则表达式匹配规则去除文本分类训练数据的停用词和符号,利用结巴分词库确定文本分类训练数据中汉字之间的相关度,将相关度大于预设值的汉字组成分词,得到分词结果,所述相关度的预设值是可调整的,利用Word2Vec算法将所述文本分类训练数据进行词向量训练,得到词向量,所述词向量用于度量词与词之间的相似性;
将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。
2.根据权利要求1所述的文本分类模型构建方法,其特征在于,所述将所述词向量输入卷积神经网络模型进行分类训练的步骤,包括:
根据所述词向量并通过交叉熵损失函数和ADAM优化算法对卷积神经网络模型进行分类训练。
3.根据权利要求1所述的文本分类模型构建方法,其特征在于,所述利用Word2Vec算法将所述文本分类训练数据进行词向量训练的步骤,包括:
利用Word2Vec算法对大型语料数据进行词向量训练,得到词向量字典;
根据所述词向量字典将文本分类训练数据转化为词向量。
4.根据权利要求1所述的文本分类模型构建方法,其特征在于,所述将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型的步骤,包括:
根据分类训练结果计算卷积神经网络模型的分类准确率;
当分类准确率低于预设值时,调整卷积神经网络模型的参数,利用词向量对所述卷积神经网络模型重新训练,直至收敛时,得到文本分类模型。
5.一种文本分类模型构建装置,其特征在于,包括:
搭建模块,用于利用pytorch框架搭建卷积神经网络模型;其中,所述卷积神经网络模型设置于嵌入层,所述嵌入层用于将输入到所述卷积神经网络模型的向量进行降维;
所述搭建模块还用于在所述卷积神经网络模型上建立位置注意力机制和通道注意力机制;其中,所述位置注意力机制和通道注意力机制的输入与卷积神经网络模型的激活层的输出连接,所述位置注意力机制和通道注意力机制的输出与卷积神经网络模型的全连接层的输入连接;所述卷积神经网络的全连接层的输出为第一三维矩阵,对于所述位置注意力机制,通过所述位置注意力机制将所述第一三维矩阵转化为第一二维矩阵,并通过两个并行全连接层对所述第一二维矩阵进行处理,输出第二二维矩阵和第三二维矩阵,对所述第二二维矩阵和所述第三二维矩阵进行矩阵乘法以及softmax映射,得到第四二维矩阵,通过另一并行全连接层输出的所述第一二维矩阵与所述第四二维矩阵进行矩阵乘法,得到第五二维矩阵,并将第二二维矩阵转换成第二三维矩阵,将所述第二三维矩阵与所述第一三维矩阵相加得到位置注意力机制的输出结果;对于通道注意力机制,将所述第一三维矩阵转化为第一二维矩阵,并通过两个并行全连接层对所述第一二维矩阵进行处理,输出第二二维矩阵和第三二维矩阵,对所述第二二维矩阵和所述第三二维矩阵进行矩阵乘法以及softmax映射,得到第六二维矩阵,通过另一并行全连接层输出的所述第一二维矩阵和所述第六二维矩阵进行矩阵乘法,得到第七二维矩阵,并将所述第七二维矩阵转化为第三三维矩阵,将位置注意力机制和通道注意力机主输出,并输入全连接层,得到整个卷积神经网络模型的输出;
获取模块,用于获取文本分类训练数据,根据正则表达式匹配规则去除文本分类训练数据的停用词和符号,利用结巴分词库确定文本分类训练数据中汉字之间的相关度,将相关度大于预设值的汉字组成分词,得到分词结果,所述相关度的预设值是可调整的,利用Word2Vec算法将所述文本分类训练数据进行词向量训练,得到词向量,所述词向量用于度量词与词之间的相似性;
训练模块,用于将所述词向量输入卷积神经网络模型进行分类训练,直至收敛时,得到文本分类模型。
6.一种终端,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述的文本分类模型构建方法的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至4中任一项所述的文本分类模型构建方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113183.0A CN109960726B (zh) | 2019-02-13 | 2019-02-13 | 文本分类模型构建方法、装置、终端及存储介质 |
PCT/CN2019/117225 WO2020164267A1 (zh) | 2019-02-13 | 2019-11-11 | 文本分类模型构建方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113183.0A CN109960726B (zh) | 2019-02-13 | 2019-02-13 | 文本分类模型构建方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109960726A CN109960726A (zh) | 2019-07-02 |
CN109960726B true CN109960726B (zh) | 2024-01-23 |
Family
ID=67023660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910113183.0A Active CN109960726B (zh) | 2019-02-13 | 2019-02-13 | 文本分类模型构建方法、装置、终端及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109960726B (zh) |
WO (1) | WO2020164267A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960726B (zh) * | 2019-02-13 | 2024-01-23 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN110472659B (zh) * | 2019-07-05 | 2024-03-08 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机可读存储介质和计算机设备 |
CN111382269B (zh) * | 2020-03-02 | 2021-07-23 | 拉扎斯网络科技(上海)有限公司 | 文本分类模型训练方法、文本分类方法及相关装置 |
CN111984762B (zh) * | 2020-08-05 | 2022-12-13 | 中国科学院重庆绿色智能技术研究院 | 一种对抗攻击敏感的文本分类方法 |
CN112069317A (zh) * | 2020-09-07 | 2020-12-11 | 北京理工大学 | 一种装配工时的获取方法及处理器 |
CN112597764B (zh) * | 2020-12-23 | 2023-07-25 | 青岛海尔科技有限公司 | 文本分类方法及装置、存储介质、电子装置 |
CN112699243B (zh) * | 2021-01-15 | 2022-10-18 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN112711423A (zh) * | 2021-01-18 | 2021-04-27 | 深圳中兴网信科技有限公司 | 引擎构建方法、入侵检测方法、电子设备和可读存储介质 |
CN113010674B (zh) * | 2021-03-11 | 2023-12-22 | 平安创科科技(北京)有限公司 | 文本分类模型封装方法、文本分类方法及相关设备 |
CN113268599B (zh) * | 2021-05-31 | 2024-03-19 | 平安国际智慧城市科技股份有限公司 | 文件分类模型的训练方法、装置、计算机设备及存储介质 |
CN113282710B (zh) * | 2021-06-01 | 2023-02-03 | 平安国际智慧城市科技股份有限公司 | 文本关系抽取模型的训练方法、装置以及计算机设备 |
CN113688237B (zh) * | 2021-08-10 | 2024-03-05 | 北京小米移动软件有限公司 | 文本分类方法、文本分类网络的训练方法及装置 |
CN115859837B (zh) * | 2023-02-23 | 2023-05-16 | 山东大学 | 基于数字孪生建模的风机叶片动态冲击检测方法及系统 |
CN116975863A (zh) * | 2023-07-10 | 2023-10-31 | 福州大学 | 基于卷积神经网络的恶意代码检测方法 |
CN116644157B (zh) * | 2023-07-27 | 2023-10-10 | 交通运输部公路科学研究所 | 基于桥梁养护非结构化数据构建Embedding数据的方法 |
CN117370809B (zh) * | 2023-11-02 | 2024-04-12 | 快朵儿(广州)云科技有限公司 | 一种基于深度学习的人工智能模型构建方法、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN108509427A (zh) * | 2018-04-24 | 2018-09-07 | 北京慧闻科技发展有限公司 | 文本数据的数据处理方法及应用 |
CN108520535A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 基于深度恢复信息的物体分类方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108717439A (zh) * | 2018-05-16 | 2018-10-30 | 哈尔滨理工大学 | 一种基于注意力机制和特征强化融合的中文文本分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10438117B1 (en) * | 2015-05-21 | 2019-10-08 | Google Llc | Computing convolutions using a neural network processor |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
CN109960726B (zh) * | 2019-02-13 | 2024-01-23 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
-
2019
- 2019-02-13 CN CN201910113183.0A patent/CN109960726B/zh active Active
- 2019-11-11 WO PCT/CN2019/117225 patent/WO2020164267A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN108520535A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 基于深度恢复信息的物体分类方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108509427A (zh) * | 2018-04-24 | 2018-09-07 | 北京慧闻科技发展有限公司 | 文本数据的数据处理方法及应用 |
CN108717439A (zh) * | 2018-05-16 | 2018-10-30 | 哈尔滨理工大学 | 一种基于注意力机制和特征强化融合的中文文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109960726A (zh) | 2019-07-02 |
WO2020164267A1 (zh) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960726B (zh) | 文本分类模型构建方法、装置、终端及存储介质 | |
CN109871532B (zh) | 文本主题提取方法、装置及存储介质 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN109446517B (zh) | 指代消解方法、电子装置及计算机可读存储介质 | |
CN111460083B (zh) | 文档标题树的构建方法、装置、电子设备及存储介质 | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
JP5744228B2 (ja) | インターネットにおける有害情報の遮断方法と装置 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
US20210216819A1 (en) | Method, electronic device, and storage medium for extracting spo triples | |
CN111931500B (zh) | 搜索信息的处理方法、装置 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
EP4172803A1 (en) | Computerized information extraction from tables | |
CN111460090A (zh) | 基于向量的文档检索方法、装置、计算机设备及存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN112085565A (zh) | 基于深度学习的信息推荐方法、装置、设备及存储介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN109948154B (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN115168615A (zh) | 结合数据可视化的知识图谱大数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |