CN112765348B

CN112765348B - 一种短文本分类模型训练方法、装置

Info

Publication number: CN112765348B
Application number: CN202110024039.7A
Authority: CN
Inventors: 苗朝府
Original assignee: Chongqing Chuangtong Lianzhi Internet Of Things Co ltd
Current assignee: Chongqing Chuangtong Lianzhi Internet Of Things Co ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2023-04-07
Anticipated expiration: 2041-01-08
Also published as: CN112765348A

Abstract

本发明公开了一种短文本分类模型训练方法、装置，该方法包括：收集训练用短文本，并抽取短文本的标签，对短文本进行分词处理，并利用短文本构建训练集；基于Word2Vec构建词向量模型，并利用训练集训练词向量模型；利用词向量模型将短文本向量化得到文本向量；搭建卷积神经网络，并利用文本向量训练卷积神经网络，从而得到短文本分类模型。上述训练方案能够避免传统的机器学习算法所需的复杂的特征工程和数据处理，便于操作和实现，能够根据标签对短文本实现准确的分类，提高了短文本分类的精确度和效率。

Description

一种短文本分类模型训练方法、装置

技术领域

本发明涉及自然语言处理领域，具体涉及一种短文本分类模型训练方法、装置、电子设备和计算机可读存储介质。

背景技术

随着互联网的发展，非结构化的短文本数据急剧增加，在理解和分类处理短文本信息方面，比如根据短文本的内容将短文本分类为新闻、娱乐、军事、体育等，或者将短文本按照情感类型进行分类等方面，由于短文本数据量庞大，如果仅凭人工方式来收集和挖掘，不仅需要消耗大量的人力和时间，而且也是很难实现的。实现短文本的自动分类就显得尤其重要，它是文本信息挖掘的基本功能，也成为了处理和组织文本数据的核心技术。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的短文本分类模型训练方法、装置、电子设备和计算机可读存储介质。

依据本发明的一个方面，提供了一种短文本分类模型训练方法，所述方法包括：

收集训练用短文本，并抽取所述短文本的标签，对所述短文本进行分词处理，并利用所述短文本构建训练集；

基于Word2Vec构建词向量模型，并利用所述训练集训练所述词向量模型；

利用所述词向量模型将所述短文本向量化得到文本向量；

搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型。

可选地，所述对所述短文本进行分词处理包括：

从所述短文本中提取第一关键词组；

所述利用所述训练集训练所述词向量模型包括：

将所述训练集输入到所述词向量模型，利用所述词向量模型的得到词嵌入表达信息；

从所述词嵌入表达信息中通过词频-逆文档频率TF-IDF方式提取第二关键词组，利用所述第二关键词组对第一关键词组的验证，从而在训练中对所述词向量模型进行重新训练和参数调整。

可选地，所述利用所述词向量模型将所述短文本向量化得到文本向量包括：

根据词频-逆文档频率TF-IDF方式计算得到所述第二关键词组中各关键词的权重，经向量计算得到所述文本向量，具体包括：

设定所述短文本的第二关键词组为word1,word2,...,wordN，对应权重为w1,w2,...,wN，对应词向量分别为vec(word1),vec(word2),...,vec(wordN)，则所述文本向量为：

可选地，所述搭建卷积神经网络包括：

利用TensorFlow搭建卷积神经网络，所述卷积神经网络包括若干个卷积层、若干个池化层、一个全连接层以及一个SoftMax分类器，其中所述卷积层的卷积核的高度为任意值，宽度为所述文本向量的宽度。

可选地，所述搭建卷积神经网络还包括：

在卷积运算中设置三种区域尺寸的滤波器，且每种区域尺寸有2个滤波器，共有6个滤波器对所述文本向量做卷积运算。

可选地，所述利用所述文本向量训练所述卷积神经网络包括如下的至少一项：

利用所述文本向量对所述卷积神经网络不断的迭代、优化，在训练所述卷积神经网络时，设置多个条件阈值进行训练，根据精度选出最佳阈值；

在至少一个池化层上采用最大值池化方式，对局部接收域中的所有值求最大值；

在所述全连接层上采用随机失活的方式进行训练，将部分权重或输出随机归零，降低节点间的相互依赖，实现所述卷积神经网络的正则化。

可选地，所述搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型还包括如下的至少一项：

在对所述卷积神经网络进行训练时，采用mini batch方式对所述训练集进行分批处理，来降低一次模型拟合计算量；

并且，采用短文本类型均衡降低各批次输入样本之间的相关性，具体包括：

将所述训练集中的短文本分为多个批次；

分别统计各批次中各标签类别的短文本的数量，并调整该批次中各标签类别的短文本的数量，使得该批次中各标签类别的短文本的数量比值满足预设比例。

依据本发明的又一方面，提供了一种短文本分类模型训练装置，所述装置包括：

训练集构建单元，适于收集训练用短文本，并抽取所述短文本的标签，对所述短文本进行分词处理，并利用所述短文本构建训练集；

词向量模型训练单元，适于基于Word2Vec构建词向量模型，并利用所述训练集训练所述词向量模型；

文本向量获取单元，适于利用所述词向量模型将所述短文本向量化得到文本向量；

分类模型实现单元，适于搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型。

依据本发明的又一方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。

依据本发明的再一方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的方法。

本发明的上述技术方案可以获得如下的技术效果：

上述训练方案能够避免传统的机器学习算法所需的复杂的特征工程和数据处理，便于操作和实现，能够根据标签对短文本实现准确的分类，提高了短文本分类的精确度和效率。

对其中文本向量增加了权重值，提高了短文本分类模型的准确性。

并且采用使用随机失活Dropout、mini batch等方式训练上述短文本分类模型，获得了预料不到的准确率上的提升。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的短文本模型训练方法的流程示意图；

图2示出了根据本发明一个实施例的短文本模型训练装置的结构示意图；

图3示出了根据本发明一个实施例的电子设备的结构示意图；

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种短文本分类模型训练方法的流程示意图，所述方法包括：

S110，收集训练用短文本，并抽取所述短文本的标签，对所述短文本进行分词处理，并利用所述短文本构建训练集。

其中，根据分类的需要，所述标签可以是新闻、军事、娱乐、体育、美食、财经、房产、汽车、游戏等，也可以按照情感进行分类，如中性、愉快、悲伤等，还可以根据涉及的具体领域按照需要进行具体的分类，如，进入体育，又会划分篮球、足球、羽毛球等，进入篮球，又分为NBA、CBA等。

分词处理一般涉及提取短文本中的关键词、同义词、近义词，根据需要对获取的关键词进行合并，计算出现的次数，还可以设置停止词，或者去除对分类影响较小的词以及不符合条件的词等。

S120，基于Word2Vec构建词向量模型，并利用所述训练集训练所述词向量模型。

该步骤中，可使用工具包gensim中的Word2Vec()函数构造词向量模型。Word2vec的工作原理就是将分词的结果向量化。比如，Wor2dvec的输入是[[‘我打算周日’,‘去球馆’,‘打’,‘羽毛球’],…],输出是每个词对应的文本向量，从而将分词的结果。

S130，利用所述词向量模型将所述短文本向量化得到文本向量。

在获得词向量模型后，最终利用该词向量模型将训练集中的短文本转化成机器能识别的文本向量，当然，为了获得更加准确的分类结果，可以对文本向量进行细化处理，比如加入权重等操作。

S140，搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型。

在训练过程中，需要不断优化、迭代，对上述短文本分类模型中的词向量模型以及卷积神经网络不断进行优化、迭代，最终确定出最优的短文本分类模型，将其用于后续的分类任务。

综上，本发明的该实施例采用深度学习算法，能够避免传统的机器学习算法所需的复杂的特征工程和数据处理，便于操作和实现，能够根据标签对短文本实现准确的分类，提高了短文本分类的精确度和效率。

在一个或一些实施例中，所述对所述短文本进行分词处理包括：从所述短文本中提取第一关键词组；所述利用所述训练集训练所述词向量模型包括：

将所述训练集输入到所述词向量模型，利用所述词向量模型的得到词嵌入表达信息(embedding)；从所述词嵌入表达信息中通过词频-逆文档频率TF-IDF方式提取第二关键词组，利用所述第二关键词组对第一关键词组的验证，从而在训练中对所述词向量模型进行重新训练和参数调整。

其中，词频-逆文档频率(TermFrequency-Inverse DocumentFrequency，TF-IDF)技术是一种用于资讯检索与文本挖掘的常用加权技术，可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是所需要的关键词。

通过对第二关键词组和第一关键词组的相关程度，调整对词向量模型的训练，相关或相似程度越高，则表明训练效果越好，否则需要调整训练集内各标签短文本数量比例以及调整标签表达以及模型参数等方式改进训练效果。

在一个优选实施例中，所述文本向量可以通过如下的方式获得：根据词频-逆文档频率TF-IDF方式计算得到所述第二关键词组中各关键词的权重，经向量计算得到所述文本向量，具体包括：设定所述短文本的第二关键词组为word1,word2,...,wordN，对应权重为w1,w2,...,wN，对应词向量分别为vec(word1),vec(word2),...,vec(wordN)，则所述文本向量为：

其中，词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。逆文档频率(nverse DocumentFrequency，IDF)是一个词语普遍重要性的度量，它的大小与一个词的常见程度成反比，计算方法是语料库的文档总数除以语料库中包含该词语的文档数量，再将得到的商取对数。知道了TF和IDF以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。

在一个实施例中，优选利用TensorFlow等现有框架搭建卷积神经网络，其中，卷积神经网络可包括若干个卷积层、若干个池化层、一个全连接层以及一个SoftMax分类器，为了使得卷积核能够用于上述文本向量的卷积运算，卷积层的卷积核的高度为任意值，宽度则为所述文本向量的宽度。

需要指出的是，卷积核就是由长和宽来指定的，是一个二维的概念，而过滤器是是由长、宽和深度指定的，该深度一般指通道的个数，是一个三维的概念，过滤器可以看做是卷积核的集合。一般一个过滤器就对应一个特征图。

在卷积神经网络进行训练时，为了获得较为准确的分类结果，需要利用文本向量对卷积神经网络不断的迭代、优化，在训练所述卷积神经网络时，设置多个条件阈值进行训练，根据精度选出最佳阈值。

另外，优选在至少一个池化层上采用最大值池化方式，对局部接收域中的所有值求最大值。

并且在所述全连接层上采用随机失活Dropout的方式进行训练，Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来，只是暂时不更新而已，因为下次样本输入时可能又工作了，这样能够防止模型过拟合。

同时对全连接层上的权值参数给予L2正则化的限制，这样做的好处是防止隐藏层单元自适应(或者对称)，从而减轻过拟合的程度。

进一步地，在对所述卷积神经网络进行训练时，采用mini batch方式对所述训练集进行分批处理，来降低一次模型拟合计算量。

首先，将所述训练集中的短文本分为多个批次。

然后，分别统计各批次中各标签类别的短文本的数量，并调整该批次中各标签类别的短文本的数量，使得该批次中各标签类别的短文本的数量比值满足预设比例。

在得到上述的短文本分类模型后，还可以输入验证集，进一步调整分类器参数；最后输入测试集，测试模型的分类能力。

图2示出了根据本发明一个实施例的一种短文本分类模型训练装置200的结构示意图，所述装置200包括：

训练集构建单元210，适于收集训练用短文本，并抽取所述短文本标签，对所述短文本进行分词处理，并利用所述短文本构建训练集。

词向量模型训练单元220，适于基于Word2Vec构建词向量模型，并利用所述训练集训练所述词向量模型。

文本向量获取单元230，适于利用所述词向量模型将所述短文本向量化得到文本向量。

分类模型实现单元240，适于搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型。

综上，本发明的该装置实施例采用深度学习算法，能够避免传统的机器学习算法所需的复杂的特征工程和数据处理，便于操作和实现，能够根据标签对短文本实现准确的分类，提高了短文本分类的精确度和效率。

在一个或一些实施例中，所述训练集构建单元210还适于：从所述短文本中提取第一关键词组；所述词向量模型训练单元220还适于：将所述训练集输入到所述词向量模型，利用所述词向量模型的得到词嵌入表达信息(embedding)；从所述词嵌入表达信息中通过词频-逆文档频率TF-IDF方式提取第二关键词组，利用所述第二关键词组对第一关键词组的验证，从而在训练中对所述词向量模型进行重新训练和参数调整。

在一个实施例中，分类模型实现单元240适于，利用TensorFlow等现有框架搭建卷积神经网络，其中，卷积神经网络可包括若干个卷积层、若干个池化层、一个全连接层以及一个SoftMax分类器，为了使得卷积核能够用于上述文本向量的卷积运算，卷积层的卷积核的高度为任意值，宽度则为所述文本向量的宽度。

并且，采用短文本类型均衡降低各批次输入样本之间的相关性，具体包括：将所述训练集中的短文本分为多个批次。分别统计各批次中各标签类别的短文本的数量，并调整该批次中各标签类别的短文本的数量，使得该批次中各标签类别的短文本的数量比值满足预设比例。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本发明的技术方案，至少可以获得如下的技术效果：上述训练方案能够避免传统的机器学习算法所需的复杂的特征工程和数据处理，便于操作和实现，能够根据标签对短文本实现准确的分类，提高了短文本分类的精确度和效率。能够对其中文本向量增加了权重值，从而提高了短文本分类模型的准确性。并且采用使用随机失活Dropout、mini batch等方式训练上述短文本分类模型，获得了预料不到的准确率上的提升。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的短文本分类模型训练装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备300包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如，用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本发明的方法步骤的计算机可读程序代码331，可以被电子设备300的处理器310读取，当计算机可读程序代码331由电子设备300运行时，导致该电子设备300执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种短文本分类模型训练方法，其特征在于，所述方法包括：

基于Word2Vec构建词向量模型，并利用所述训练集训练所述词向量模型，其中，

所述利用所述训练集训练所述词向量模型包括：

从所述短文本中提取第一关键词组；

将所述训练集输入到所述词向量模型，利用所述词向量模型得到词嵌入表达信息；

从所述词嵌入表达信息中通过词频-逆文档频率TF-IDF方式提取第二关键词组，利用所述第二关键词组对第一关键词组的验证，从而在训练中对所述词向量模型进行重新训练和参数调整；

利用所述词向量模型将所述短文本向量化得到文本向量，

所述利用所述词向量模型将所述短文本向量化得到文本向量包括：

设定所述短文本的第二关键词组为word₁,word₂,...,word_N，对应权重为w₁,w₂,...,w_N，对应词向量分别为vec(word₁),vec(word₂),...,vec(word_N)，则所述文本向量为：

搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型，所述搭建卷积神经网络包括：

2.根据权利要求1所述的方法，其特征在于，所述搭建卷积神经网络还包括：

3.根据权利要求1-2任一项所述的方法，其特征在于，所述利用所述文本向量训练所述卷积神经网络包括如下的至少一项：

4.根据权利要求1-2任一项所述的方法，其特征在于，所述搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型还包括如下的至少一项：

在对所述卷积神经网络进行训练时，采用minibatch方式对所述训练集进行分批处理，来降低一次模型拟合计算量；

将所述训练集中的短文本分为多个批次；

5.一种短文本分类模型训练装置，其特征在于，所述装置包括：

词向量模型训练单元，适于基于Word2Vec构建词向量模型，并利用所述训练集训练所述词向量模型，其中，

所述利用所述训练集训练所述词向量模型包括：

从所述短文本中提取第一关键词组；

文本向量获取单元，适于利用所述词向量模型将所述短文本向量化得到文本向量，所述利用所述词向量模型将所述短文本向量化得到文本向量包括：

分类模型实现单元，适于搭建卷积神经网络，并利用所述文本向量训练所述卷积神经网络，从而得到短文本分类模型，所述搭建卷积神经网络包括：

6.一种训练用电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-4中任一所述的方法。