CN110377691A

CN110377691A - 文本分类的方法、装置、设备及存储介质

Info

Publication number: CN110377691A
Application number: CN201910670458.0A
Authority: CN
Inventors: 华容; 俞涛
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-10-25

Abstract

本发明提供了一种文本分类的方法、装置、设备及存储介质，该方法包括：对文本进行分词处理，得到分词结果；将分词结果输入Bert模型，得到标准格式的向量索引；将标准格式的向量索引作为双向循环神经网络LSTM的输入，得到文本的分类结果。本发明通过词和句子的结构特征进行词向量模型的建立，利用Bert模型替换双向循环神经网络LSTM的词向量输入来提高文本分类预测的精度，分类效率和分类精度更高。

Description

文本分类的方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，具体地，涉及文本分类的方法、装置、设备及存储介质。

背景技术

随着机器学习技术不断发展，机器学习技术在自然语言处理等领域的应用也越来越频繁，基于机器学习的文本自动分类是近年来自然语言处理领域中非常热门的一个研究方向，所谓的文本自动分类是指在给定分类体系的前提下，利用机器学习的方式来对文本的内容进行分析，从而自动确定文本类别的过程。

机器学习过程需要获得相应的文本特征，现有技术提供的技术方案通常是利用深度学习方法自动从文本的原始数据中提取文本特征。但是，基于深度学习方法提取文本特征时需要大量的原始数据，而在实际的文本分类过程中，往往有一些类别的文本的数据量很少，导致机器学习的泛化能力不足，影响文本分类的准确性。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种文本分类的方法、装置、设备及存储介质。

第一方面，本发明提供的一种文本分类的方法，包括：

对文本进行分词处理，得到分词结果；

将分词结果输入Bert模型，得到标准格式的向量索引；

将标准格式的向量索引作为双向循环神经网络LSTM的输入，得到文本的分类结果。

可选地，对文本进行分词处理，得到分词结果，包括：

获取领域相关的训练文本；

通过分词工具对所述训练文本进行分词处理，以去除停用词；所述停用词包括：标点符号、数学符号、特殊符号。

可选地，将分词结果输入Bert模型，得到标准格式的向量索引，包括：

依次判断分词结果是否在预设的词表中存在；

若存在，则将所述分词结果对应的向量元素置1；

若不存在，则将所述分词结果对应的向量元素置0，直到将所有分词结果转换为向量元素，得到初始向量索引；

通过添加向量元素来调整所述初始向量索引的向量长度，得到标准格式的向量索引。

本实施例中，Bert内置词表如“我们这些路痴走啊走，好不容易找到了饭店的西门...”，输入的句子如“我们，你们，走，西门，的，吃饭，旅游，找到了...”，通过Bert模型转化为词向量为[1，0，1，1，1，0，0，1...]，词向量中1代表输入句子中的词在词表中存在，0代表输入句子中的词在词表中不存在，如例子中输入的句子种“我们”在词表中存在，所以为1，“你们”在词表中不存在，所以为0。

Bert模型输出的词向量调整词向量的长度，比如上例中输出词向量[1，0，1，1，1，0，0，1...]，在其左右添加0，如[0，0，0，0，1，0，1，1，1，0，0，1，0，0，0，0]，调整为适当长度作为双向LSTM的输入。

可选地，在将标准格式的向量索引作为双向循环神经网络LSTM的输入之前，还包括：

用深度学习平台Keras搭建双向循环神经网络LSTM模型；其中，所述双向循环神经网络LSTM模型的训练参数设置为False，所述标准格式的向量索引输入全连接层，输出文本的分类结果。

可选地，还包括：

调用深度学习平台Keras，在LSTM模型中定义权重存储函数和自动降学习率辅助函数；其中，所述权重存储函数用于保存LSTM模型的权重；自动降学习率辅助函数用于在训练周期增加时，自主减低训练时间。

本实施例中，权重存储函数便于下次直接载入不需要再训练模型。自动降学习率辅助函数的作用是当训练周期增加，学习率自动减少会降低训练时间，从而达到减少训练时间的作用。

可选地，还包括：

调用深度学习平台Keras，内置定义预测函数来预测文本的极性分类；

当预测函数输出的得分大于0.5时，判断文本的分类为正例；

当预测函数输出的得分不大于0.5时，判断文本的分类为负例。

本实施例中，通过调用深度学习平台Keras内置定义预测函数预测输入的文本的极性分类；当预测函数输出的得分在0.5往上，判断文本的分类为正例，得分在0.5往下，判断文本的分类为负例。比如一句话“这酒店环境真好”的预测函数得分为0.9，则判断这是正例即这是一句好评。又比如一句话“旅社地面好脏”的预测函数得分为0.2，则判断这是负例即这是一句差评。

第二方面，本发明提供一种文本分类的装置，包括：

分词模块，用于对文本进行分词处理，得到分词结果；

处理模块，用于将分词结果输入Bert模型，得到标准格式的向量索引；

分类模块，用于将标准格式的向量索引作为双向循环神经网络LSTM的输入，得到文本的分类结果。

可选地，所述分词模块，具体用于：

获取领域相关的训练文本；

可选地，所述处理模块，具体用于：

依次判断分词结果是否在预设的词表中存在；

若存在，则将所述分词结果对应的向量元素置1；

可选地，还包括：模型构建模块，用于：

可选地，还包括：模型构建模块，还用于：

可选地，所述分类模块，还用于：

当预测函数输出的得分大于0.5时，判断文本的分类为正例；

第三方面，本发明提供一种文本分类的设备，其特征在于，包括：处理器和存储器；存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面任一项所述的文本分类的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现第一方面任一项所述的文本分类的方法。

与现有技术相比，本发明具有如下的有益效果：

本发明提供的文本分类的方法、装置、系统及存储介质，通过对文本进行分词处理，得到分词结果；将分词结果输入Bert模型，得到标准格式的向量索引；将标准格式的向量索引作为双向循环神经网络LSTM的输入，得到文本的分类结果。本发明通过词和句子的结构特征进行词向量模型的建立，利用Bert模型替换双向循环神经网络LSTM的词向量输入来提高文本分类预测的精度，分类效率和分类精度更高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的文本分类的方法的流程图；

图2为本发明实施例二提供的文本分类的方法的流程图；

图3为本发明实施例三提供的文本分类的方法的原理框图；

图4为本发明实施例四提供的文本分类的装置的结构示意图；

图5为本发明实施例四提供的文本分类的设备的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明实施例中一种基于Bert模型文本分类方法的实施流程图，包括以下步骤：

步骤1：预先获得大量领域内相关的句子，语料库的语料可以来自多个途径，如可以通过爬虫技术从权威媒体等网站获取，也可以人工录入大量的文本信息。

步骤2：大量句子输入Bert模型进行训练，在输入模型进行训练前需要进行文本分词等等预处理，在本发明的一个实施例中，使用的是结巴工具分词，再进行去停用词等等预处理，其中，停用词包括标点符号(例如逗号、分号、冒号、句号、破折号等标点符号)和数学符号(例如加号、乘号等数学符号)，还包括一些特殊符号(例如下划线、星号等特殊符号)。Bert模型进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。Bert模型中Masked LM，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替，可以双向encoding编码。使用transformer而不是bi-LSTM做encoder，可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响，只需要通过self-attention减小mask标记权重即可，而lstm类似黑盒模型，很难确定其内部对于mask标记的处理方式。学习句子和句对关系表示，句子级负采样。首先给定的一个句子，下一句子正例(正确词)，随机采样一句负例(随机采样词)。句子级上来做二分类(即判断句子是当前句子的下一句还是噪声)，类似于word2vec的单词级负采样。

步骤3：调整Bert模型大小作为双向LSTM的输入，大量语料作为训练集，用训练集对Bert模型网络进行预训练后文本转换为向量索引，把文本转换为索引之后，每一串索引的长度并不相等，所以为了方便模型的训练我们需要把索引的长度标准化，我们选择了236这个可以涵盖95％训练样本的长度，接下来我们进行填充和修剪，我们一般采用在文本索引的前面填充0，因为根据一些研究资料中的实践，如果在文本索引后面填充0的话，会对模型造成一些不良影响

步骤4：用深度学习平台Keras搭建双向循环神经网络LSTM模型：模型的第一层传统的方法是词嵌入层，现在改为利用Bert模型用作双向循环神经网络LSTM的输入，将训练参数设为False即不训练，因为Bert模型已经训练好了，神经元个数设为16，最后加入全连接层，使用Adam优化器以0.001的学习率进行优化模型。用准确度(Accuracy)衡量模型分类的性能，准确率是指分类正确的样本占总样本个数的比例，即n(correct)为正确分类的样本数，n(total)为总样本的个数。双向循环神经网络LSTM模型使用门机制来记录序列当前的状态，隐藏层有两个门(gate)，分别是重置门(reset gate)r_t和更新门(update gate)z_t，这两个门一起来控制当前状态有多少信息要更新。在时刻t，隐藏层状态的计算公式：h_t＝(1-z_t)⊙h_t-1+z_t⊙h_1t，体现了前一个状态h_t-1和当前新状态h_t的一种线性关系。更新门(updategate)z_t是用来决定以往信息的保留程度和信息的增加程度，表示为：z_t＝δ(w_zx_t+u_zh_t-1+b_z)。其中，x_t是在时刻t输入Bert模型输出的固定大小词向量，w_z表示时刻t的输入权重，u_z表示时刻t-1的信息权重，b_z表示偏置，h_t-1表示前一个状态。候选状态h_1t表示为h_1t＝tanh(w_hx_t+r_t⊙(u_zh_t-1)+b_h)，其中，x_t是在时刻t输入Bert模型输出的固定大小词向量，w_h表示时刻t的输入权重，u_z表示时刻t-1的信息权重，b_h表示偏置。重置门r_t决定有多少过去的信息作用于候选状态，如果r_t是0，即忘记之前的所有状态。

步骤5：定义权重存储和自动降学习率辅助函数，建立一个权重的存储点，参数verbose＝1可以是打印信息更加详细，方面查找问题；定义过早停止函数，如果3个epoch内validation loss没有改善则停止训练；定义自动降低学习率函数来调节模型的学习率从而达到更好的精度，最后用callback函数将这些权重存储点，过早停止，自动降低学习率辅助函数包含在一起，方便进行模型的调节参数功能。

步骤6：定义一个预测函数，将输入文本按模型要求处理再输入，来预测输入的文本的极性。预测函数里包含去标点和停用词，分词和索引，填充和剪裁等等功能进行对输入文本进行预处理，定义列表功能来输入预测的文本，最后定义函数找出错误分类的索引，输出所有错误分类的索引并打印出。

图2为本发明实施例二提供的文本分类的方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、对文本进行分词处理，得到分词结果。

本实施例中，可以获取领域相关的训练文本；通过分词工具对所述训练文本进行分词处理，以去除停用词；所述停用词包括：标点符号、数学符号、特殊符号。

S102、将分词结果输入Bert模型，得到标准格式的向量索引。

本实施例中，可以依次判断分词结果是否在预设的词表中存在；若存在，则将所述分词结果对应的向量元素置1；若不存在，则将所述分词结果对应的向量元素置0，直到将所有分词结果转换为向量元素，得到初始向量索引；通过添加向量元素来调整所述初始向量索引的向量长度，得到标准格式的向量索引。

具体地，Bert内置词表如“我们这些路痴走啊走，好不容易找到了饭店的西门...”，输入的句子如“我们，你们，走，西门，的，吃饭，旅游，找到了...”，通过Bert模型转化为词向量为[1，0，1，1，1，0，0，1...]，词向量中1代表输入句子中的词在词表中存在，0代表输入句子中的词在词表中不存在，如例子中输入的句子种“我们”在词表中存在，所以为1，“你们”在词表中不存在，所以为0。

具体地，Bert模型输出的词向量调整词向量的长度，比如上例中输出词向量[1，0，1，1，1，0，0，1...]，在其左右添加0，如[0，0，0，0，1，0，1，1，1，0，0，1，0，0，0，0]，调整为适当长度作为双向LSTM的输入。

S103、将标准格式的向量索引作为双向循环神经网络LSTM的输入，得到文本的分类结果。

在一可选的实施方式中，在步骤S103之前，还可以用深度学习平台Keras搭建双向循环神经网络LSTM模型；其中，所述双向循环神经网络LSTM模型的训练参数设置为False，所述标准格式的向量索引输入全连接层，输出文本的分类结果。

在一可选的实施方式中，还可以调用深度学习平台Keras，在LSTM模型中定义权重存储函数和自动降学习率辅助函数；其中，所述权重存储函数用于保存LSTM模型的权重；自动降学习率辅助函数用于在训练周期增加时，自主减低训练时间。

可选地，还可以调用深度学习平台Keras，内置定义预测函数来预测文本的极性分类；当预测函数输出的得分大于0.5时，判断文本的分类为正例；当预测函数输出的得分不大于0.5时，判断文本的分类为负例。

图3为本发明实施例三提供的文本分类的方法的原理框图，如图3所示，获取的语料库进行分词，去停用词等等预处理环节输入Bert模型进行训练，训练出来的文本表示具有上下文等等语义关系的特征，再进行填充和修剪长度满足双向循环神经网络LSTM的要求进行输入分类并输出分类的结果。

相应于上面的方法实施例，本发明实施例还提供了一种基于Bert模型文本分类装置，下文描述的一种基于Bert模型文本分类装置与上文描述的一种基于Bert模型文本分类方法可相互对应参照。

图4为本发明实施例四提供的文本分类的装置的结构示意图，如图4所示，该装置包括以下模块：

文本预处理模块301，用于将文本进行序列分词，去停用词等预处理操作；

Bert模型训练模块302，用于将语料库文本用Bert模型表示取代传统用词向量的表示方法从而输入双向LSTM模型；

双向循环神经网络LSTM训练模块303，用于训练神经网络从而产生分类模型；

预测函数模块304，用于输入新文本输出新文本的分类类别极性；

相应于上面的方法实施例，本发明实施例还提供了一种基于Bert模型文本分类设备，下文描述的一种基于Bert模型文本分类设备与上文描述的一种基于Bert模型文本分类方法可相互对应参照。

图5为本发明实施例四提供的文本分类的设备的结构示意图，如图5所示，该设备包括处理器401、存储器402以及存储在所述存储器402中且被配置为由所述处理器401执行的计算机程序，所述处理器401在执行所述计算机程序时实现上述任一实施例所述的文本分类方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器402中，并由所述处理器401执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器401也可以是任何常规的处理器，所述处理器401是所述终端设备的控制中心，处理器401在执行时，可以通过通讯总线/数据线403从存储器402中读取计算机可读指令(例如计算机程序1、计算机程序2)。

处理器与机器可读存储器可经由系统总线通信。并且，处理器通过读取机器可读存储器中与文本分类逻辑对应的机器可执行指令以执行上文所述的文本分类方法。本文中提到的机器可读存储器可以是任何电子、磁性、光学或其它物理存储系统，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储器可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储器，或者它们的组合。以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种文本分类的方法，其特征在于，包括：

对文本进行分词处理，得到分词结果；

将分词结果输入Bert模型，得到标准格式的向量索引；

2.根据权利要求1所述的文本分类的方法，其特征在于，对文本进行分词处理，得到分词结果，包括：

获取领域相关的训练文本；

3.根据权利要求1所述的文本分类的方法，其特征在于，将分词结果输入Bert模型，得到标准格式的向量索引，包括：

依次判断分词结果是否在预设的词表中存在；

若存在，则将所述分词结果对应的向量元素置1；

4.根据权利要求1所述的文本分类的方法，其特征在于，在将标准格式的向量索引作为双向循环神经网络LSTM的输入之前，还包括：

5.根据权利要求4所述的文本分类的方法，其特征在于，还包括：

6.根据权利要求4所述的文本分类的方法，其特征在于，还包括：

当预测函数输出的得分大于0.5时，判断文本的分类为正例；

7.一种文本分类的装置，其特征在于，包括：

分词模块，用于对文本进行分词处理，得到分词结果；

8.根据权利要求7所述的文本分类的装置，其特征在于，所述分词模块，具体用于：

获取领域相关的训练文本；

9.一种文本分类的设备，其特征在于，包括：处理器和存储器；存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的文本分类的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述的文本分类的方法。