CN111930937A

CN111930937A - 基于bert的智慧政务文本多分类方法及系统

Info

Publication number: CN111930937A
Application number: CN202010597346.XA
Authority: CN
Inventors: 王红; 韩书; 庄鲁贺; 李威; 张慧; 刘弘; 胡斌; 王吉华; 于晓梅
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-11-13

Abstract

本发明属于文本分类领域，提供了一种基于BERT的智慧政务文本多分类方法及系统。其中，基于BERT的智慧政务文本多分类方法包括获取政务文本并转换为特征向量，所述特征向量由词向量、分段向量和位置向量组成，同时标记文本中每句话的开头和结尾；将特征向量输入至训练完成的BERT模型中，输出政务文本的分类结果；其中，在训练BERT模型的过程中，采用双向Transformer编码中的Encoder特征抽取器提取特征向量中的文本特征。

Description

基于BERT的智慧政务文本多分类方法及系统

技术领域

本发明属于文本分类领域，尤其涉及一种基于BERT的智慧政务文本多分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在处理网络问政平台的群众留言时，对留言进行分类，以便后续将群众留言分派至相应的职能部门。目前，大部分电子政务系统还是依靠人工根据经验处理，存在工作量大、效率低，且差错率高等问题。

发明人发现，现有的文本分类大多使用词向量，且词向量大多采用Word2Vec、GloVe等方法训练得到，其存在的问题是训练得到文本的词向量不仅忽略了词的上下文关系，而且部分文本中词语的数量较多而训练速度较慢且准确率受到切词(即将一个汉字序列切分成一个一个单独的词)的影响。

发明内容

为了解决上述问题，本发明提供一种基于BERT的智慧政务文本多分类方法及系统，其能够快速准确地对政务文本进行分类。其中，BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers)，是语言模型。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一方面提供一种基于BERT的智慧政务文本多分类方法。

一种基于BERT的智慧政务文本多分类方法，包括：

获取政务文本并转换为特征向量，所述特征向量由词向量、分段向量和位置向量组成，同时标记文本中每句话的开头和结尾；

将特征向量输入至训练完成的BERT模型中，输出政务文本的分类结果；

其中，在训练BERT模型的过程中，采用双向Transformer编码中的Encoder特征抽取器提取特征向量中的文本特征。

本发明的第二个方面提供一种基于BERT的智慧政务文本多分类系统。

一种基于BERT的智慧政务文本多分类系统，包括：

特征转换模块，其用于获取政务文本并转换为特征向量，所述特征向量由词向量、分段向量和位置向量组成，同时标记文本中每句话的开头和结尾；

本文分类模块，其用于将特征向量输入至训练完成的BERT模型中，输出政务文本的分类结果；

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于BERT的智慧政务文本多分类方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于BERT的智慧政务文本多分类方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提出的基于BERT的智慧政务文本多分类方法及系统，在特征转换模块中利用双向Transformer编码层，由该层进行文本特征提取，提取出的每个特征包括了左右上下文的信息，克服了现有技术的忽略了词的上下文关系。通过设定训练步数得出模型进行验证并保存最高分的模型，利用最高分的模型进行测试，具有测试准确度高、可靠性强且较稳定的有益效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1(a)为本发明的BERT模型训练方法流程图；

图1(b)为本发明的BERT模型测试方法流程图；

图2为本发明BERT输入表示图；

图3为本发明BERT模型结构图；

图4为本发明Transformer编码层中的Encoder结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例采用的数据总共有9210条群众留言的文本信息，每条留言包括编号，用户，主题，时间，留言详情和分类标签。数据集含有的9210个样本分别属于七个不同类别：城乡建设，环境保护，交通运输，教育文体，劳动和社会保障，商贸旅游，卫生计生。数据分布如表1所示。

表1群众留言的文本数据

本实施例提供一种基于BERT的智慧政务文本多分类方法，该方法的步骤包括：

步骤1：获取政务文本并转换为特征向量，所述特征向量由词向量、分段向量和位置向量组成，同时标记文本中每句话的开头和结尾。

其中，政务文本包括留言的编号，用户，主题，时间，留言详情和分类标签。

在转换特征向量的过程中，将样本中的留言详情转换的特征有词向量，分段向量和位置向量这三部分组成，如图2所示，将文本类型的分类标签转换成数值类型分别是label_id＝{0，1，2，3，4，5，6}；

由于利用BERT模型进行文本分类，根据模型的输入要求，将文本信息进行特征转换。词向量是将文本信息用向量表示，对于文本分类任务在文本前插入了一个[CLS]，并将该符号对应的输出向量作为文本的语义表示用于文本分类；分段向量因为BERT中的下一句的预测任务，所以会有两句拼接起来，上句和下句分别对应不同的分段向量，两个句子在开头都有[CLS]，在句末都有[SEP]；由于模型是用于文本分类任务，所以只用到一个句子就只有一组[CLS]和[SEP]。

位置向量是由于文本中不同位置的字表达语义信息存在差异，因此对不同位置的字分别增加不同的向量作以区分。

将输入的训练集的文本数据转换成特征，该特征有三部分组成分别是词向量，分段向量和位置向量。其中词向量表示对当前词的编码分段向量表示对当前词所在句子的位置编码，位置向量表示对当前词的位置编码，每一句话使用CLS和SEP作为开头和结尾的标记。

步骤2：将特征向量输入至训练完成的BERT模型中，输出政务文本的分类结果；

其中，在训练BERT模型的过程中，采用双向Transformer编码中的Encoder特征抽取器提取特征向量中的文本特征。Encoder结构，如图4所示。

具体地，在训练阶段中，如图1(a)所示：

第一步：数据读取，首先对原始数据随机分成按照9：1的比例将数据分成训练集，验证集和测试集。在读取训练集和验证集的数据并只获取表中留言详情和分类标签这两列重要信息用于模型的训练和测试。

获取给定的数据集，包括留言的编号，用户，主题，时间，留言详情和分类标签。将数据集中的数据随即打乱顺序，并按照9：1的比例将数据集划分为训练集和验证集。针对群众留言分类问题，用数据读取模块中的两个方法只需要分别读取数据集中留言详情和一级分类这两列的数据，其中一个方法是获取训练集的数据另一个方法是获取验证集的数据。

第二步：特征转换，将样本中的留言详情转换的特征有词向量，分段向量和位置向量这三部分组成；

第三步：训练模型，将特征数据输入BERT模型结构中最重要部分双向Transformer编码，由该层进行文本特征提取，使用的是Transformer的Encoder特征抽取器，如图3所示。Encoder由自注意力机制(self-attention)和前馈神经网络(feed forword neuralnetwork)组成，其结构如图3所示。

Encoder的核心是self-attention。它可以发现每一个词和这句话里面其他词之间的关系，而且没有距离的限制，几十甚至几百个词之间的关系仍然能找到，这样就可以充分挖掘到每个词的左右上下文信息，从而就可以得到词的双向表示，从而更容易获得高分的训练模型。在实验中使用的是预训练模型：BERT-Base,Chinese该模型采用了12层的Transformer,隐藏尺寸为768,多头注意力机制参数是12，在训练模型时直接将预训练模型加载运行。

在训练模型时当训练步数超过预设次数，比如1000次会在验证集上进行验证并给出准确率，如果准确率大于此前的最高分模型则保存模型，如果将所有训练样本训练的次数(epochs)超过先前设定的训练次数，则迭代停止。

第四步：保存高分模型，用于在训练模型时当训练步数超过预设次数，比如1000次会在验证集上进行验证并给出准确率，如果准确率大于此前的最高分模型则保存模型。如果将所有训练样本训练的次数(epochs)超过先前设定的训练次数，则迭代停止。训练模型时批处理的大小(batch size)为12，训练次数(epochs)为3。

保存最高分模型的评价指标是准确率Acc(accuracy)，准确率是指模型预测正确的多个类别的样本个数占总样本个数的比例，评价指标的计算方法如式(1)。

其中，TP表示真正例样本数，FP表示实际为假正例样本数，FN表示实际为假负例样本数，TN表示实际为真负例样本数。

在测试阶段，如图1(b)所示：

第一步：读取测试集数据。

第二步：将测试集数据进行特征转换。

第三步：加载训练阶段保存的高分训练模型，使用测试集进行测试。

第四步：用评分指标对测试结果进行打分，七类文本数据的评分结果如表2所示。

测试结果的评价是评价指标有4个，分别为准确率Acc(accuracy)、精确率P(precision)、召回率R(recall)和F值F1(f1-score)。精确率也是查准率，即在检索后返回的结果中，真正正确的个数占整个结果的比例。召回率也是查全率，即在检索结果中真正正确的个数占整个数据集(检索到的和未检索到的)中真正正确个数的比例。由于精确率和召回率有时会出现相互矛盾的情况，采用F值综合考虑2个评价指标。这4个指标的计算方法如式(1)～(4)所示：

表2测试数据结果

如表2所示，测试结果表明模型的准确度达到97％，经过测试可知BERT模型具有一定的可靠性和稳健性，比较令人满意。

本实施例在特征转换模块中利用双向Transformer编码层，由该层进行文本特征提取，提取出的每个特征包括了左右上下文的信息，克服了现有技术的忽略了词的上下文关系。通过设定训练步数得出模型进行验证并保存最高分的模型，利用最高分的模型进行测试，具有测试准确度高、可靠性强且较稳定的有益效果。

实施例二

本实施例提供了一种基于BERT的智慧政务文本多分类系统，包括：

(1)特征转换模块，其用于获取政务文本并转换为特征向量，所述特征向量由词向量、分段向量和位置向量组成，同时标记文本中每句话的开头和结尾。

在具体实施中，词向量表示对当前词的编码分段向量表示对当前词所在句子的位置编码，位置向量表示对当前词的位置编码，每一句话使用CLS和SEP作为开头和结尾的标记。Encoder特征抽取器由自注意力机制和前馈神经网络组成。其中，政务文本包括留言的编号，用户，主题，时间，留言详情和分类标签。

(2)本文分类模块，其用于将特征向量输入至训练完成的BERT模型中，输出政务文本的分类结果；

Encoder由自注意力机制(self-attention)和前馈神经网络(feed forwordneural network)组成，其结构如图3所示。

在训练BERT模型的过程中，设定测试结果评价指标，保存最高分模型作为训练完成的BERT模型。

在训练模型时当训练步数超过预设次数，比如1000次会在验证集上进行验证并给出准确率，如果准确率大于此前的最高分模型则保存模型。如果将所有训练样本训练的次数(epochs)超过先前设定的训练次数，则迭代停止。训练模型时批处理的大小(batchsize)为12，训练次数(epochs)为3。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其该程序被处理器执行时实现如实施例一所述的基于BERT的智慧政务文本多分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的基于BERT的智慧政务文本多分类方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BERT的智慧政务文本多分类方法，其特征在于，包括：

2.如权利要求1所述的基于BERT的智慧政务文本多分类方法，其特征在于，词向量表示对当前词的编码分段向量表示对当前词所在句子的位置编码，位置向量表示对当前词的位置编码，每一句话使用CLS和SEP作为开头和结尾的标记。

3.如权利要求1所述的基于BERT的智慧政务文本多分类方法，其特征在于，Encoder特征抽取器由自注意力机制和前馈神经网络组成。

4.如权利要求1所述的基于BERT的智慧政务文本多分类方法，其特征在于，政务文本包括留言的编号，用户，主题，时间，留言详情和分类标签。

5.如权利要求1所述的基于BERT的智慧政务文本多分类方法，其特征在于，在训练BERT模型的过程中，采用预训练模型BERT-Base-Chinese模型，在训练模型时直接将预训练模型加载运行。

6.如权利要求1所述的基于BERT的智慧政务文本多分类方法，其特征在于，在训练BERT模型的过程中，设定测试结果评价指标，保存最高分模型作为训练完成的BERT模型。

7.如权利要求6所述的基于BERT的智慧政务文本多分类方法，其特征在于，测试结果评价指标包括准确率、精确、召回率和F值。

8.一种基于BERT的智慧政务文本多分类系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于BERT的智慧政务文本多分类方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于BERT的智慧政务文本多分类方法中的步骤。