CN113505222A

CN113505222A - 一种基于文本循环神经网络的政务文本分类方法及系统

Info

Publication number: CN113505222A
Application number: CN202110685564.3A
Authority: CN
Inventors: 王红; 庄鲁贺; 滑美芳; 李威; 张慧; 韩书
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-15

Abstract

本发明公开了一种基于文本循环神经网络的政务文本分类方法及系统，获取政务文本数据及其对应的类别标签；构建文本循环神经网络分类模型，文本循环神经网络分类模型包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层；根据政务文本数据和类别标签训练文本循环神经网络分类模型；其中，在双层长短期记忆网络层中，双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接，将得到的拼接向量输入到单向长短期记忆网络中，由全连接层对单向长短期记忆网络的输出向量的长度进行收缩，以与类别标签数量对应；根据训练后的文本循环神经网络分类模型得到待分类政务文本数据的分类结果。具备较高的分类准确率和处理效率。

Description

一种基于文本循环神经网络的政务文本分类方法及系统

技术领域

本发明涉及数据分析挖掘技术领域，特别是涉及一种基于文本循环神经网络的政务文本分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，网络问政平台上各类与社情民意相关的文本数据量在不断地攀升，给以往靠人工对留言进行划分和对热点问题进行整理的工作带来极大的挑战。同时，随着人工智能、大数据、云计算等技术的发展，已趋向于建立基于自然语言处理技术的智慧政务系统。

目前，针对各类问政平台汇集的留言信息，传统方法是通过人工对每条留言进行判断，判断留言回复工作的所属部门，但是随着对办事效率的要求以及留言数据量的增加，传统的人工分类方法已经不能满足目前的需求，而数据挖掘技术虽已应用于众多领域中，但是，根据历史留言信息，利用数据挖掘技术，对群众留言进行类别划分尚缺乏有效的解决方案。

发明内容

为了解决现有技术的不足，本发明提供了一种基于文本循环神经网络的政务文本分类方法及系统，构建包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层的文本循环神经网络分类模型，对网络问政平台中的政务留言文本数据进行分类，具备较高的分类准确率和处理效率。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于文本循环神经网络的政务文本分类方法，包括：

获取政务文本数据及其对应的类别标签；

构建文本循环神经网络分类模型，文本循环神经网络分类模型包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层；

根据政务文本数据和类别标签训练文本循环神经网络分类模型；其中，在双层长短期记忆网络层中，双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接，将得到的拼接向量输入到单向长短期记忆网络中，由全连接层对单向长短期记忆网络的输出向量的长度进行收缩，以与类别标签数量对应；

根据训练后的文本循环神经网络分类模型得到待分类政务文本数据的分类结果。

作为可选择的实施方式，对政务文本数据经预处理后进行特征提取，得到word2vec词向量。

作为可选择的实施方式，对word2vec词向量通过CBOW模型进行训练后用于分类。

作为可选择的实施方式，对类别标签进行编码，得到标签映射列表，将政务文本数据进行单字转换映射后，构建词向量。

作为可选择的实施方式，对类别标签采用onehot编码。

作为可选择的实施方式，训练文本循环神经网络分类模型的过程中，在嵌入层中将政务文本数据映射为二维向量，在双向长短期记忆网络中输出一维向量，并将双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接。

作为可选择的实施方式，对政务文本数据进行预处理，包括：

确定政务文本数据的缺失值比例，根据缺失值比例，清理缺失值所在的政务文本数据或填充缺失值；

删除除字母、数字、汉字以外的所有符号；

采用jieba分词方法，构造前缀词典，根据前缀词典对政务文本数据进行切分，根据切分位置，构造有向无环图，根据动态规划算法得到最大概率路径，以此得到最终的分词切分形式，对分词后的政务文本数据删除停用词。

第二方面，本发明提供一种基于文本循环神经网络的政务文本分类系统，包括：

数据获取模块，被配置为获取政务文本数据及其对应的类别标签；

模型构建模块，被配置为构建文本循环神经网络分类模型，文本循环神经网络分类模型包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层；

模型训练模块，被配置为根据政务文本数据和类别标签训练文本循环神经网络分类模型；其中，在双层长短期记忆网络层中，双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接，将得到的拼接向量输入到单向长短期记忆网络中，由全连接层对单向长短期记忆网络的输出向量的长度进行收缩，以与类别标签数量对应；

文本分类模块，被配置为根据训练后的文本循环神经网络分类模型得到待分类政务文本数据的分类结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明对政务文本数据通过数据清洗、缺失值处理、分词以及停用词处理等预处理方式挖掘有用信息，标准化数据集，以便不断优化相关度模型。

本发明的文本循环神经网络分类模型中包括双层长短期记忆网络层，双层长短期记忆网络层包括双向长短期记忆网络和单向长短期记忆网络，将双向长短期记忆网络在每一个时间步长上的两个隐藏状态进行拼接后，将拼接后的向量输入到单向长短期记忆网络中，通过数据挖掘技术、利用文本循环神经网络模型对政务留言文本数据进行分类，具备较高的准确率和处理效率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于文本循环神经网络的政务文本分类方法流程图；

图2为本发明实施例1提供的历史留言详情数据预处理和特征提取流程图；

图3为本发明实施例1提供的CBOW模型结构图；

图4为本发明实施例1提供的textRNN模型结构图；

图5为本发明实施例1提供的验证阶段各类别的F1-Score成绩示意图；

图6为本发明实施例1提供的训练留言数据和测试留言数据的准确度示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于文本循环神经网络的政务文本分类方法，应用于智慧政务平台或其他政务平台或可发表留言言论的网络平台等，针对群众留言信息中的相关数据确定模型，用于对群众留言进行分类和挖掘热点问题；本实施例采用的数据总共有4326例群众留言的相关记录数据，每项事件需记录的指标有7项，如表1所示；需要说明的是，本实施例所有数据的获取都在符合法律法规的基础上，并对数据进行合法的应用。

表1群众留言记录特征表

如图1所示，具体包括以下步骤：

S1：获取政务文本数据及其对应的类别标签；

S2：构建文本循环神经网络分类模型，文本循环神经网络分类模型包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层；

S3：根据政务文本数据和类别标签训练文本循环神经网络分类模型；其中，在双层长短期记忆网络层中，双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接，将得到的拼接向量输入到单向长短期记忆网络中，由全连接层对单向长短期记忆网络的输出向量的长度进行收缩，以与类别标签数量对应；

S4：根据训练后的文本循环神经网络分类模型得到待分类政务文本数据的分类结果。

在步骤S1中，获取历史政务留言文本数据，对历史政务留言文本数据进行数据标记，得到每一条留言信息对应的类别标签。

在步骤S1中，对获取的政务文本数据进行缺失值清洗、符号清除、分词以及去除停用词的预处理操作，如图2所示，具体包括：

S1-1：缺失值清洗：获取的留言详情信息和标记的标签可能会有缺失值，通过计算缺失值比例，确定缺失值范围；根据缺失比例，采取不同的处理策略，清理缺失值所在的政务文本数据或填充缺失值；

具体地，对于缺失率低的特征，通过经验或者业务知识进行填充；对于缺失率高的特征，删除该条记录。

S1-2：符号清除：删除除字母、数字、汉字以外的所有符号。

S1-3：分词并清除停用词：采用jieba分词的精确模式对留言详情信息进行分词，具体地，基于统计词典，构造前缀词典；利用前缀词典对输入句子进行切分，得到所有的切分可能；根据切分位置，构造有向无环图；通过动态规划算法，得到最大概率路径，即得到最终的切分形式，对分词后的留言详情信息进行去除停用词操作，以节省存储空间和提高搜索效率。

在步骤S2中，构建用于对留言文本数据进行分类的文本循环神经网络textRNN分类模型，本实施例基于textRNN算法构建textRNN的序列模型；

具体地，模型的第一层是嵌入层，用于将政务文本数据映射为向量，使用长度为100的向量表示每一个词语；

接下来是双层长短期记忆人工神经网络层，双层长短期记忆人工神经网络层包含100个记忆单元，包括双向长短期记忆人工神经网络和单向长短期记忆人工神经网络，将双向长短期记忆人工神经网络在每一个时间步长上的两个隐藏状态进行拼接，将拼接好的向量输入到包含50个记忆单元单向长短期记忆人工神经网络中；

最后输出层为包含10个分类的全连接层。

在步骤S3中，首先对经预处理后的历史政务留言文本数据进行特征提取，并划分训练数据和测试数据；

由于本实施例中采用的是textRNN神经网络算法，所以将留言详情列表数据映射为textRNN能处理的数据，并根据特征提取算法得到特征向量，本实施例采用keras的Tokenizer实现，具体步骤为：

S3-1：将留言详情处理成单字索引序列，根据字的索引表得到字与序号之间的对应关系；

S3-2：所有分类标签分别用onehot编码表示，生成分类标签映射列表，将其与onehot编码映射后生成字典，即{分类名称：onehot编码}，方便映射和查找；

S3-3：将留言详情直接进行单字转换映射，生成基于字的映射字典；

S3-4：将字映射为数字，构建词向量；

S3-5：预训练word2vec向量；

在步骤S3-5中，word2vec使用分布式词向量的表示方式，通过训练模型将每个词映射成K个维度的实数向量后，再通过词与词之间的距离判断它们之间的语义相似度。

Word2vec包括CBOW模型和Skip-gram模型，本实施例采用CBOW模型训练词向量，CBOW模型包含输入层、输出层和投影层三层结构，在已知w1上下文wt-2、wt-2、wt+1、wt+2的基础上，预测当前词wt，CBOW模型处理结构如图3所示；

在word2vec中，使用层次Softmax函数和负采样近似计算，目的是减少训练的时间，提高计算速度并改善训练后的词向量质量。NEG与层次Softmax函数相比，不再使用复杂的哈夫曼树，而是采用随机负采样的方法，降低负采样的概率同时增大正样本的概率。

在CBOW模型中，已知词w的上下文为Context(w)，需要预测词w，因此对于给定的Context(w)，词w是正样本，其他词是负样本，对于一个给定的样本(Context(w)，w)，尽可能使它最大化。

其中，NEG(w)表示负样本集合，正样本标签为1，负样本标签为0，其概率计算公式如下：

本实施例首先利用训练后的word2vec词向量进行文本分类任务，在一定程度上提升词向量的表达能力；再使用Scikit-learn将数据按9：1的比例分为训练数据和测试数据。

在步骤S3中，将已进行数据标记的训练留言详情信息数据和类别标签输入到文本循环神经网络textRNN中，对文本循环神经网络textRNN进行训练，得到训练好的文本循环神经网络textRNN。

具体地，在嵌入层Embedding，每条留言文本数据被处理成word_dict×250的二维向量，其中，word_dict为每条留言详情的长度，250为每一行的长度，整体代表这个词在空间中的词向量；

在双向长短记忆神经网络层，输出1维长度为250的向量；

将双向长短记忆神经网络的输出嵌入向量和输入嵌入向量进行连接，将连接后的向量输入到单向长短记忆神经网络中，并且将Dropout层的初始参数设置为0.2，避免产生过拟合现象；

在全连接层Dense中，将向量长度收缩到10，对应10种留言分类。

textRNN模型结构如图4所示；由于训练的结果为多分类，所以本实施例设置激活函数为softmax，损失函数cross-entropy，优化器adam，训练过程中的batch_size设置为64，epoch设置为6，实际训练一个轮次大约1分钟，6个轮次后损失慢慢变小，准确度越来越高，准确度最后达到0.9757。

在步骤S4中，获取待分类的政务留言文本数据，对其经预处理、且向量化处理后，根据训练后的文本循环神经网络textRNN得到分类结果。

在本实施例中，为了验证训练后的textRNN模型对新数据分类的准确度，采用F1-Score作为评价分类模型的指标，该指标是精准率和召回率的调和平均数，最大为1，最小为0，公式如下：

其中，precision是精准率，recall是召回率。

验证阶段各类别的F1-Score成绩如图5所示，测试留言数据的准确度达到了0.833，训练留言数据和测试留言数据的准确度如图6所示。

实施例2

本实施例提供一种基于文本循环神经网络的政务文本分类系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于文本循环神经网络的政务文本分类方法，其特征在于，包括：

获取政务文本数据及其对应的类别标签；

2.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法，其特征在于，对政务文本数据经预处理后进行特征提取，得到word2vec词向量。

3.如权利要求2所述的一种基于文本循环神经网络的政务文本分类方法，其特征在于，对word2vec词向量通过CBOW模型进行训练后用于分类。

4.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法，其特征在于，对类别标签进行编码，得到标签映射列表，将政务文本数据进行单字转换映射后，构建词向量。

5.如权利要求4所述的一种基于文本循环神经网络的政务文本分类方法，其特征在于，对类别标签采用onehot编码。

6.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法，其特征在于，训练文本循环神经网络分类模型的过程中，在嵌入层中将政务文本数据映射为二维向量，在双向长短期记忆网络中输出一维向量，并将双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接。

7.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法，其特征在于，对政务文本数据进行预处理，包括：

删除除字母、数字、汉字以外的所有符号；

8.一种基于文本循环神经网络的政务文本分类系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。