CN111046175A

CN111046175A - 基于自学习的电子案卷分类方法及装置

Info

Publication number: CN111046175A
Application number: CN201911127812.1A
Authority: CN
Inventors: 林静; 吕晓敏; 尉锦龙; 卢会春; 王翔
Original assignee: Hangzhou Tianyi Smart City Technology Co ltd
Current assignee: Hangzhou Tianyi Smart City Technology Co ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-21
Anticipated expiration: 2039-11-18
Also published as: CN111046175B

Abstract

本发明实施方式提供一种基于自学习的电子案卷分类方法及装置，属于文本分类技术领域，所述方法包括：获取电子案卷文本样本；提取电子案卷文本样本中的特征信息样本；以特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别；若预测类别不准确，修正预测类别，将特征信息样本以扩容系数为倍数复制至训练集；若预测类别准确，将特征信息样本作为训练样本加入训练集。本发明的技术方案通过训练好的预测模型对电子案卷文本进行分类，结合自学习机制，在对电子案卷分类过程中，针对不同的分类结果，对应不同的训练集数据修正策略，优化训练集数据，有效提高了预测的准确率。

Description

基于自学习的电子案卷分类方法及装置

技术领域

本发明涉及文本分类技术领域，具体地涉及一种基于自学习的电子案卷分类方法以及一种基于自学习的电子案卷分类装置。

背景技术

随着电子政务服务的发展，报案人员可通过政务app、热线、网页等方式进行投诉和建议，报案信息最终转换为文本数据录入、分类、提交，随后根据案件类别、意见内容将案卷分发至处理部门，以待处理。少量报案数据的情况下，人工分类可以满足需求，但随着各渠道案件量迅速上升，人工分类方式已不能满足当前的实际需要，新增案卷智能分类成为了急需解决的问题。

值得注意的是，以上分类工作大多可通过机器学习的方法解决，传统的机器学习方法主要是线性和浅层非线性的方法，如SVM、朴素贝叶斯分类器实现文本分类，对于复杂词句的语义内容必然会带来许多误差，且存在数据量变大时会有收敛速度慢的缺点。

发明内容

本发明实施方式的目的是提供一种基于自学习的电子案卷分类方法以及一种基于自学习的电子案卷分类装置，以解决现有的文本分类对复杂词句的误差大，且在数据量变大时会有收敛速度慢的问题。

为了实现上述目的，在本发明第一方面，提供一种基于自学习的电子案卷分类方法，包括：

获取电子案卷文本样本；

提取所述电子案卷文本样本中的特征信息样本；

以所述特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别，所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到；

判断所述预测类别是否准确，若不准确，修正所述预测类别，以修正后的类别作为最终分类类别，以及将所述特征信息样本以扩容系数为倍数复制至所述训练集；若准确，将所述预测类别作为最终分类类别，并将所述特征信息样本作为训练样本加入所述训练集。

可选地，所述提取所述电子案卷文本样本中的特征信息样本，包括：

对所述电子案卷文本样本进行数据预处理；

对经数据预处理后的电子案卷文本样本进行分词及去停用词处理，得到分词词组，基于所述分词词组得到所述特征信息样本。

可选地，所述方法还包括：

在当前所有的电子案卷文本样本数量达到设定阈值时，通过所述训练集对所述第一预测模型重新进行训练，得到第二预测模型，若所述第二预测模型的预测准确率高于所述第一预测模型的预测准确率，用所述第二预测模型替换所述第一预测模型。

可选地，所述第一预测模型包括：

输入层，用于接收所述特征信息样本并对所述特征信息样本进行词嵌入以将输入的特征信息样本转化为特征向量；

卷积层，用于提取所述特征向量的向量特征；

池化层，用于对提取到的所有向量特征进行降维处理；

全连接层，用于依据降维处理后的向量特征输出所述特征信息样本对应的电子案卷文本样本属于每个类别的概率，并以概率最高的类别作为预测类别。

可选地，所述扩容系数通过以下方式确定：：

将得到的电子案卷文本样本属于每个类别的概率由高到低进行排序；

若修正后的类别为第I个类别，则以I为扩容系数。

在本发明的第二方面，提供一种基于自学习的电子案卷分类装置，包括：

获取单元，用于获取电子案卷文本样本；

提取单元，用于提取所述电子案卷文本样本中的特征信息样本；

预测单元，用于以所述特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别，所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到；

修正单元，用于判断所述预测类别是否准确，若不准确，修正所述预测类别，以修正后的类别作为最终分类类别，以及将所述特征信息样本以扩容系数为倍数复制至所述训练集；若准确，将所述预测类别作为最终分类类别，并将所述特征信息样本作为训练样本加入所述训练集。

对所述电子案卷文本样本进行数据预处理；

可选地，所述装置还包括：

更新单元，用于在当前所有的电子案卷文本样本数量达到设定阈值时，通过所述训练集对所述第一预测模型重新进行训练，得到第二预测模型，若所述第二预测模型的预测准确率高于所述第一预测模型的预测准确率，用所述第二预测模型替换所述第一预测模型。

可选地，所述第一预测模型包括：

卷积层，用于提取所述特征向量的向量特征；

池化层，用于对提取到的所有向量特征进行降维处理；

可选地，所述扩容系数通过以下方式确定：：

若修正后的类别为第I个类别，则以I为扩容系数。

本发明的上述技术方案通过训练好的预测模型对电子案卷文本进行分类，同时结合自学习机制，在对电子案卷分类过程中，针对不同的分类结果，对应不同的训练集数据修正策略，优化训练集数据，有效提高了预测的准确率。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是本发明一种实施方式提供的一种基于自学习的电子案卷分类方法的方法流程图；

图2是本发明一种实施方式提供的一种基于自学习的电子案卷分类方法的分类器训练流程图；

图3是本发明一种实施方式提供的一种基于自学习的电子案卷分类方法的扩容系数确定方法流程图；

图4是本发明一种实施方式提供的一种基于自学习的电子案卷分类方法的分类器自学习流程图；

图5是本发明一种实施方式提供的一种基于自学习的电子案卷分类装置的装置示意框图。

附图标记说明

110-获取单元，120-提取单元，130-预测单元，140-修正单元，150-更新单元。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本发明实施方式中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

如图1所示，在本实施方式的第一方面，提供一种基于自学习的电子案卷分类方法，包括：

获取电子案卷文本样本；

提取电子案卷文本样本中的特征信息样本；

以特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别，第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到；

判断预测类别是否准确，若不准确，修正预测类别，以修正后的类别作为最终分类类别，以及将特征信息样本以扩容系数为倍数复制至训练集；若准确，将预测类别作为最终分类类别，并将特征信息样本作为训练样本加入训练集。

如此，本实施方式的上述技术方案通过训练好的预测模型对电子案卷文本进行分类，同时结合自学习机制，在对电子案卷分类过程中，针对不同的分类结果，对应不同的训练集数据修正策略，优化训练集数据，有效提高了预测的准确率。

具体的，随着电子政务服务的快速发展，各渠道案件量迅速上升，人工分类方式已不能满足当前的实际需要，新增案卷智能分类成为了急需解决的问题，现有的分类方法多采用机器学习的方法解决，传统的机器学习方法主要是线性和浅层非线性的方法，如SVM、朴素贝叶斯分类器实现文本分类，无法有效的利用词序特征，对于复杂词句的语义内容会带来许多误差，本实施方式基于卷积神经网络及TextCNN模型训练得到第一预测模型，即TextCNN分类器。TextCNN模型通过一维卷积来获取句子中n-gram的特征表示，对文本浅层特征的抽取能力很强，应用广泛，且速度快，同时，TextCNN网络结构简单，参数数目少,计算量少,收敛速度快。以提取到的电子案卷文本样本中的特征信息样本作为输入，通过训练好的TextCNN分类器能有效的对电子案卷文本样本进行分类预测，在得到预测类别后，随机对预测类别进行验证，例如，可以通过操作人员对预测类别进行判断是否准确，若不准确则修正预测类别，若检测到该预测类别被更改，则以修正后的预测类别作为最终分类类别，将该电子案卷文本对应的特征信息样本数据乘以扩容系数，将得到的所有特征信息样本数据加入训练集中，对训练集进行更新优化；若预测类别准确，则以预测类别作为最终分类类别，并将该电子案卷文本对应的特征信息样本数据作为训练样本加入训练集。由于机器学习是以数据为驱动的，故数据的质量与数量对最终模型的预测结果好坏具有决定性的作用，本实施方式针对预测类别错误的特征信息样本进行数据扩容的方式优化训练集，将预测类别正确的特征信息样本作为训练数据加入训练集，加入自学习机制，对不同的分类结果采取不同的训练数据修正策略，有效的提高了TextCNN分类器的训练效果及预测准确率。

对电子案卷文本样本进行特征信息样本提取前，需要对电子案卷文本进行预处理，因此，提取电子案卷文本样本中的特征信息样本，包括：

对电子案卷文本样本进行数据预处理；

对经数据预处理后的电子案卷文本样本进行分词及去停用词处理，得到分词词组，基于分词词组得到特征信息样本。

对电子案卷文本的预处理，即数据清洗，根据训练文本的特点，删除文本中无意义的内容，例如乱码、符号信息，或其它的冗余信息，这些符号对于文本分类任务来说是冗余的无意义信息，可以剔除，同时，需要对文本中的英文大小写、数字进行统一的转换，文本编码格式转换。对电子案卷文本进行预处理后，针对中文、日语等无空格切分字词的语言需要进行分词和去停用词处理，将一段文本序列划分为合理的词序列，以便对电子案卷文本进行特征信息样本提取，通过建立自定义的专业分词词库以及专业停用词词库，利用开源的第三方工具即可实现分词与去停用词的操作，例如，可以使用JieBa分词工具包来进行分词的操作，得到电子案卷文本的分词词组，以得到的分词词组作为特征信息样本。

TextCNN分类器的网络结构与传统CNN的网络结构类似，第一预测模型包括：

输入层，用于接收特征信息样本并对特征信息样本进行词嵌入以将输入的特征信息样本转化为特征向量；

卷积层，用于提取特征向量的向量特征；

池化层，用于对提取到的所有向量特征进行降维处理；

全连接层，用于依据降维处理后的向量特征输出特征信息样本对应的电子案卷文本样本属于每个类别的概率，并以概率最高的类别作为预测类别。

TextCNN分类器的网络结构包括输入层，一层卷积层，一层池化层及全连接层，其中，池化层采用max-pool最大值池化，全连接层通过softmax进行n分类。由于计算机无法直接处理自然语言，因此，需要将词汇信息映射到一个数值化的语义空间中，即词向量空间，使得文本数值化，即使用数字代表特定的词汇，文本的数值化方式有很多种，例如：TF-IDF、BOW、One-Hot、分布式的表示方式如word2vec、Glove等，本实施方式通过word2vec的skip-gram模型对得到的分词词组进行词嵌入，建立词向量，例如，第i个词表示为x_i，词x_i通过词嵌入后表示为k维向量，即x_i∈R_k，一份电子案卷文本x_1:n经词嵌入后可以表示为n*k的矩阵，即X_1:n＝x₁⊕x₂⊕…⊕x_n。在Text-CNN模型中，卷积层一般包括多个不同尺寸的卷积核，卷积核的高度，即窗口值，是一个超参数，一般选取2-8之间的值，则，一个包含h个的词的词窗口表示为X_i:i+h-1∈R^hk，一个滤波器是大小为h*k的矩阵，表示为W∈R^hk，则通过一个滤波器作用一个词窗口提取可以提取一个特征c_i，表示为c_i＝f(W·X_i:i+h-1+b)，其中，b∈R是偏差值，f为激活函数如Relu，本实施方式的卷积过程为：通过一个滤波器将整个句子上从句首到句尾进行扫描，提取每个词窗口的特征，可以得到一个特征图c∈R_n-h+1，表示为c＝[c₁,c₂,…,c_n-h+1]，通过池化层对滤波器提取到的特征图进行最大池化，得到

即

减少了模型参数的同时保证了在不定长的卷积层的输出上获得一个定长的全连接层的输入，当卷积层存在m个滤波器，则通过一层卷积、一层池化后可以得到一个长度为m的向量z∈R_m，即

最后，将向量z输入到全连接层，得到最终的特征提取向量y，表示为y＝w·z+b，其中w为全连接层的权重。

如图2所示，TextCNN分类器训练时，先将预先采集的不同类别的电子案卷文本样本进行预处理，提取得到对应的特征信息样本，将得到的所有特征信息样本分为训练集和测试集，以训练集的特征信息样本作为输入，对TextCNN模型进行训练。在训练过程中，通过随机梯度下降法对模型参数进行训练，为了提高计算速度，卷积核做权重初始化时使用orthogonal策略将权重矩阵转换成正交矩阵；同时，为了防止过拟合，提高模型的泛化能力，采用k折交叉验证对特征信息样本数据集进行划分，通过Dropout策略使得局部节点失效，即以一定概率放弃被激活的神经元，相当于放弃部分特征，使得模型更健壮，这使得模型不过分依赖于某些特征，TextCNN分类器的训练过程为现有技术，此处不再赘述。训练后，通过测试集的准确率作为TextCNN分类器的评价标准，准确率计算公式为：

其中，N为样本总量，y_i和y’_i分别为样本x_i的标签和分类结果。当y_i＝y’_i，值为1，反之为0。

为了优化训练集数据，针对预测错误的电子案卷文本的特征信息样本采取以扩容系数增大训练数据量的方法，能有效提高针对该类型的电子案卷文本的训练效果，其中，扩容系数的确定方法包括：

若修正后的类别为第I个类别，则以I为扩容系数。

如图3所示，当存在新增电子案卷文本输入时，加载预训练的分类器进行智能分类，将分类器得到的分类结果按概率由高到低进行top-N排序，默认推荐概率最高的结果为分类结果，若业务操作人员修正了分类结果，即选择了排序中由高到低的第I个推荐的类别(1<I<＝N)，则将该操作记录在数据库中，同时将修正分类的电子案卷文本对应的特征信息样本乘以系数I加入到训练集中，未修正分类的电子案卷文本对应的特征信息样本直接加入训练集，有效的优化了训练集数据。

如图4所示，为了不断优化TextCNN分类器，达到自学习的目睹，本实施方式的方法还包括：

判断当前所有的电子案卷文本样本数量达到设定阈值时，通过训练集对第一预测模型重新进行训练，得到第二预测模型，若第二预测模型的预测准确率高于第一预测模型的预测准确率，用第二预测模型替换第一预测模型。

当新增的电子案卷文本样本数量达到设定阈值时，通过最新更新的训练集对TextCNN分类器重新进行训练，依据上述的准确率计算公式对新训练的TextCNN分类器及原TextCNN分类器进行评价，若新训练的TextCNN分类器准确率高于原TextCNN分类器的准确率，则用新训练的TextCNN分类器替换原TextCNN分类器，从而达到自学习的目的，TextCNN分类器更新后，将新增电子案卷文本样本数量清零，当新增的电子案卷文本样本数量再次达到预设阈值时，重复上述过程，以保持TextCNN分类器通过不断的自学习并更新，如此，当新增的电子案卷文本数量达到设定阈值后，通过优化后的训练集数据重新对预测模型进行训练，进一步提高了预测模型的预测准确率。

如图5所示，在本发明的第二方面，提供一种基于自学习的电子案卷分类装置，包括：

获取单元110，用于获取电子案卷文本样本；

提取单元120，用于提取电子案卷文本样本中的特征信息样本；

预测单元130，用于以特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别，第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到；

修正单元140，用于判断预测类别是否准确，若不准确，修正预测类别，以修正后的类别作为最终分类类别，以及将特征信息样本以扩容系数为倍数复制至训练集；若准确，将预测类别作为最终分类类别，并将特征信息样本作为训练样本加入训练集。

可选地，提取电子案卷文本样本中的特征信息，包括：

对电子案卷文本样本进行数据预处理；

可选地，装置还包括：

更新单元150，用于判断当前所有的电子案卷文本样本数量达到设定阈值时，通过训练集对第一预测模型重新进行训练，得到第二预测模型，若第二预测模型的预测准确率高于第一预测模型的预测准确率，用第二预测模型替换第一预测模型。

可选地，第一预测模型包括：

卷积层，用于提取特征向量的向量特征；

池化层，用于对提取到的所有向量特征进行降维处理；

可选地，扩容系数的确定方法包括：

将得到的电子案卷文本样本属于每个类别的概率由高到低进行排序；若修正后的类别为第I个类别，则以I为扩容系数。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于自学习的电子案卷分类方法，其特征在于，包括：

获取电子案卷文本样本；

提取所述电子案卷文本样本中的特征信息样本；

2.根据权利要求1所述的基于自学习的电子案卷分类方法，其特征在于，所述提取所述电子案卷文本样本中的特征信息样本，包括：

对所述电子案卷文本样本进行数据预处理；

3.根据权利要求1所述的基于自学习的电子案卷分类方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的基于自学习的电子案卷分类方法，其特征在于，所述第一预测模型包括：

卷积层，用于提取所述特征向量的向量特征；

池化层，用于对提取到的所有向量特征进行降维处理；

5.根据权利要求4所述的基于自学习的电子案卷分类方法，其特征在于，所述扩容系数通过以下方式确定：

若修正后的类别为第I个类别，则以I为扩容系数。

6.一种基于自学习的电子案卷分类装置，其特征在于，包括：

获取单元，用于获取电子案卷文本样本；

7.根据权利要求6所述的基于自学习的电子案卷分类装置，其特征在于，所述提取所述电子案卷文本样本中的特征信息样本，包括：

对所述电子案卷文本样本进行数据预处理；

8.根据权利要求6所述的基于自学习的电子案卷分类装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的基于自学习的电子案卷分类装置，其特征在于，所述第一预测模型包括：

卷积层，用于提取所述特征向量的向量特征；

池化层，用于对提取到的所有向量特征进行降维处理；

10.根据权利要求9所述的基于自学习的电子案卷分类装置，其特征在于，所述扩容系数通过以下方式确定：

若修正后的类别为第I个类别，则以I为扩容系数。