CN110750641B

CN110750641B - 一种基于序列连接模型和二叉树模型的分类纠错方法

Info

Publication number: CN110750641B
Application number: CN201910906673.6A
Authority: CN
Inventors: 李石君; 李学礼; 杨济海; 龚红霞; 余伟; 余放; 甘琳; 李宇轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-02-11
Anticipated expiration: 2039-09-24
Also published as: CN110750641A

Abstract

本发明涉及一种基于序列连接模型和二叉树模型的分类纠错方法，属于数据质量的研究范畴，涉及feed‑forward neural network，RNN，CART等技术领域，主要针对通信网络业务记录和业务通道记录，构建Replicator Neural Network+CART分类模型，采用BP优化方法进行模型训练，利用已经训练好的模型进行分类任务。本发明的优点：自动挑选训练数据，无需人工识别数据，自动发现异常数据进行真值推荐，减少人工的审核工作量，提升数据质量。

Description

一种基于序列连接模型和二叉树模型的分类纠错方法

技术领域

本发明属于无监督分类的技术领域，特别涉及到电力通信管理系统中产生的通信网络业务记录，通道类型的信息。

背景技术

电力通信管理系统：是作为智能电网重要支撑的电力专用通信网络系统，是总部和省公司“两级部署”，总部、分部、省公司、市县公司“四级应用”的通信管理系统“SG—TMS”。通过标准化规范化的项目建设以及对系统实用化的大力推进，“SG—TMS”已经深度融入数万电力通信专业人员的日常工作中，并且全面采集了数万台设备几年来的建设、运行、管理数据，积累下来的海量电力通信数据和众多外部系统数据、公共数据一同形成了开展大数据分析的基础。

通信网络业务记录：智能电网通信的信息话管理系统中存储了大量的业务记录信息、业务运行状况信息和业务采用的通道信息等，其中既有规范的结构化数据，业务开通时间、运行时间、运行公司等，也有许多半结构化数据。业务类别反应了业务的应用领域，但是电力网络中对业务分配的多变，特别是备用业务通道，还有对业务升级，也可能改变业务类型和业务采用的通道类型。对业务类型和它采用的通道类型的管理存在落后，丢失现象，通过对这些业务信息进行分析，发现关键信息记录错误的业务，并进行业务类型和通道类型真值推荐，降低管理人员的审查工作量，提高审查效率。

由于通信业务记录信息较多，异常记录存量占比5％左右，如何剔除这些异常数据，进行训练电力系统记录信息的分类模型，常用的分类模型SVM和CART都有不错的效果在分类领域，但是它们都需要正常的数据，但是人工从电力通信管理系统中挑选正常数据是不现实的，为了解决模型分类模型不能正常训练的问题，在CART前加了异常数据剔除的功能——利用Replicator Neural Network剔除异常数据。

前馈神经网络(feed-forwardneuralnetwork)：是一种最简单的神经网络，每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层.各层间没有反馈。

Replicator Neural Network：RNN是一种序列连接模型，前馈神经网络的一种。输入层和输出层节点数一样，并且输入的变量也是输出的变量，中间层的节点数相对较少，这样RNN就起到压缩数据，恢复数据的作用。通过学习数据的特征关系，对于占比较少的异常数据，不能够学习到它们的特征，这样对它们的压缩恢复会存在较大偏差，以此来发现异常记录数据。

支持向量机(SupportVectorMachine)：SVM是按照监督方式对数据进行二元分类。它的目的是寻找一个超平面对数据进行分割，分割的原则是分割间距最大。

分类回归树(ClassificationandRegressionTrees)：CART是一个二叉树模型，既可以用于分类也可以用于回归问题。通过对数据的信息不断划分，分成左右枝，可以用于多分类问题，可以采用预减枝或后减枝优化模型结构。

发明内容

针对通信网络业务记录的错误发现和纠错，本发明提出了基于ReplicatorNeural Network处理的CART分类模型。实现通信网络业务记录纠错的步骤如下：

一种基于序列连接模型和二叉树模型的分类纠错方法，其特征在于，包括以下步骤：

步骤1，数据预处理：首先基于python读取数据库中的通信网络业务记录，对其中的文字类信息，利用正则表达式进行中文分词操作，将结果按字段存入不同文本文件中，每一行一个词语，并去重；通过得到的词语文件，对对应字段进行编码，然后进行归一化操作；进行对数值型字段进行归一化操作。

步骤2，构建Replicator Neural Network神经网络模型，具体包括：

步骤2.1，构建输入层和输出层。输入层与输出层节点数一样，输出层节点数由步骤1数据预处理的到的数据特征数确定。输入数据向量即：

D_i＝(x₁，x₂，...，x_M)^T，i∈1,2,3...N

其中M是数据的特征数。D_i表示第i个记录的数据，N为数据条数。

输出向量：

R_i＝(r₁，r₂，...，r_M)^T，i∈1,2,3...N

其中M是数据的特征数。R_i表示D_i经过处理后的结果，N为数据条数。

则第i个样本的计算方差：

数据整体误差：

步骤2.2，构建隐藏层。

Replicator Neural Network神经网络模型是一个对称结构，而且隐藏层先逐层递减，而后逐层恢复。每层每个神经元都与前面一层所有神经元连接。根据输入数据的特征数来确定需要多少层隐藏层。激活函数选择tanh函数或者sigmoid函数，这里面使用sigmoid函数。

假设存在K层隐藏层，RNN网络中每层每个神经元都与前面一层所有神经元连接。因此I_ki公式：

其中Z_(k-1)j表示前一层(即k-1层)中第j个神经元的输入，L_k-1表示前一层(即k-1层)中神经元的个数。w_kij表示第k层中第i个神经元与前一层第j个神经元连接的权重。

第k层中第i个神经元的输出计算公式：

Z_ki＝S_k(I_ki-θ_i)

其中I_ki表示第k层中第i个神经元的输入，θ_i表示该神经元的阈值，S_k表示第k层使用的激活函数。

步骤2.3，训练模型。运用经典BP算法更新RNN网络中的参数。RNN网络中的参数包括输入层到隐藏层的权重值，隐藏层到输出层的权重值，隐藏层神经元的阈值，输出层神经元的阈值。

根据BP算法得出更新规则如下：

输出层更新规则：

Δw_ij＝ηg_iZ_j

Δθ_i＝-ηg_i

其中η是学习率，η∈(0，1)，控制算法的每一轮迭代中的更新步长，w_ij表示输出第i个神经元与前一层第j个神经元的权重。θ_i表示输出层第i个神经元的阈值。

隐藏层更新规则：

其中，w_kpq表示第k层隐含层的第p个神经元与前一层第q个神经元之间的连接权重；K表示隐藏层层数；r_kp表示第k隐藏层中第p个神经元的输出。

步骤3，训练CART决策数。

步骤3.1，选择数据。选择通过Replicator Neural Network处理，损失函数小于阈值α的数据集D，作为训练样本。

步骤3.2，通过GINI值来选择划分特征。GINI计算公式：

其中T表示样本类别，p_i表示该样本占总样本的比例。可以看出，GINI表示样本的纯度成反比，GINI越小样本浓度越高。

通过选择可以最大提升样本的纯度的特征进行划分，可以快速合理构建决策树模型。以特征A划分样本集D之后得到T个子样本集{D₁，D₂，...，D_T}，则

其中|D|表示样本数量。就是选择使Gain最小化的特征进行划分。

重复此步骤直到不能划分样本。

步骤3.3，进行后减枝。通过验证数据计算剪除一个分支节点之后，验证集预测准确度是否提高，提高的化进行减枝，没有则保留该分支节点。最后得到最终的决策树模型。

步骤4，进行纠错任务。根据CART输出的分类结果，对异常数据进行打标签。

本发明的优点：自动挑选训练数据，无需人工识别数据，自动发现异常数据进行真值推荐，减少人工的审核工作量，提升数据质量。

附图说明

图1是本发明方法的实施流程图。

具体实施方式

具体实施时，本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。以下结合附图和实施例详细说明本发明技术方案。

步骤1：数据预处理

首先基于python读取数据库中的通信网络业务记录，对其中的文字类信息，利用正则表达式进行中文分词操作，将结果按字段存入不同文本文件中，每一行一个词语，并去重；通过得到的词语文件，对对应字段进行编码，然后进行归一化操作；进行对数值型字段进行归一化操作。

步骤2：构建Replicator Neural Network神经网络模型

(1)构建输入层和输出层。输入层与输出层节点数一样，输出层节点数由步骤1数据预处理的到的数据特征数确定。输入数据向量即：

D_i＝(x₁，x₂，...，x_M)^T，i∈1,2,3...N

输出向量：

R_i＝(r₁，r₂，...，r_M)^T，i∈1,2,3...N

则第i个样本的计算方差：

数据整体误差：

(2)构建隐藏层。

第k层中第i个神经元的输出计算公式：

Z_ki＝S_k(I_ki-θ_i)

(3)采用BP优化方法进行模型训练。

RNN网络中的参数包括输入层到隐藏层的权重值，隐藏层到输出层的权重值，隐藏层神经元的阈值，输出层神经元的阈值。

根据BP算法得出更新规则如下：

输出层更新规则：

Δw_ij＝ηg_iZ_j

Δθ_i＝-ηg_i

隐藏层更新规则：

步骤3，训练CART决策数。

(1)选择数据。

选择通过Replicator Neural Network处理，损失函数小于阈值α的数据集D，作为训练样本。

(2)选取特征划分

通过GINI值来选择划分特征。GINI计算公式：

通过选择可以最大提升样本的纯度的特征进行划分，可以快速合理构建决策树模型。以特征A划分样本集D之后得到T个子样本集{D₁，D₂，...，D_T)，则

重复此步骤直到不能划分样本。

(3)通过后减枝进行模型优化。

通过验证数据计算剪除一个分支节点之后，验证集预测准确度是否提高，提高的化进行减枝，没有则保留该分支节点。最后得到最终的决策树模型。

步骤4，进行纠错任务。

利用自动训练出来的Replicator Neural Network+CART模型，对数据进行分类预测。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可对所描述的具体实施例做修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于序列连接模型和二叉树模型的分类纠错方法，其特征在于，包括以下步骤：

步骤1，数据预处理：首先基于python读取数据库中的通信网络业务记录，对其中的文字类信息，利用正则表达式进行中文分词操作，将结果按字段存入不同文本文件中，每一行一个词语，并去重；通过得到的词语文件，对对应字段进行编码，然后进行归一化操作；进行对数值型字段进行归一化操作；

步骤2，构建Replicator Neural Network神经网络模型，具体包括：

步骤2.1，构建输入层和输出层；输入层与输出层节点数一样，输出层节点数由步骤1数据预处理的到的数据特征数确定；输入数据向量即：

D_i＝(x₁,x₂,…,x_M)^T,i∈1,2,3…N

其中M是数据的特征数；D_i表示第i个记录的数据，N为数据条数；

输出向量：

R_i＝(r₁,r₂,…,r_M)^T,i∈1,2,3…N

其中M是数据的特征数；R_i表示D_i经过处理后的结果，N为数据条数；

则第i个样本的计算方差：

数据整体误差：

步骤2.2，构建隐藏层；

Replicator Neural Network神经网络模型是一个对称结构，而且隐藏层先逐层递减，而后逐层恢复；每层每个神经元都与前面一层所有神经元连接；根据输入数据的特征数来确定需要多少层隐藏层；激活函数选择tanh函数或者sigmoid函数，这里面使用sigmoid函数；

假设存在K层隐藏层，RNN网络中每层每个神经元都与前面一层所有神经元连接；因此I_ki公式：

其中Z_(k-1)j表示前一层(即k-1层)中第j个神经元的输入，L_k-1表示前一层(即k-1层)中神经元的个数；w_kij表示第k层中第i个神经元与前一层第j个神经元连接的权重；

第k层中第i个神经元的输出计算公式：

Z_ki＝S_k(I_ki-θ_i)

其中I_ki表示第k层中第i个神经元的输入,θ_i表示该神经元的阈值，S_k表示第k层使用的激活函数；

步骤2.3，训练模型；运用经典BP算法更新RNN网络中的参数；RNN网络中的参数包括输入层到隐藏层的权重值，隐藏层到输出层的权重值，隐藏层神经元的阈值，输出层神经元的阈值；

根据BP算法得出更新规则如下：

输出层更新规则：

Δw_ij＝ηg_iZ_j

Δθ_i＝-ηg_i

其中η是学习率，η∈(0,1)，控制算法的每一轮迭代中的更新步长，w_ij表示输出第i个神经元与前一层第j个神经元的权重；θ_i表示输出层第i个神经元的阈值；

隐藏层更新规则：

其中，w_kpq表示第k层隐含层的第p个神经元与前一层第q个神经元之间的连接权重；K表示隐藏层层数；r_kp表示第k隐藏层中第p个神经元的输出；

步骤3，训练CART决策数；

步骤3.1，选择数据；选择通过Replicator Neural Network处理，损失函数小于阈值α的数据集D，作为训练样本；

步骤3.2，通过GINI值来选择划分特征；GINI计算公式：

其中T表示样本类别，p_i表示该样本占总样本的比例；可以看出，GINI表示样本的纯度成反比，GINI越小样本浓度越高；

通过选择可以最大提升样本的纯度的特征进行划分，可以快速合理构建决策树模型；以特征A划分样本集D之后得到T个子样本集{D₁,D₂,…,D_T}，则

其中|D|表示样本数量；就是选择使Gain最小化的特征进行划分；

重复步骤3.2直到不能划分样本；

步骤3.3，进行后减枝；通过验证数据计算剪除一个分支节点之后，验证集预测准确度是否提高，提高的化进行减枝，没有则保留该分支节点；最后得到最终的决策树模型；

步骤4，进行纠错任务；根据CART输出的分类结果，对异常数据进行打标签。