CN110750641B - 一种基于序列连接模型和二叉树模型的分类纠错方法 - Google Patents
一种基于序列连接模型和二叉树模型的分类纠错方法 Download PDFInfo
- Publication number
- CN110750641B CN110750641B CN201910906673.6A CN201910906673A CN110750641B CN 110750641 B CN110750641 B CN 110750641B CN 201910906673 A CN201910906673 A CN 201910906673A CN 110750641 B CN110750641 B CN 110750641B
- Authority
- CN
- China
- Prior art keywords
- layer
- data
- neuron
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于序列连接模型和二叉树模型的分类纠错方法,属于数据质量的研究范畴,涉及feed‑forward neural network,RNN,CART等技术领域,主要针对通信网络业务记录和业务通道记录,构建Replicator Neural Network+CART分类模型,采用BP优化方法进行模型训练,利用已经训练好的模型进行分类任务。本发明的优点:自动挑选训练数据,无需人工识别数据,自动发现异常数据进行真值推荐,减少人工的审核工作量,提升数据质量。
Description
技术领域
本发明属于无监督分类的技术领域,特别涉及到电力通信管理系统中产生的通信网络业务记录,通道类型的信息。
背景技术
电力通信管理系统:是作为智能电网重要支撑的电力专用通信网络系统,是总部和省公司“两级部署”,总部、分部、省公司、市县公司“四级应用”的通信管理系统“SG—TMS”。通过标准化规范化的项目建设以及对系统实用化的大力推进,“SG—TMS”已经深度融入数万电力通信专业人员的日常工作中,并且全面采集了数万台设备几年来的建设、运行、管理数据,积累下来的海量电力通信数据和众多外部系统数据、公共数据一同形成了开展大数据分析的基础。
通信网络业务记录:智能电网通信的信息话管理系统中存储了大量的业务记录信息、业务运行状况信息和业务采用的通道信息等,其中既有规范的结构化数据,业务开通时间、运行时间、运行公司等,也有许多半结构化数据。业务类别反应了业务的应用领域,但是电力网络中对业务分配的多变,特别是备用业务通道,还有对业务升级,也可能改变业务类型和业务采用的通道类型。对业务类型和它采用的通道类型的管理存在落后,丢失现象,通过对这些业务信息进行分析,发现关键信息记录错误的业务,并进行业务类型和通道类型真值推荐,降低管理人员的审查工作量,提高审查效率。
由于通信业务记录信息较多,异常记录存量占比5%左右,如何剔除这些异常数据,进行训练电力系统记录信息的分类模型,常用的分类模型SVM和CART都有不错的效果在分类领域,但是它们都需要正常的数据,但是人工从电力通信管理系统中挑选正常数据是不现实的,为了解决模型分类模型不能正常训练的问题,在CART前加了异常数据剔除的功能——利用Replicator Neural Network剔除异常数据。
前馈神经网络(feed-forwardneuralnetwork):是一种最简单的神经网络,每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。
Replicator Neural Network:RNN是一种序列连接模型,前馈神经网络的一种。输入层和输出层节点数一样,并且输入的变量也是输出的变量,中间层的节点数相对较少,这样RNN就起到压缩数据,恢复数据的作用。通过学习数据的特征关系,对于占比较少的异常数据,不能够学习到它们的特征,这样对它们的压缩恢复会存在较大偏差,以此来发现异常记录数据。
支持向量机(SupportVectorMachine):SVM是按照监督方式对数据进行二元分类。它的目的是寻找一个超平面对数据进行分割,分割的原则是分割间距最大。
分类回归树(ClassificationandRegressionTrees):CART是一个二叉树模型,既可以用于分类也可以用于回归问题。通过对数据的信息不断划分,分成左右枝,可以用于多分类问题,可以采用预减枝或后减枝优化模型结构。
发明内容
针对通信网络业务记录的错误发现和纠错,本发明提出了基于ReplicatorNeural Network处理的CART分类模型。实现通信网络业务记录纠错的步骤如下:
一种基于序列连接模型和二叉树模型的分类纠错方法,其特征在于,包括以下步骤:
步骤1,数据预处理:首先基于python读取数据库中的通信网络业务记录,对其中的文字类信息,利用正则表达式进行中文分词操作,将结果按字段存入不同文本文件中,每一行一个词语,并去重;通过得到的词语文件,对对应字段进行编码,然后进行归一化操作;进行对数值型字段进行归一化操作。
步骤2,构建Replicator Neural Network神经网络模型,具体包括:
步骤2.1,构建输入层和输出层。输入层与输出层节点数一样,输出层节点数由步骤1数据预处理的到的数据特征数确定。输入数据向量即:
Di=(x1,x2,...,xM)T,i∈1,2,3...N
其中M是数据的特征数。Di表示第i个记录的数据,N为数据条数。
输出向量:
Ri=(r1,r2,...,rM)T,i∈1,2,3...N
其中M是数据的特征数。Ri表示Di经过处理后的结果,N为数据条数。
则第i个样本的计算方差:
数据整体误差:
步骤2.2,构建隐藏层。
Replicator Neural Network神经网络模型是一个对称结构,而且隐藏层先逐层递减,而后逐层恢复。每层每个神经元都与前面一层所有神经元连接。根据输入数据的特征数来确定需要多少层隐藏层。激活函数选择tanh函数或者sigmoid函数,这里面使用sigmoid函数。
假设存在K层隐藏层,RNN网络中每层每个神经元都与前面一层所有神经元连接。因此Iki公式:
其中Z(k-1)j表示前一层(即k-1层)中第j个神经元的输入,Lk-1表示前一层(即k-1层)中神经元的个数。wkij表示第k层中第i个神经元与前一层第j个神经元连接的权重。
第k层中第i个神经元的输出计算公式:
Zki=Sk(Iki-θi)
其中Iki表示第k层中第i个神经元的输入,θi表示该神经元的阈值,Sk表示第k层使用的激活函数。
步骤2.3,训练模型。运用经典BP算法更新RNN网络中的参数。RNN网络中的参数包括输入层到隐藏层的权重值,隐藏层到输出层的权重值,隐藏层神经元的阈值,输出层神经元的阈值。
根据BP算法得出更新规则如下:
输出层更新规则:
Δwij=ηgiZj
Δθi=-ηgi
其中η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,wij表示输出第i个神经元与前一层第j个神经元的权重。θi表示输出层第i个神经元的阈值。
隐藏层更新规则:
其中,wkpq表示第k层隐含层的第p个神经元与前一层第q个神经元之间的连接权重;K表示隐藏层层数;rkp表示第k隐藏层中第p个神经元的输出。
步骤3,训练CART决策数。
步骤3.1,选择数据。选择通过Replicator Neural Network处理,损失函数小于阈值α的数据集D,作为训练样本。
步骤3.2,通过GINI值来选择划分特征。GINI计算公式:
其中T表示样本类别,pi表示该样本占总样本的比例。可以看出,GINI表示样本的纯度成反比,GINI越小样本浓度越高。
通过选择可以最大提升样本的纯度的特征进行划分,可以快速合理构建决策树模型。以特征A划分样本集D之后得到T个子样本集{D1,D2,...,DT},则
其中|D|表示样本数量。就是选择使Gain最小化的特征进行划分。
重复此步骤直到不能划分样本。
步骤3.3,进行后减枝。通过验证数据计算剪除一个分支节点之后,验证集预测准确度是否提高,提高的化进行减枝,没有则保留该分支节点。最后得到最终的决策树模型。
步骤4,进行纠错任务。根据CART输出的分类结果,对异常数据进行打标签。
本发明的优点:自动挑选训练数据,无需人工识别数据,自动发现异常数据进行真值推荐,减少人工的审核工作量,提升数据质量。
附图说明
图1是本发明方法的实施流程图。
具体实施方式
具体实施时,本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。以下结合附图和实施例详细说明本发明技术方案。
步骤1:数据预处理
首先基于python读取数据库中的通信网络业务记录,对其中的文字类信息,利用正则表达式进行中文分词操作,将结果按字段存入不同文本文件中,每一行一个词语,并去重;通过得到的词语文件,对对应字段进行编码,然后进行归一化操作;进行对数值型字段进行归一化操作。
步骤2:构建Replicator Neural Network神经网络模型
(1)构建输入层和输出层。输入层与输出层节点数一样,输出层节点数由步骤1数据预处理的到的数据特征数确定。输入数据向量即:
Di=(x1,x2,...,xM)T,i∈1,2,3...N
其中M是数据的特征数。Di表示第i个记录的数据,N为数据条数。
输出向量:
Ri=(r1,r2,...,rM)T,i∈1,2,3...N
其中M是数据的特征数。Ri表示Di经过处理后的结果,N为数据条数。
则第i个样本的计算方差:
数据整体误差:
(2)构建隐藏层。
Replicator Neural Network神经网络模型是一个对称结构,而且隐藏层先逐层递减,而后逐层恢复。每层每个神经元都与前面一层所有神经元连接。根据输入数据的特征数来确定需要多少层隐藏层。激活函数选择tanh函数或者sigmoid函数,这里面使用sigmoid函数。
假设存在K层隐藏层,RNN网络中每层每个神经元都与前面一层所有神经元连接。因此Iki公式:
其中Z(k-1)j表示前一层(即k-1层)中第j个神经元的输入,Lk-1表示前一层(即k-1层)中神经元的个数。wkij表示第k层中第i个神经元与前一层第j个神经元连接的权重。
第k层中第i个神经元的输出计算公式:
Zki=Sk(Iki-θi)
其中Iki表示第k层中第i个神经元的输入,θi表示该神经元的阈值,Sk表示第k层使用的激活函数。
(3)采用BP优化方法进行模型训练。
RNN网络中的参数包括输入层到隐藏层的权重值,隐藏层到输出层的权重值,隐藏层神经元的阈值,输出层神经元的阈值。
根据BP算法得出更新规则如下:
输出层更新规则:
Δwij=ηgiZj
Δθi=-ηgi
其中η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,wij表示输出第i个神经元与前一层第j个神经元的权重。θi表示输出层第i个神经元的阈值。
隐藏层更新规则:
其中,wkpq表示第k层隐含层的第p个神经元与前一层第q个神经元之间的连接权重;K表示隐藏层层数;rkp表示第k隐藏层中第p个神经元的输出。
步骤3,训练CART决策数。
(1)选择数据。
选择通过Replicator Neural Network处理,损失函数小于阈值α的数据集D,作为训练样本。
(2)选取特征划分
通过GINI值来选择划分特征。GINI计算公式:
其中T表示样本类别,pi表示该样本占总样本的比例。可以看出,GINI表示样本的纯度成反比,GINI越小样本浓度越高。
通过选择可以最大提升样本的纯度的特征进行划分,可以快速合理构建决策树模型。以特征A划分样本集D之后得到T个子样本集{D1,D2,...,DT),则
其中|D|表示样本数量。就是选择使Gain最小化的特征进行划分。
重复此步骤直到不能划分样本。
(3)通过后减枝进行模型优化。
通过验证数据计算剪除一个分支节点之后,验证集预测准确度是否提高,提高的化进行减枝,没有则保留该分支节点。最后得到最终的决策树模型。
步骤4,进行纠错任务。
利用自动训练出来的Replicator Neural Network+CART模型,对数据进行分类预测。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可对所描述的具体实施例做修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (1)
1.一种基于序列连接模型和二叉树模型的分类纠错方法,其特征在于,包括以下步骤:
步骤1,数据预处理:首先基于python读取数据库中的通信网络业务记录,对其中的文字类信息,利用正则表达式进行中文分词操作,将结果按字段存入不同文本文件中,每一行一个词语,并去重;通过得到的词语文件,对对应字段进行编码,然后进行归一化操作;进行对数值型字段进行归一化操作;
步骤2,构建Replicator Neural Network神经网络模型,具体包括:
步骤2.1,构建输入层和输出层;输入层与输出层节点数一样,输出层节点数由步骤1数据预处理的到的数据特征数确定;输入数据向量即:
Di=(x1,x2,…,xM)T,i∈1,2,3…N
其中M是数据的特征数;Di表示第i个记录的数据,N为数据条数;
输出向量:
Ri=(r1,r2,…,rM)T,i∈1,2,3…N
其中M是数据的特征数;Ri表示Di经过处理后的结果,N为数据条数;
则第i个样本的计算方差:
数据整体误差:
步骤2.2,构建隐藏层;
Replicator Neural Network神经网络模型是一个对称结构,而且隐藏层先逐层递减,而后逐层恢复;每层每个神经元都与前面一层所有神经元连接;根据输入数据的特征数来确定需要多少层隐藏层;激活函数选择tanh函数或者sigmoid函数,这里面使用sigmoid函数;
假设存在K层隐藏层,RNN网络中每层每个神经元都与前面一层所有神经元连接;因此Iki公式:
其中Z(k-1)j表示前一层(即k-1层)中第j个神经元的输入,Lk-1表示前一层(即k-1层)中神经元的个数;wkij表示第k层中第i个神经元与前一层第j个神经元连接的权重;
第k层中第i个神经元的输出计算公式:
Zki=Sk(Iki-θi)
其中Iki表示第k层中第i个神经元的输入,θi表示该神经元的阈值,Sk表示第k层使用的激活函数;
步骤2.3,训练模型;运用经典BP算法更新RNN网络中的参数;RNN网络中的参数包括输入层到隐藏层的权重值,隐藏层到输出层的权重值,隐藏层神经元的阈值,输出层神经元的阈值;
根据BP算法得出更新规则如下:
输出层更新规则:
Δwij=ηgiZj
Δθi=-ηgi
其中η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,wij表示输出第i个神经元与前一层第j个神经元的权重;θi表示输出层第i个神经元的阈值;
隐藏层更新规则:
其中,wkpq表示第k层隐含层的第p个神经元与前一层第q个神经元之间的连接权重;K表示隐藏层层数;rkp表示第k隐藏层中第p个神经元的输出;
步骤3,训练CART决策数;
步骤3.1,选择数据;选择通过Replicator Neural Network处理,损失函数小于阈值α的数据集D,作为训练样本;
步骤3.2,通过GINI值来选择划分特征;GINI计算公式:
其中T表示样本类别,pi表示该样本占总样本的比例;可以看出,GINI表示样本的纯度成反比,GINI越小样本浓度越高;
通过选择可以最大提升样本的纯度的特征进行划分,可以快速合理构建决策树模型;以特征A划分样本集D之后得到T个子样本集{D1,D2,…,DT},则
其中|D|表示样本数量;就是选择使Gain最小化的特征进行划分;
重复步骤3.2直到不能划分样本;
步骤3.3,进行后减枝;通过验证数据计算剪除一个分支节点之后,验证集预测准确度是否提高,提高的化进行减枝,没有则保留该分支节点;最后得到最终的决策树模型;
步骤4,进行纠错任务;根据CART输出的分类结果,对异常数据进行打标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910906673.6A CN110750641B (zh) | 2019-09-24 | 2019-09-24 | 一种基于序列连接模型和二叉树模型的分类纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910906673.6A CN110750641B (zh) | 2019-09-24 | 2019-09-24 | 一种基于序列连接模型和二叉树模型的分类纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750641A CN110750641A (zh) | 2020-02-04 |
CN110750641B true CN110750641B (zh) | 2022-02-11 |
Family
ID=69277004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910906673.6A Active CN110750641B (zh) | 2019-09-24 | 2019-09-24 | 一种基于序列连接模型和二叉树模型的分类纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750641B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260249B (zh) * | 2020-02-13 | 2022-08-05 | 武汉大学 | 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置 |
CN111444233B (zh) * | 2020-02-15 | 2021-08-17 | 中国环境监测总站 | 基于复制器神经网络模型发现环境监测异常数据的方法 |
CN111562541B (zh) * | 2020-05-31 | 2022-05-24 | 宁夏隆基宁光仪表股份有限公司 | 一种应用cart算法实现电能表检测数据管理的软件平台 |
CN112287066B (zh) * | 2020-10-22 | 2024-03-08 | 武汉大学 | 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 |
CN112651505B (zh) * | 2020-12-18 | 2022-01-14 | 广州大学 | 一种用于知识验证的真值发现方法及系统 |
CN113626592A (zh) * | 2021-07-08 | 2021-11-09 | 中汽创智科技有限公司 | 一种基于语料的分类方法、装置,电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106714220B (zh) * | 2017-01-06 | 2019-05-17 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN110245557B (zh) * | 2019-05-07 | 2023-12-22 | 平安科技(深圳)有限公司 | 图片处理方法、装置、计算机设备及存储介质 |
CN110232122A (zh) * | 2019-05-15 | 2019-09-13 | 上海海事大学 | 一种基于文本纠错与神经网络的中文问句分类方法 |
-
2019
- 2019-09-24 CN CN201910906673.6A patent/CN110750641B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110750641A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750641B (zh) | 一种基于序列连接模型和二叉树模型的分类纠错方法 | |
CN110070183B (zh) | 一种弱标注数据的神经网络模型训练方法及装置 | |
CN110472817B (zh) | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 | |
Akay et al. | A comprehensive survey on optimizing deep learning models by metaheuristics | |
Han et al. | A survey on metaheuristic optimization for random single-hidden layer feedforward neural network | |
US20220188568A1 (en) | Methods and systems for mining minority-class data samples for training a neural network | |
CN111260249B (zh) | 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置 | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
De et al. | Effective ML techniques to predict customer churn | |
Yeh et al. | Deep belief networks for predicting corporate defaults | |
CN112765894B (zh) | 一种基于k-lstm的铝电解槽状态预测方法 | |
CN113344615A (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
CN114757432A (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
CN111861756A (zh) | 一种基于金融交易网络的团伙检测方法及其实现装置 | |
CN112906790A (zh) | 一种基于用电数据的独居老人识别方法和系统 | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、系统、设备及存储介质 | |
Urgun et al. | Composite power system reliability evaluation using importance sampling and convolutional neural networks | |
Shahbazi | Using decision tree classification algorithm to design and construct the credit rating model for banking customers | |
US20230401454A1 (en) | Method using weighted aggregated ensemble model for energy demand management of buildings | |
CN109460872B (zh) | 一种面向移动通信用户流失不平衡数据预测方法 | |
CN115795035A (zh) | 基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
CN114997475A (zh) | 一种基于Kmeans的融合模型光伏发电短期预测方法 | |
Boateng et al. | A global modeling pruning ensemble stacking with deep learning and neural network meta-learner for passenger train delay prediction | |
da Silva et al. | Automated machine learning for time series prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |