CN112199415A - 一种数据特征预处理的方法及其实现系统和应用 - Google Patents
一种数据特征预处理的方法及其实现系统和应用 Download PDFInfo
- Publication number
- CN112199415A CN112199415A CN202011040887.9A CN202011040887A CN112199415A CN 112199415 A CN112199415 A CN 112199415A CN 202011040887 A CN202011040887 A CN 202011040887A CN 112199415 A CN112199415 A CN 112199415A
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- sample
- layer
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000007781 pre-processing Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000011158 quantitative evaluation Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 93
- 230000006870 function Effects 0.000 claims description 56
- 230000009467 reduction Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 238000003062 neural network model Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 6
- 238000013144 data compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010012335 Dependence Diseases 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 208000022821 personality disease Diseases 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002336 repolarization Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据预处理的方法及其实现系统和应用,包括:(1)数据结构化:原始数据包括可量化字段和文本字段;对于可量化字段,对其中的离散类别字段进行标签编码,对连续数值型字段进行归一化;对于文本字段,对其进行规则提取,利用信息抽取和知识表示技术,提取出关键字,并表示相对应的规则,建立结构化知识库;(2)特征向量提取和构建:对于步骤(1)处理后的可量化字段,判断相似度,删除样本相似度区分较小的无效特征,并选择最有效的特征作为特征向量。本发明针对文本性数据文件,基于知识抽取和表示技术,本发明提出关键字和规则的提取和量化方法,建立结构化知识库,以进行量化评估。
Description
技术领域
本发明涉及一种数据特征预处理的方法及其实现系统和应用,属于神经网络技术领域。
背景技术
信息化社会的发展产生了海量的数据,人们需要时时刻刻处理多种维度、各种形态的数据来进行生产和生活,获取各种音视频文件、传感器数据等信息。目前数据预处理的常见方法包括数据清洗、数据集成和数据变换等。针对不同形态的数据要选择不同的预处理方法,对较高维度的数据特征需要降维,剔除冗余数据,不同方法会不同程度的影响数据应用的效果,因此能处理涵盖结构化字段和非结构化文本信息的高维数据特征处理方法较少。
目前在判定服刑人员是否符合“减假暂”(减刑、假释及暂缓执行)的规范时,需要法官翻阅大量的法律文书做出判决,消耗大量的人力物力,同时会产生一定的主观性,缺少针对判决的量化评估方法。目前对大数据的处理方法向着智能化、自动化的方向发展,各种工作也逐渐由智能机器所代替,人类社会与智能机器的交叉越来越多,在这样的时代背景下,智能、方便的人机交互变得越来越重要。
发明内容
针对现有技术的不足,本发明提出了一种数据特征预处理的方法;
本发明还提供了上述数据特征预处理的方法的实现系统;
本发明另外还提供了上述数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用;其中用到了本发明提供的一种基于BP(Back Propagation)神经网络和RBF(Radical Basis Function)神经网络两种异构神经网络融合的级联神经网络模型,集成BP神经网络的数据压缩能力和RBF神经网络任意精度的泛函逼近能力,从而解决评估数据的多维非线性问题。可以有效的利用建立的服刑人员多维信息数据库,利用关联数据神经网络优化技术,来提高服刑人员减假暂量化评估的准确性。
术语解释:
1、闵可夫斯基距离,衡量数值点之间距离的一种方法。
2、VDM距离,衡量样本簇中无序属性间距离的一种方法。
3、异构神经网络:是指两种结构不同的神经网络。
4、网络融合:将两种不同的神经网络搭建成前后级联的结构,前级神经网络的输入是整个网络的输入,其输出作为后级神经网络的输入,后级神经网络的输出作为整个网络结构的输出。
本发明的技术方案为:
一种数据特征预处理的方法,包括步骤如下:
(1)数据结构化
原始数据按数据类型可分为两类,包括可量化字段和文本字段;
数据结构化,构建特征向量:结构化数据,是指有严格的数据格式和长度规范的数据。
对于所述可量化字段,对其中的离散类别字段进行标签编码,对连续数值型字段进行归一化;
对于所述文本字段,对其进行规则提取,利用信息抽取和知识表示技术,提取出关键字,并表示相对应的规则,建立结构化知识库;如输入最高人民法院关于办理减刑案件法律规定内容,输出固定格式的信息点,包括“减刑规则”、“减刑时间”、“减刑间隔”等。
(2)特征向量提取和构建
对于步骤(1)处理后的可量化字段,判断相似度,删除样本相似度区分较小的无效特征,并选择最有效的特征作为特征向量。
进一步优选的,特征向量提取和构建,包括步骤如下:
1)相似度计算
针对连续数值型字段,直接在属性值上计算闵可夫斯基距离;例如,“1”与“2”更接近,与“3”距离较远,此时采用闵可夫斯基距离计算;针对离散类别字段,如职业的“无业”、“商人”、“农民”等不能直接在属性值上计算距离,采用VDM(Value Difference Metric)算法计算VDM距离;
结合闵可夫斯基距离和VDM距离,求取数据集中的混合属性的距离,数据集是指结构化知识库里的数据,混合属性包括有序属性和无序属性,计算方法如下:
若在数据集X′有nc个连续有序属性,n-nc个无序属性),连续数值型字段对应的是有序属性,离散类别字段对应的是无序属性,给出数据样本xi=(xi1;xi2;...;xin)与xj=(xj1;xj2;...;xjn),xi1;xi2;...;xin是数据样本xi在所有混合属性中的取值,xj1;xj2;...;xjn是数据样本xj在所有混合属性中的取值,通过式(I)计算出数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj):
式(I)中,xiu和xju分别是数据样本xi和xj在第u个属性上的取值,nc是有序属性的个数,p≥1,n是属性的总个数,VDM算法公式如式(II)所示:
式(II)中,b=xju,a=xiu,mu,a表示在属性u上取值为a的样本数,mu,a,i表示在第i个样本中在属性u上取值为a的样本数,k是样本个数,VDMP(a,b)表示在属性u上两个离散值a和b之间的VDM距离;
根据数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj),判断相似度,删除样本相似度区分较小的无效特征;
2)权重排序
基于特征对近距离样本的区分能力评估特征进行特征筛选,提取出的特征应该使同类样本接近,异类样本远离,基于Relief F思想,具体计算方法如下:
将步骤1)处理后的结构化的数据集随机分为两部分,大的部分作为训练集D,小的部分作为测试集;从训练集D中随机选择一个样本R,从和R同类的样本中寻找k最近邻样本H,从和R不同类的样本中寻找k最近邻样本M,按照公式(III)更新特征权重,A表示需要计算权重的特征:
式(III)中,diff(A,R1,R2)表示样本R1和样本R2在特征A上的差,R1[A]表示样本R1在特征A上的取值,R2[A]表示样本R2在特征A上的取值,max(A)表示在特征A上所有样本中的最大值,min(A)表示在特征A上所有样本中的最小值;
按照每个特征的权重从大到小进行排序,选择排序中的前几个最有效的特征作为特征向量。
进一步优选的,判断相似度,删除样本相似度区分较小的无效特征,是指:数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj)大于0.5-0.9时,判定为样本相似度区分较小的无效特征,删除。相似度区分依据数据集自身而定,相似度大小取决于距离大小,可设置距离阈值为数据集中最大距离的倍数(可选0.5~0.9)。
上述数据特征预处理的方法的实现系统,包括依次连接的数据结构化单元、特征向量提取和构建单元,所述特征向量提取和构建单元包括依次连接的相似度计算模块及权重排序模块;
所述数据结构化单元用于实现所述步骤(1)的数据结构化过程;所述相似度计算模块用于实现所述步骤1)的相似度计算过程;所述权重排序模块用于实现所述步骤2)的权重排序过程。
上述数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用,包括步骤如下:
A、通过上述数据特征预处理的方法处理监狱数据,获得特征向量
监狱数据包括可量化字段和文本字段,所述可量化字段为待评估人员的多维度信息,包括人口数据维度、社会关系维度、生理维度、心理维度、犯罪信息维度和改造教育维度;所述文本字段为国家减假暂法律法规的相关内容;
对其中的离散类别字段进行标签编码,例如,人口数据维度中的教育程度包括文盲、小学、初中、高中、大学及以上,使得待评估人员的每一维度信息变换为数值量化的特征向量,对连续数值型字段进行归一化,例如,犯罪信息维度中的犯罪年龄属性是连续性,实现改造质量数据的结构化。
对于所述文本字段,对其进行规则提取,利用信息抽取和知识表示技术,提取出包括“减刑”、“假释”和“暂予监外执行”等关键字,并表示相对应的减假暂时间等规则,建立量化评估的结构化知识库;
B、构建、训练级联神经网络模型
目前常用的逻辑回归模型无法同时处理文本和数字信息,且在多维服刑人员的特征下学习能力较差,本发明提供的级联异构神经网络,集成BP神经网络的数据压缩能力与RBF神经网络任意精度的泛函逼近能力,即将BP神经网络与RBF神经网络串联,构成BP-RBF混合神经网络,可解决此领域的应用问题。BP神经网络、RBF神经网络的层与层之间没有连接,层间神经元全连接;
级联神经网络模型包括依次连接的BP神经网络、RBF神经网络、过滤模块;
BP神经网络依次包括第一输入层、第一隐藏层、第一输出层;
RBF神经网络依次包括第二输入层、第二隐藏层、第二输出层;
BP神经网络第一输入层接收输入特征向量,第一输入层和第一隐藏层之间的权重矩阵W的第i行代表网络输入特征向量的第i个维度的权重,权重矩阵是神经网络训练学习时要优化的目标,权重矩阵的元素值代表了输入特征向量的权重信息;第一隐藏层用于BP神经网络的第一输入层和第一输出层的映射,第一隐藏层到第一输出层完成输入数据的压缩,压缩后的维度即为第一输出层的维度;
BP神经网络第一输出层的输出向量再作为RBF神经网络的输入向量进行分类;BP神经网络的第一输入层节点数为输入特征维度数目;RBF神经网络的第二输入层的节点数为BP神经网络输出节点数目,第二隐藏层中神经元的变换函数即径向基函数,是对中心点径向对称且衰减的非负线性函数,对输入向量进行空间映射的变换,即为非线性优化,第二输出层对第二隐藏层进行线性加权调整,即为线性优化;第二隐藏层采用非线性优化策略对第一隐藏层的激活函数(高斯函数)的参数(分布常数)进行调整,第二输出层采用线性优化策略对第二隐藏层的输出进行线性加权优化调整;因而学习速度较快。
设定过滤模块中关键字匹配程度的阈值0.75-0.9;通过正则化方法求取第二输出层输出的文本与结构化知识库中的文本匹配值,若第二输出层输出的文本与结构化知识库中的文本匹配值高于关键字匹配程度的阈值,则正常输出第二输出层输出的文本,若低于阈值,则对量化评估输出加入否决性约束,即若第二输出层输出结果为某犯人满足减刑,但根据基于国家减假暂法律法规建立的结构化知识库,该犯人还未完全符合减刑标准,则将输出结果修改为不满足减刑;以此来实现否决性约束,提高减假暂评估结论的严谨程度,重复训练数据的输入,直至级联神经网络模型训练过程中的损失函数不再下降后为止。损失函数采用交叉熵形式,进行性能评估与实际应用。
针对改造样本数量有限的问题,利用自助采样法,使用有放回重复采样的方式进行数据采样。
根据本发明优选的,采用Dropout技术对级联神经网络模型的输入数据的分布进行估计,让第一层隐藏层的节点在每次迭代时(包括正向和反向传播)有一定概率(keep-prob)失效,第一层隐藏层节点在每次迭代时的失效概率p=0.5。即通过动态修改隐藏层的神经元个数来防止过拟合,提高模型泛化能力和模型准确率;
根据本发明优选的,所述第一隐藏层的激活函数采用sigmoid函数,如公式(IV)所示:
式(IV)中,z是指从第一输入层传递到第一隐藏层的特征向量,σ(z)是第一隐藏层的输出,第一隐藏层和第一输出层之间同样有一个权重矩阵包含特征向量的权重信息。
根据本发明优选的,BP神经网络的第一隐藏层节点数根据经验公式(V)求得:
式(V)中,h是第一隐藏层节点数,m和n分别是第一输入层和第一输出层节点的数目,a为1~10之间的调节常数。输出节点数为6。
根据本发明优选的,径向基函数是局部响应函数,如公式(VI)所示:
式(VI)中,R(||dist||)表示神经网络的输入数据到中心点之间径向基距离的单调函数,dist表示采用的径向基函数,常用高斯径向基函数。
根据本发明优选的,径向基函数采用高斯核函数,如公式(VII)所示:
式(VII)中,K(||X-Xc||)表示神经网络的输入数据X到中心点Xc的高斯距离,Xc为核函数中心,即RBF神经网络的第二隐藏层的节点,σ为函数的宽度参数,控制函数的径向作用范围;第二输入层和第二隐藏层之间是连接权值为1的连接。
在RBF神经网络中最重要的参数是径向基函数(采用高斯函数)的分布常数,在网络训练过程中通过网络预测误差来选择最优的径向基函数的分布常数,分布常数为dmax是神经网络输入数据中心之间的最大距离,M是数据中心的数目。通过在训练神经网络的过程中选择不同大小的分布常数得出不同大小的网络预测误差,预测误差越小,其对应的分布常数就最优。
本发明的有益效果为:
1、针对服刑人员改造数据具有高维度、高噪声的特点,本发明提出了一种级联异构级联神经网络,结合BP神经网络和RBF神经网络的数据压缩能力和任意精度的泛函逼近能力,该模型结合了BP神经网络的学习能力强、自适应度高以及RBF神经网络收敛快、群分类性能好的优点,实现系统模型训练的局部梯度端到端的高效传递。
2、针对文本性数据文件,基于知识抽取和表示技术,本发明提出关键字和规则的提取和量化方法,建立结构化知识库,以进行量化评估。
3、本发明提供一种特征挖掘的方法,度量混合数据属性间距离,并根据权重对特征排序,提取出对服刑人员减假暂评估的字段。
4、本发明加入过滤模块,在小样本数量的数据库中训练得到较好的效果。
附图说明
图1为本发明数据特征预处理的方法的实现系统的结构框图;
图2为本发明数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用的流程示意图;
图3为级联的BP神经网络、RBF神经网络的结构框图;
图4为本发明的服刑人员数据预处理和特征向量构建方法示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种数据特征预处理的方法,如图4所示,包括步骤如下:
(1)数据结构化
原始数据按数据类型可分为两类,包括可量化字段和文本字段;
数据结构化,构建特征向量:结构化数据,是指有严格的数据格式和长度规范的数据。
对于可量化字段,对其中的离散类别字段进行标签编码,对连续数值型字段进行归一化;
对于文本字段,对其进行规则提取,利用信息抽取和知识表示技术,提取出关键字,并表示相对应的规则,建立结构化知识库;如输入最高人民法院关于办理减刑案件法律规定内容,输出固定格式的信息点,包括“减刑规则”、“减刑时间”、“减刑间隔”等。
(2)特征向量提取和构建
对于步骤(1)处理后的可量化字段,判断相似度,删除样本相似度区分较小的无效特征,并选择最有效的特征作为特征向量。
特征向量提取和构建,包括步骤如下:
1)相似度计算
针对连续数值型字段,直接在属性值上计算闵可夫斯基距离;例如,“1”与“2”更接近,与“3”距离较远,此时采用闵可夫斯基距离计算;针对离散类别字段,如职业的“无业”、“商人”、“农民”等不能直接在属性值上计算距离,采用VDM(Value Difference Metric)算法计算VDM距离;
结合闵可夫斯基距离和VDM距离,求取数据集中的混合属性的距离,数据集是指结构化知识库里的数据,混合属性包括有序属性和无序属性,计算方法如下:
若在数据集X′有nc个连续有序属性,n-nc个无序属性),连续数值型字段对应的是有序属性,离散类别字段对应的是无序属性,给出数据样本xi=(xi1;xi2;...;xin)与xj=(xj1;xj2;...;xjn),xi1;xi2;...;xin是数据样本xi在所有混合属性中的取值,xj1;xj2;...;xjn是数据样本xj在所有混合属性中的取值,通过式(I)计算出数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj):
式(I)中,xiu和xju分别是数据样本xi和xj在第u个属性上的取值,nc是有序属性的个数,p≥1,n是属性的总个数,VDM算法公式如式(II)所示:
式(II)中,b=xju,a=xiu,mu,a表示在属性u上取值为a的样本数,mu,a,i表示在第i个样本中在属性u上取值为a的样本数,k是样本个数,VDMP(a,b)表示在属性u上两个离散值a和b之间的VDM距离;
根据数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj),判断相似度,删除样本相似度区分较小的无效特征,是指:数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj)大于0.5-0.9时,判定为样本相似度区分较小的无效特征,删除。相似度区分依据数据集自身而定,相似度大小取决于距离大小,可设置距离阈值为数据集中最大距离的倍数(可选0.5~0.9)。
2)权重排序
基于特征对近距离样本的区分能力评估特征进行特征筛选,提取出的特征应该使同类样本接近,异类样本远离,基于Relief F思想,具体计算方法如下:
将步骤1)处理后的结构化的数据集随机分为两部分,大的部分作为训练集D,小的部分作为测试集;从训练集D中随机选择一个样本R,从和R同类的样本中寻找k最近邻样本H,从和R不同类的样本中寻找k最近邻样本M,按照公式(III)更新特征权重,A表示需要计算权重的特征:
式(III)中,diff(A,R1,R2)表示样本R1和样本R2在特征A上的差,R1[A]表示样本R1在特征A上的取值,R2[A]表示样本R2在特征A上的取值,max(A)表示在特征A上所有样本中的最大值,min(A)表示在特征A上所有样本中的最小值;
按照每个特征的权重从大到小进行排序,选择排序中的前几个最有效的特征作为特征向量。
实施例2
实施例1所述的一种数据特征预处理的方法的实现系统,如图1所示,包括依次连接的数据结构化单元、特征向量提取和构建单元,特征向量提取和构建单元包括依次连接的相似度计算模块及权重排序模块;
数据结构化单元用于实现步骤(1)的数据结构化过程;相似度计算模块用于实现步骤1)的相似度计算过程;权重排序模块用于实现步骤2)的权重排序过程。
实施例3
实施例1所述的一种数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用,如图2所示,包括步骤如下:
A、通过上述数据特征预处理的方法处理监狱数据,获得特征向量
监狱数据包括可量化字段和文本字段,可量化字段为待评估人员的多维度信息,包括人口数据维度、社会关系维度、生理维度、心理维度、犯罪信息维度和改造教育维度;文本字段为国家减假暂法律法规的相关内容;人口数据维度包括服刑人员的性别、年龄、受教育情况、职业就业、特殊技能、是否为三无人员;社会关系维度包括服刑人员的家庭结构、家庭经济水平、家庭教育程度、家庭变故、婚姻状况、社会交往对象、个人债务情况;生理维度包括身体健康状况(有无疾病、残疾)、成瘾状况、成瘾程度;心理维度包括情绪稳定指标、说谎指标、冲动性指标、认知状况、人格障碍、性格缺陷、报复性心理;犯罪信息维度包括刑期、犯罪类型、罪行危害程度、特定犯罪史、突发犯罪与预谋犯罪;改造教育维度包括亲情帮教、服刑信念、认罪悔罪、遵规守纪、劳动积分考评、学习形态、生活食宿、狱中人际交往。
对其中的离散类别字段进行标签编码,包括:性别、受教育情况、职业就业、特殊技能、是否为三无人员、家庭结构、家庭教育程度、家庭变故、婚姻状况、社会交往对象、身体健康状况、成瘾状况、成瘾程度、情绪稳定指标、说谎指标、冲动性指标、认知状况、人格障碍、性格缺陷、报复性心理、犯罪类型、罪行危害程度、特定犯罪史、突发犯罪与预谋犯罪、亲情帮教、服刑信念、认罪悔罪、遵规守纪、学习形态、生活食宿、狱中人际交往,进行数字化离散编码处理,针对每个字段的所有取值都用数字0、1、2等表示,即进行标签编码;性别包括男、女,受教育情况包括文盲、小学、初中、高中、大学、研究生及以上,职业就业包括无业、农民、商人,身体健康状况包括有无疾病、残疾;例如,人口数据维度中的教育程度包括文盲、小学、初中、高中、大学及以上,使得待评估人员的每一维度信息变换为数值量化的特征向量,对连续数值型字段进行归一化,例如,犯罪信息维度中的犯罪年龄属性是连续性,实现改造质量数据的结构化。
对于文本字段,对其进行规则提取,利用信息抽取和知识表示技术,提取出包括“减刑”、“假释”和“暂予监外执行”等关键字,并表示相对应的减假暂时间等规则,建立量化评估的结构化知识库;
B、构建、训练级联神经网络模型
目前常用的逻辑回归模型无法同时处理文本和数字信息,且在多维服刑人员的特征下学习能力较差,本发明提供的级联异构神经网络,集成BP神经网络的数据压缩能力与RBF神经网络任意精度的泛函逼近能力,即将BP神经网络与RBF神经网络串联,构成BP-RBF混合神经网络,可解决此领域的应用问题。BP神经网络、RBF神经网络的层与层之间没有连接,层间神经元全连接;
级联神经网络模型包括依次连接的BP神经网络、RBF神经网络、过滤模块;
BP神经网络依次包括第一输入层、第一隐藏层、第一输出层;
RBF神经网络依次包括第二输入层、第二隐藏层、第二输出层;
级联的BP神经网络、RBF神经网络的结构框图如图3所示。
BP神经网络第一输入层接收输入特征向量,第一输入层和第一隐藏层之间的权重矩阵W的第i行代表网络输入特征向量的第i个维度的权重,权重矩阵是神经网络训练学习时要优化的目标,权重矩阵的元素值代表了输入特征向量的权重信息;第一隐藏层用于BP神经网络的第一输入层和第一输出层的映射,第一隐藏层到第一输出层完成输入数据的压缩,压缩后的维度即为第一输出层的维度;
BP神经网络第一输出层的输出向量再作为RBF神经网络的输入向量进行分类;BP神经网络的第一输入层节点数为输入特征维度数目;RBF神经网络的第二输入层的节点数为BP神经网络输出节点数目,第二隐藏层中神经元的变换函数即径向基函数,是对中心点径向对称且衰减的非负线性函数,对输入向量进行空间映射的变换,即为非线性优化,第二输出层对第二隐藏层进行线性加权调整,即为线性优化;第二隐藏层采用非线性优化策略对第一隐藏层的激活函数(高斯函数)的参数(分布常数)进行调整,第二输出层采用线性优化策略对第二隐藏层的输出进行线性加权优化调整;因而学习速度较快。
设定过滤模块中关键字匹配程度的阈值0.75-0.9;通过正则化方法求取第二输出层输出的文本与结构化知识库中的文本匹配值,若第二输出层输出的文本与结构化知识库中的文本匹配值高于关键字匹配程度的阈值,则正常输出第二输出层输出的文本,若低于阈值,则对量化评估输出加入否决性约束,即若第二输出层输出结果为某犯人满足减刑,但根据基于国家减假暂法律法规建立的结构化知识库,该犯人还未完全符合减刑标准,则将输出结果修改为不满足减刑;以此来实现否决性约束,提高减假暂评估结论的严谨程度,重复训练数据的输入,直至级联神经网络模型训练过程中的损失函数不再下降后为止。损失函数采用交叉熵形式,进行性能评估与实际应用。
针对改造样本数量有限的问题,利用自助采样法,使用有放回重复采样的方式进行数据采样。
采用Dropout技术对级联神经网络模型的输入数据的分布进行估计,让第一层隐藏层的节点在每次迭代时(包括正向和反向传播)有一定概率(keep-prob)失效,第一层隐藏层节点在每次迭代时的失效概率p=0.5。即通过动态修改隐藏层的神经元个数来防止过拟合,提高模型泛化能力和模型准确率;
第一隐藏层的激活函数采用sigmoid函数,如公式(IV)所示:
式(IV)中,z是指从第一输入层传递到第一隐藏层的特征向量,σ(z)是第一隐藏层的输出,第一隐藏层和第一输出层之间同样有一个权重矩阵包含特征向量的权重信息。
BP神经网络的第一隐藏层节点数根据经验公式(V)求得:
式(V)中,h是第一隐藏层节点数,m和n分别是第一输入层和第一输出层节点的数目,a为1~10之间的调节常数。输出节点数为6。
径向基函数是局部响应函数,如公式(VI)所示:
式(VI)中,R(||dist||)表示神经网络的输入数据到中心点之间径向基距离的单调函数,dist表示采用的径向基函数,常用高斯径向基函数。
径向基函数采用高斯核函数,如公式(VII)所示:
式(VII)中,K(||X-Xc||)表示神经网络的输入数据X到中心点Xc的高斯距离,Xc为核函数中心,即RBF神经网络的第二隐藏层的节点,σ为函数的宽度参数,控制函数的径向作用范围;第二输入层和第二隐藏层之间是连接权值为1的连接。
在RBF神经网络中最重要的参数是径向基函数(采用高斯函数)的分布常数,在网络训练过程中通过网络预测误差来选择最优的径向基函数的分布常数,分布常数为dmax是神经网络输入数据中心之间的最大距离,M是数据中心的数目。通过在训练神经网络的过程中选择不同大小的分布常数得出不同大小的网络预测误差,预测误差越小,其对应的分布常数就最优。
本实施例在某监狱中采取的数据集上做了实验验证,将入监采集的数据集样本随机分割,选其中80%作为训练集,20%作为测试集,每个服刑人员样本都会对应一个标签,按照前述模型结构在训练方式,本模型在采集的结构化数据集的训练集上训练,在测试集上的评估准确率达到了85%。
Claims (10)
1.一种数据特征预处理的方法,其特征在于,包括步骤如下:
(1)数据结构化
原始数据包括可量化字段和文本字段;
对于所述可量化字段,对其中的离散类别字段进行标签编码,对连续数值型字段进行归一化;
对于所述文本字段,对其进行规则提取,利用信息抽取和知识表示技术,提取出关键字,并表示相对应的规则,建立结构化知识库;
(2)特征向量提取和构建
对于步骤(1)处理后的可量化字段,判断相似度,删除样本相似度区分较小的无效特征,并选择最有效的特征作为特征向量。
2.根据权利要求1所述的一种数据特征预处理的方法,其特征在于,特征向量提取和构建,包括步骤如下:
1)相似度计算
结合闵可夫斯基距离和VDM距离,求取数据集中的混合属性的距离,数据集是指结构化知识库里的数据,混合属性包括有序属性和无序属性,计算方法如下:
若在数据集X′有nc个连续有序属性,n-nc个无序属性),连续数值型字段对应的是有序属性,离散类别字段对应的是无序属性,给出数据样本xi=(xi1;xi2;…;xin)与xj=(xj1;xj2;…;xjn),xi1;xi2;…;xin是数据样本xi在所有混合属性中的取值,xj1;xj2;…;xjn是数据样本xj在所有混合属性中的取值,通过式(Ⅰ)计算出数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj):
式(Ⅰ)中,xiu和xju分别是数据样本xi和xj在第u个属性上的取值,nc是有序属性的个数,p≥1,n是属性的总个数,VDM算法公式如式(Ⅱ)所示:
式(Ⅱ)中,b=xju,a=xiu,mu,a表示在属性u上取值为a的样本数,mu,a,i表示在第i个样本中在属性u上取值为a的样本数,6是样本个数,VDMP(a,b)表示在属性u上两个离散值a和b之间的VDM距离;
根据数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj),判断相似度,删除样本相似度区分较小的无效特征;
2)权重排序
基于特征对近距离样本的区分能力评估特征进行特征筛选,提取出的特征应该使同类样本接近,异类样本远离,基于Relief F思想,具体计算方法如下:
将步骤1)处理后的结构化的数据集随机分为两部分,大的部分作为训练集D,小的部分作为测试集;从训练集D中随机选择一个样本R,从和R同类的样本中寻找k最近邻样本H,从和R不同类的样本中寻找k最近邻样本M,按照公式(Ⅲ)更新特征权重,A表示需要计算权重的特征:
式(Ⅲ)中,diff(A,R1,R2)表示样本R1和样本R2在特征A上的差,R1[A]表示样本R1在特征A上的取值,R2[A]表示样本R2在特征A上的取值,max(A)表示在特征A上所有样本中的最大值,min(A)表示在特征A上所有样本中的最小值;
按照每个特征的权重从大到小进行排序,选择排序中的前几个最有效的特征作为特征向量。
3.根据权利要求2所述的一种数据特征预处理的方法,其特征在于,判断相似度,删除样本相似度区分较小的无效特征,是指:数据样本xi和数据样本xj的混合属性的距离MinkovDMP(xi,xj)大于0.5-0.9时,判定为样本相似度区分较小的无效特征,删除。
4.权利要求1-3任一所述数据预处理的方法的实现系统,其特征在于,包括依次连接的数据结构化单元、特征向量提取和构建单元,所述特征向量提取和构建单元包括依次连接的相似度计算模块及权重排序模块;
所述数据结构化单元用于实现所述步骤(1)的数据结构化过程;所述相似度计算模块用于实现所述步骤1)的相似度计算过程;所述权重排序模块用于实现所述步骤2)的权重排序过程。
5.权利要求1-3任一所述数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用,其特征在于,包括步骤如下:
A、通过上述数据特征预处理的方法处理监狱数据,获得特征向量
监狱数据包括可量化字段和文本字段,所述可量化字段为待评估人员的多维度信息,包括人口数据维度、社会关系维度、生理维度、心理维度、犯罪信息维度和改造教育维度;所述文本字段为国家减假暂法律法规的相关内容;
B、构建、训练级联神经网络模型
级联神经网络模型包括依次连接的BP神经网络、RBF神经网络、过滤模块;
BP神经网络依次包括第一输入层、第一隐藏层、第一输出层;
RBF神经网络依次包括第二输入层、第二隐藏层、第二输出层;
BP神经网络第一输入层接收输入特征向量,第一输入层和第一隐藏层之间的权重矩阵W的第i行代表网络输入特征向量的第i个维度的权重,权重矩阵是神经网络训练学习时要优化的目标,权重矩阵的元素值代表了输入特征向量的权重信息;第一隐藏层用于BP神经网络的第一输入层和第一输出层的映射,第一隐藏层到第一输出层完成输入数据的压缩,压缩后的维度即为第一输出层的维度;
BP神经网络第一输出层的输出向量再作为RBF神经网络的输入向量进行分类;BP神经网络的第一输入层节点数为输入特征维度数目;RBF神经网络的第二输入层的节点数为BP神经网络输出节点数目,第二隐藏层中神经元的变换函数即径向基函数,是对中心点径向对称且衰减的非负线性函数,对输入向量进行空间映射的变换,即为非线性优化,第二输出层对第二隐藏层进行线性加权调整,即为线性优化;第二隐藏层采用非线性优化策略对第一隐藏层的激活函数的参数进行调整,第二输出层采用线性优化策略对第二隐藏层的输出进行线性加权优化调整;
设定过滤模块中关键字匹配程度的阈值0.75-0.9;通过正则化方法求取第二输出层输出的文本与结构化知识库中的文本匹配值,若第二输出层输出的文本与结构化知识库中的文本匹配值高于关键字匹配程度的阈值,则正常输出第二输出层输出的文本,若低于阈值,则对量化评估输出加入否决性约束,重复训练数据的输入,直至级联神经网络模型训练过程中的损失函数不再下降后为止。
6.根据权利要求5所述的数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用,其特征在于,采用Dropout技术对级联神经网络模型的输入数据的分布进行估计,让第一层隐藏层的节点在每次迭代时有一定概率失效,第一层隐藏层节点在每次迭代时的失效概率p=0.5。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035856.1A CN110837523A (zh) | 2019-10-29 | 2019-10-29 | 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法 |
CN2019110358561 | 2019-10-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112199415A true CN112199415A (zh) | 2021-01-08 |
Family
ID=69575745
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035856.1A Pending CN110837523A (zh) | 2019-10-29 | 2019-10-29 | 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法 |
CN202011040887.9A Pending CN112199415A (zh) | 2019-10-29 | 2020-09-28 | 一种数据特征预处理的方法及其实现系统和应用 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035856.1A Pending CN110837523A (zh) | 2019-10-29 | 2019-10-29 | 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN110837523A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065088A (zh) * | 2021-03-29 | 2021-07-02 | 重庆富民银行股份有限公司 | 基于特征缩放的数据预处理方法 |
CN114896467A (zh) * | 2022-04-24 | 2022-08-12 | 北京月新时代科技股份有限公司 | 基于神经网络的字段匹配方法和数据智能录入方法 |
CN115408552A (zh) * | 2022-07-28 | 2022-11-29 | 深圳市磐鼎科技有限公司 | 显示调整方法、装置、设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021105291A1 (de) * | 2020-03-16 | 2021-09-16 | Nvidia Corporation | Gewichtsdemodulation für ein erzeugendes neuronales netz |
CN113593674B (zh) * | 2020-04-30 | 2024-05-31 | 北京心数矩阵科技有限公司 | 一种基于结构化神经网络的性格影响因子分析方法 |
CN111967355B (zh) * | 2020-07-31 | 2023-09-01 | 华南理工大学 | 一种基于肢体语言的服刑人员越狱意图评估方法 |
CN115545570B (zh) * | 2022-11-28 | 2023-03-24 | 四川大学华西医院 | 一种护理教育培训的成果验收方法及系统 |
CN116913435B (zh) * | 2023-07-27 | 2024-01-26 | 常州威材新材料科技有限公司 | 一种基于成分分析的高强度工程塑料评估方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935286A (zh) * | 2019-02-26 | 2019-06-25 | 重庆善功科技有限公司 | 基于逻辑回归的人工授精成功率影响因素计算方法与系统 |
CN110046740A (zh) * | 2019-02-21 | 2019-07-23 | 国网福建省电力有限公司 | 基于大数据的供应商投标行为分析预测方法 |
CN110362596A (zh) * | 2019-07-04 | 2019-10-22 | 上海润吧信息技术有限公司 | 一种文本抽取信息结构化数据处理的控制方法及装置 |
-
2019
- 2019-10-29 CN CN201911035856.1A patent/CN110837523A/zh active Pending
-
2020
- 2020-09-28 CN CN202011040887.9A patent/CN112199415A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046740A (zh) * | 2019-02-21 | 2019-07-23 | 国网福建省电力有限公司 | 基于大数据的供应商投标行为分析预测方法 |
CN109935286A (zh) * | 2019-02-26 | 2019-06-25 | 重庆善功科技有限公司 | 基于逻辑回归的人工授精成功率影响因素计算方法与系统 |
CN110362596A (zh) * | 2019-07-04 | 2019-10-22 | 上海润吧信息技术有限公司 | 一种文本抽取信息结构化数据处理的控制方法及装置 |
Non-Patent Citations (3)
Title |
---|
李晓云,王晓凯: "《基于BP-RBF组合神经网络的废气监测盲区SO2浓度预测》", 《测试技术学报》 * |
王宏杰: "《基于聚类集成的半监督分类算法研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
褚娜: "《基于混合智能的中医辨证系统研究》", 《中国优秀博硕学位论文全文数据库(博士)医药卫生科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065088A (zh) * | 2021-03-29 | 2021-07-02 | 重庆富民银行股份有限公司 | 基于特征缩放的数据预处理方法 |
CN114896467A (zh) * | 2022-04-24 | 2022-08-12 | 北京月新时代科技股份有限公司 | 基于神经网络的字段匹配方法和数据智能录入方法 |
CN114896467B (zh) * | 2022-04-24 | 2024-02-09 | 北京月新时代科技股份有限公司 | 基于神经网络的字段匹配方法和数据智能录入方法 |
CN115408552A (zh) * | 2022-07-28 | 2022-11-29 | 深圳市磐鼎科技有限公司 | 显示调整方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110837523A (zh) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199415A (zh) | 一种数据特征预处理的方法及其实现系统和应用 | |
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN110442684B (zh) | 一种基于文本内容的类案推荐方法 | |
Passalis et al. | Time-series classification using neural bag-of-features | |
Jain et al. | Machine learning techniques for prediction of mental health | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112528163B (zh) | 一种基于图卷积网络的社交平台用户职业预测方法 | |
CN113749657A (zh) | 一种基于多任务胶囊的脑电情绪识别方法 | |
Gohar et al. | Terrorist group prediction using data classification | |
Yulita et al. | Multichannel electroencephalography-based emotion recognition using machine learning | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN111312394A (zh) | 一种基于组合情感的心理健康状况评估系统及其处理方法 | |
Dehnavi et al. | The risk prediction of heart disease by using neuro-fuzzy and improved GOA | |
CN114898775B (zh) | 一种基于跨层交叉融合的语音情绪识别方法及系统 | |
CN116028803A (zh) | 一种基于敏感属性再平衡的去偏方法 | |
Chen et al. | Heart Disease Prediction Method Based On ANN | |
CN113361652A (zh) | 一种面向个体收入预测的去偏方法及装置 | |
Ayap et al. | A biomedical voice measurement diagnosis of Parkinson’s disease through the utilization of artificial neural network | |
Guo | Comparison of neural network and traditional classifiers for twitter sentiment analysis | |
Joshi et al. | Comparative Analysis of Deep-Learning techniques for Depressive Text Classification | |
CN110888996A (zh) | 一种基于范围卷积神经网络的文本分类方法 | |
CN110928924A (zh) | 基于神经网络的电力系统客户满意度分析与预测方法 | |
Jebaseeli | Neural network classification algorithm with M-learning reviews to improve the classification accuracy | |
Singh et al. | Facial Emotion Detection Using CNN-Based Neural Network | |
Vinutha et al. | Genetic algorithm based Architectural framework for Natural Language Based Question Answering System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210108 |
|
WD01 | Invention patent application deemed withdrawn after publication |