CN112199415A

CN112199415A - 一种数据特征预处理的方法及其实现系统和应用

Info

Publication number: CN112199415A
Application number: CN202011040887.9A
Authority: CN
Inventors: 李玉军; 邓媛洁; 魏莹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-10-29
Filing date: 2020-09-28
Publication date: 2021-01-08
Also published as: CN110837523A

Abstract

本发明涉及一种数据预处理的方法及其实现系统和应用，包括：(1)数据结构化：原始数据包括可量化字段和文本字段；对于可量化字段，对其中的离散类别字段进行标签编码，对连续数值型字段进行归一化；对于文本字段，对其进行规则提取，利用信息抽取和知识表示技术，提取出关键字，并表示相对应的规则，建立结构化知识库；(2)特征向量提取和构建：对于步骤(1)处理后的可量化字段，判断相似度，删除样本相似度区分较小的无效特征，并选择最有效的特征作为特征向量。本发明针对文本性数据文件，基于知识抽取和表示技术，本发明提出关键字和规则的提取和量化方法，建立结构化知识库，以进行量化评估。

Description

一种数据特征预处理的方法及其实现系统和应用

技术领域

本发明涉及一种数据特征预处理的方法及其实现系统和应用，属于神经网络技术领域。

背景技术

信息化社会的发展产生了海量的数据，人们需要时时刻刻处理多种维度、各种形态的数据来进行生产和生活，获取各种音视频文件、传感器数据等信息。目前数据预处理的常见方法包括数据清洗、数据集成和数据变换等。针对不同形态的数据要选择不同的预处理方法，对较高维度的数据特征需要降维，剔除冗余数据，不同方法会不同程度的影响数据应用的效果，因此能处理涵盖结构化字段和非结构化文本信息的高维数据特征处理方法较少。

目前在判定服刑人员是否符合“减假暂”(减刑、假释及暂缓执行)的规范时，需要法官翻阅大量的法律文书做出判决，消耗大量的人力物力，同时会产生一定的主观性，缺少针对判决的量化评估方法。目前对大数据的处理方法向着智能化、自动化的方向发展，各种工作也逐渐由智能机器所代替，人类社会与智能机器的交叉越来越多，在这样的时代背景下，智能、方便的人机交互变得越来越重要。

发明内容

针对现有技术的不足，本发明提出了一种数据特征预处理的方法；

本发明还提供了上述数据特征预处理的方法的实现系统；

本发明另外还提供了上述数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用；其中用到了本发明提供的一种基于BP(Back Propagation)神经网络和RBF(Radical Basis Function)神经网络两种异构神经网络融合的级联神经网络模型，集成BP神经网络的数据压缩能力和RBF神经网络任意精度的泛函逼近能力，从而解决评估数据的多维非线性问题。可以有效的利用建立的服刑人员多维信息数据库，利用关联数据神经网络优化技术，来提高服刑人员减假暂量化评估的准确性。

术语解释：

1、闵可夫斯基距离，衡量数值点之间距离的一种方法。

2、VDM距离，衡量样本簇中无序属性间距离的一种方法。

3、异构神经网络：是指两种结构不同的神经网络。

4、网络融合：将两种不同的神经网络搭建成前后级联的结构，前级神经网络的输入是整个网络的输入，其输出作为后级神经网络的输入，后级神经网络的输出作为整个网络结构的输出。

本发明的技术方案为：

一种数据特征预处理的方法，包括步骤如下：

(1)数据结构化

原始数据按数据类型可分为两类，包括可量化字段和文本字段；

数据结构化，构建特征向量：结构化数据，是指有严格的数据格式和长度规范的数据。

对于所述可量化字段，对其中的离散类别字段进行标签编码，对连续数值型字段进行归一化；

对于所述文本字段，对其进行规则提取，利用信息抽取和知识表示技术，提取出关键字，并表示相对应的规则，建立结构化知识库；如输入最高人民法院关于办理减刑案件法律规定内容，输出固定格式的信息点，包括“减刑规则”、“减刑时间”、“减刑间隔”等。

(2)特征向量提取和构建

对于步骤(1)处理后的可量化字段，判断相似度，删除样本相似度区分较小的无效特征，并选择最有效的特征作为特征向量。

进一步优选的，特征向量提取和构建，包括步骤如下：

1)相似度计算

针对连续数值型字段，直接在属性值上计算闵可夫斯基距离；例如，“1”与“2”更接近，与“3”距离较远，此时采用闵可夫斯基距离计算；针对离散类别字段，如职业的“无业”、“商人”、“农民”等不能直接在属性值上计算距离，采用VDM(Value Difference Metric)算法计算VDM距离；

结合闵可夫斯基距离和VDM距离，求取数据集中的混合属性的距离，数据集是指结构化知识库里的数据，混合属性包括有序属性和无序属性，计算方法如下：

若在数据集X′有n_c个连续有序属性，n-n_c个无序属性)，连续数值型字段对应的是有序属性，离散类别字段对应的是无序属性，给出数据样本x_i＝(x_i1；x_i2；...；x_in)与x_j＝(x_j1；x_j2；...；x_jn)，x_i1；x_i2；...；x_in是数据样本x_i在所有混合属性中的取值，x_j1；x_j2；...；x_jn是数据样本x_j在所有混合属性中的取值，通过式(I)计算出数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)：

式(I)中，x_iu和x_ju分别是数据样本x_i和x_j在第u个属性上的取值，n_c是有序属性的个数，p≥1，n是属性的总个数，VDM算法公式如式(II)所示：

式(II)中，b＝x_ju，a＝x_iu，m_u，a表示在属性u上取值为a的样本数，m_u，a，i表示在第i个样本中在属性u上取值为a的样本数，k是样本个数，VDM_P(a，b)表示在属性u上两个离散值a和b之间的VDM距离；

根据数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)，判断相似度，删除样本相似度区分较小的无效特征；

2)权重排序

基于特征对近距离样本的区分能力评估特征进行特征筛选，提取出的特征应该使同类样本接近，异类样本远离，基于Relief F思想，具体计算方法如下：

将步骤1)处理后的结构化的数据集随机分为两部分，大的部分作为训练集D，小的部分作为测试集；从训练集D中随机选择一个样本R，从和R同类的样本中寻找k最近邻样本H，从和R不同类的样本中寻找k最近邻样本M，按照公式(III)更新特征权重，A表示需要计算权重的特征：

式(III)中，diff(A，R₁，R₂)表示样本R₁和样本R₂在特征A上的差，R₁[A]表示样本R₁在特征A上的取值，R₂[A]表示样本R₂在特征A上的取值，max(A)表示在特征A上所有样本中的最大值，min(A)表示在特征A上所有样本中的最小值；

按照每个特征的权重从大到小进行排序，选择排序中的前几个最有效的特征作为特征向量。

进一步优选的，判断相似度，删除样本相似度区分较小的无效特征，是指：数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)大于0.5-0.9时，判定为样本相似度区分较小的无效特征，删除。相似度区分依据数据集自身而定，相似度大小取决于距离大小，可设置距离阈值为数据集中最大距离的倍数(可选0.5～0.9)。

上述数据特征预处理的方法的实现系统，包括依次连接的数据结构化单元、特征向量提取和构建单元，所述特征向量提取和构建单元包括依次连接的相似度计算模块及权重排序模块；

所述数据结构化单元用于实现所述步骤(1)的数据结构化过程；所述相似度计算模块用于实现所述步骤1)的相似度计算过程；所述权重排序模块用于实现所述步骤2)的权重排序过程。

上述数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，包括步骤如下：

A、通过上述数据特征预处理的方法处理监狱数据，获得特征向量

监狱数据包括可量化字段和文本字段，所述可量化字段为待评估人员的多维度信息，包括人口数据维度、社会关系维度、生理维度、心理维度、犯罪信息维度和改造教育维度；所述文本字段为国家减假暂法律法规的相关内容；

对其中的离散类别字段进行标签编码，例如，人口数据维度中的教育程度包括文盲、小学、初中、高中、大学及以上，使得待评估人员的每一维度信息变换为数值量化的特征向量，对连续数值型字段进行归一化，例如，犯罪信息维度中的犯罪年龄属性是连续性，实现改造质量数据的结构化。

对于所述文本字段，对其进行规则提取，利用信息抽取和知识表示技术，提取出包括“减刑”、“假释”和“暂予监外执行”等关键字，并表示相对应的减假暂时间等规则，建立量化评估的结构化知识库；

B、构建、训练级联神经网络模型

目前常用的逻辑回归模型无法同时处理文本和数字信息，且在多维服刑人员的特征下学习能力较差，本发明提供的级联异构神经网络，集成BP神经网络的数据压缩能力与RBF神经网络任意精度的泛函逼近能力，即将BP神经网络与RBF神经网络串联，构成BP-RBF混合神经网络，可解决此领域的应用问题。BP神经网络、RBF神经网络的层与层之间没有连接，层间神经元全连接；

级联神经网络模型包括依次连接的BP神经网络、RBF神经网络、过滤模块；

BP神经网络依次包括第一输入层、第一隐藏层、第一输出层；

RBF神经网络依次包括第二输入层、第二隐藏层、第二输出层；

BP神经网络第一输入层接收输入特征向量，第一输入层和第一隐藏层之间的权重矩阵W的第i行代表网络输入特征向量的第i个维度的权重，权重矩阵是神经网络训练学习时要优化的目标，权重矩阵的元素值代表了输入特征向量的权重信息；第一隐藏层用于BP神经网络的第一输入层和第一输出层的映射，第一隐藏层到第一输出层完成输入数据的压缩，压缩后的维度即为第一输出层的维度；

BP神经网络第一输出层的输出向量再作为RBF神经网络的输入向量进行分类；BP神经网络的第一输入层节点数为输入特征维度数目；RBF神经网络的第二输入层的节点数为BP神经网络输出节点数目，第二隐藏层中神经元的变换函数即径向基函数，是对中心点径向对称且衰减的非负线性函数，对输入向量进行空间映射的变换，即为非线性优化，第二输出层对第二隐藏层进行线性加权调整，即为线性优化；第二隐藏层采用非线性优化策略对第一隐藏层的激活函数(高斯函数)的参数(分布常数)进行调整，第二输出层采用线性优化策略对第二隐藏层的输出进行线性加权优化调整；因而学习速度较快。

设定过滤模块中关键字匹配程度的阈值0.75-0.9；通过正则化方法求取第二输出层输出的文本与结构化知识库中的文本匹配值，若第二输出层输出的文本与结构化知识库中的文本匹配值高于关键字匹配程度的阈值，则正常输出第二输出层输出的文本，若低于阈值，则对量化评估输出加入否决性约束，即若第二输出层输出结果为某犯人满足减刑，但根据基于国家减假暂法律法规建立的结构化知识库，该犯人还未完全符合减刑标准，则将输出结果修改为不满足减刑；以此来实现否决性约束，提高减假暂评估结论的严谨程度，重复训练数据的输入，直至级联神经网络模型训练过程中的损失函数不再下降后为止。损失函数采用交叉熵形式，进行性能评估与实际应用。

针对改造样本数量有限的问题，利用自助采样法，使用有放回重复采样的方式进行数据采样。

根据本发明优选的，采用Dropout技术对级联神经网络模型的输入数据的分布进行估计，让第一层隐藏层的节点在每次迭代时(包括正向和反向传播)有一定概率(keep-prob)失效，第一层隐藏层节点在每次迭代时的失效概率p＝0.5。即通过动态修改隐藏层的神经元个数来防止过拟合，提高模型泛化能力和模型准确率；

根据本发明优选的，所述第一隐藏层的激活函数采用sigmoid函数，如公式(IV)所示：

式(IV)中，z是指从第一输入层传递到第一隐藏层的特征向量，σ(z)是第一隐藏层的输出，第一隐藏层和第一输出层之间同样有一个权重矩阵包含特征向量的权重信息。

根据本发明优选的，BP神经网络的第一隐藏层节点数根据经验公式(V)求得：

式(V)中，h是第一隐藏层节点数，m和n分别是第一输入层和第一输出层节点的数目，a为1～10之间的调节常数。输出节点数为6。

根据本发明优选的，径向基函数是局部响应函数，如公式(VI)所示：

式(VI)中，R(||dist||)表示神经网络的输入数据到中心点之间径向基距离的单调函数，dist表示采用的径向基函数，常用高斯径向基函数。

根据本发明优选的，径向基函数采用高斯核函数，如公式(VII)所示：

式(VII)中，K(||X-X_c||)表示神经网络的输入数据X到中心点X_c的高斯距离，X_c为核函数中心，即RBF神经网络的第二隐藏层的节点，σ为函数的宽度参数，控制函数的径向作用范围；第二输入层和第二隐藏层之间是连接权值为1的连接。

在RBF神经网络中最重要的参数是径向基函数(采用高斯函数)的分布常数，在网络训练过程中通过网络预测误差来选择最优的径向基函数的分布常数，分布常数为

d_max是神经网络输入数据中心之间的最大距离，M是数据中心的数目。通过在训练神经网络的过程中选择不同大小的分布常数得出不同大小的网络预测误差，预测误差越小，其对应的分布常数就最优。

本发明的有益效果为：

1、针对服刑人员改造数据具有高维度、高噪声的特点，本发明提出了一种级联异构级联神经网络，结合BP神经网络和RBF神经网络的数据压缩能力和任意精度的泛函逼近能力，该模型结合了BP神经网络的学习能力强、自适应度高以及RBF神经网络收敛快、群分类性能好的优点，实现系统模型训练的局部梯度端到端的高效传递。

2、针对文本性数据文件，基于知识抽取和表示技术，本发明提出关键字和规则的提取和量化方法，建立结构化知识库，以进行量化评估。

3、本发明提供一种特征挖掘的方法，度量混合数据属性间距离，并根据权重对特征排序，提取出对服刑人员减假暂评估的字段。

4、本发明加入过滤模块，在小样本数量的数据库中训练得到较好的效果。

附图说明

图1为本发明数据特征预处理的方法的实现系统的结构框图；

图2为本发明数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用的流程示意图；

图3为级联的BP神经网络、RBF神经网络的结构框图；

图4为本发明的服刑人员数据预处理和特征向量构建方法示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种数据特征预处理的方法，如图4所示，包括步骤如下：

(1)数据结构化

对于可量化字段，对其中的离散类别字段进行标签编码，对连续数值型字段进行归一化；

对于文本字段，对其进行规则提取，利用信息抽取和知识表示技术，提取出关键字，并表示相对应的规则，建立结构化知识库；如输入最高人民法院关于办理减刑案件法律规定内容，输出固定格式的信息点，包括“减刑规则”、“减刑时间”、“减刑间隔”等。

(2)特征向量提取和构建

特征向量提取和构建，包括步骤如下：

1)相似度计算

根据数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)，判断相似度，删除样本相似度区分较小的无效特征，是指：数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)大于0.5-0.9时，判定为样本相似度区分较小的无效特征，删除。相似度区分依据数据集自身而定，相似度大小取决于距离大小，可设置距离阈值为数据集中最大距离的倍数(可选0.5～0.9)。

2)权重排序

实施例2

实施例1所述的一种数据特征预处理的方法的实现系统，如图1所示，包括依次连接的数据结构化单元、特征向量提取和构建单元，特征向量提取和构建单元包括依次连接的相似度计算模块及权重排序模块；

数据结构化单元用于实现步骤(1)的数据结构化过程；相似度计算模块用于实现步骤1)的相似度计算过程；权重排序模块用于实现步骤2)的权重排序过程。

实施例3

实施例1所述的一种数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，如图2所示，包括步骤如下：

监狱数据包括可量化字段和文本字段，可量化字段为待评估人员的多维度信息，包括人口数据维度、社会关系维度、生理维度、心理维度、犯罪信息维度和改造教育维度；文本字段为国家减假暂法律法规的相关内容；人口数据维度包括服刑人员的性别、年龄、受教育情况、职业就业、特殊技能、是否为三无人员；社会关系维度包括服刑人员的家庭结构、家庭经济水平、家庭教育程度、家庭变故、婚姻状况、社会交往对象、个人债务情况；生理维度包括身体健康状况(有无疾病、残疾)、成瘾状况、成瘾程度；心理维度包括情绪稳定指标、说谎指标、冲动性指标、认知状况、人格障碍、性格缺陷、报复性心理；犯罪信息维度包括刑期、犯罪类型、罪行危害程度、特定犯罪史、突发犯罪与预谋犯罪；改造教育维度包括亲情帮教、服刑信念、认罪悔罪、遵规守纪、劳动积分考评、学习形态、生活食宿、狱中人际交往。

对其中的离散类别字段进行标签编码，包括：性别、受教育情况、职业就业、特殊技能、是否为三无人员、家庭结构、家庭教育程度、家庭变故、婚姻状况、社会交往对象、身体健康状况、成瘾状况、成瘾程度、情绪稳定指标、说谎指标、冲动性指标、认知状况、人格障碍、性格缺陷、报复性心理、犯罪类型、罪行危害程度、特定犯罪史、突发犯罪与预谋犯罪、亲情帮教、服刑信念、认罪悔罪、遵规守纪、学习形态、生活食宿、狱中人际交往，进行数字化离散编码处理，针对每个字段的所有取值都用数字0、1、2等表示，即进行标签编码；性别包括男、女，受教育情况包括文盲、小学、初中、高中、大学、研究生及以上，职业就业包括无业、农民、商人，身体健康状况包括有无疾病、残疾；例如，人口数据维度中的教育程度包括文盲、小学、初中、高中、大学及以上，使得待评估人员的每一维度信息变换为数值量化的特征向量，对连续数值型字段进行归一化，例如，犯罪信息维度中的犯罪年龄属性是连续性，实现改造质量数据的结构化。

对于文本字段，对其进行规则提取，利用信息抽取和知识表示技术，提取出包括“减刑”、“假释”和“暂予监外执行”等关键字，并表示相对应的减假暂时间等规则，建立量化评估的结构化知识库；

B、构建、训练级联神经网络模型

级联的BP神经网络、RBF神经网络的结构框图如图3所示。

采用Dropout技术对级联神经网络模型的输入数据的分布进行估计，让第一层隐藏层的节点在每次迭代时(包括正向和反向传播)有一定概率(keep-prob)失效，第一层隐藏层节点在每次迭代时的失效概率p＝0.5。即通过动态修改隐藏层的神经元个数来防止过拟合，提高模型泛化能力和模型准确率；

第一隐藏层的激活函数采用sigmoid函数，如公式(IV)所示：

BP神经网络的第一隐藏层节点数根据经验公式(V)求得：

径向基函数是局部响应函数，如公式(VI)所示：

径向基函数采用高斯核函数，如公式(VII)所示：

本实施例在某监狱中采取的数据集上做了实验验证，将入监采集的数据集样本随机分割，选其中80％作为训练集，20％作为测试集，每个服刑人员样本都会对应一个标签，按照前述模型结构在训练方式，本模型在采集的结构化数据集的训练集上训练，在测试集上的评估准确率达到了85％。

Claims

1.一种数据特征预处理的方法，其特征在于，包括步骤如下：

(1)数据结构化

原始数据包括可量化字段和文本字段；

对于所述文本字段，对其进行规则提取，利用信息抽取和知识表示技术，提取出关键字，并表示相对应的规则，建立结构化知识库；

(2)特征向量提取和构建

2.根据权利要求1所述的一种数据特征预处理的方法，其特征在于，特征向量提取和构建，包括步骤如下：

1)相似度计算

若在数据集X′有n_c个连续有序属性，n-n_c个无序属性)，连续数值型字段对应的是有序属性，离散类别字段对应的是无序属性，给出数据样本x_i＝(x_i1；x_i2；…；x_in)与x_j＝(x_j1；x_j2；…；x_jn)，x_i1；x_i2；…；x_in是数据样本x_i在所有混合属性中的取值，x_j1；x_j2；…；x_jn是数据样本x_j在所有混合属性中的取值，通过式(Ⅰ)计算出数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)：

式(Ⅰ)中，x_iu和x_ju分别是数据样本x_i和x_j在第u个属性上的取值，n_c是有序属性的个数，p≥1，n是属性的总个数，VDM算法公式如式(Ⅱ)所示：

式(Ⅱ)中，b＝x_ju，a＝x_iu，m_u,a表示在属性u上取值为a的样本数，m_u,a,i表示在第i个样本中在属性u上取值为a的样本数，6是样本个数，VDM_P(a,b)表示在属性u上两个离散值a和b之间的VDM距离；

2)权重排序

将步骤1)处理后的结构化的数据集随机分为两部分，大的部分作为训练集D，小的部分作为测试集；从训练集D中随机选择一个样本R，从和R同类的样本中寻找k最近邻样本H，从和R不同类的样本中寻找k最近邻样本M，按照公式(Ⅲ)更新特征权重，A表示需要计算权重的特征：

式(Ⅲ)中，diff(A,R₁,R₂)表示样本R₁和样本R₂在特征A上的差，R₁[A]表示样本R₁在特征A上的取值，R₂[A]表示样本R₂在特征A上的取值，max(A)表示在特征A上所有样本中的最大值，min(A)表示在特征A上所有样本中的最小值；

3.根据权利要求2所述的一种数据特征预处理的方法，其特征在于，判断相似度，删除样本相似度区分较小的无效特征，是指：数据样本x_i和数据样本x_j的混合属性的距离MinkovDM_P(x_i，x_j)大于0.5-0.9时，判定为样本相似度区分较小的无效特征，删除。

4.权利要求1-3任一所述数据预处理的方法的实现系统，其特征在于，包括依次连接的数据结构化单元、特征向量提取和构建单元，所述特征向量提取和构建单元包括依次连接的相似度计算模块及权重排序模块；

5.权利要求1-3任一所述数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，其特征在于，包括步骤如下：

B、构建、训练级联神经网络模型

BP神经网络第一输出层的输出向量再作为RBF神经网络的输入向量进行分类；BP神经网络的第一输入层节点数为输入特征维度数目；RBF神经网络的第二输入层的节点数为BP神经网络输出节点数目，第二隐藏层中神经元的变换函数即径向基函数，是对中心点径向对称且衰减的非负线性函数，对输入向量进行空间映射的变换，即为非线性优化，第二输出层对第二隐藏层进行线性加权调整，即为线性优化；第二隐藏层采用非线性优化策略对第一隐藏层的激活函数的参数进行调整，第二输出层采用线性优化策略对第二隐藏层的输出进行线性加权优化调整；

设定过滤模块中关键字匹配程度的阈值0.75-0.9；通过正则化方法求取第二输出层输出的文本与结构化知识库中的文本匹配值，若第二输出层输出的文本与结构化知识库中的文本匹配值高于关键字匹配程度的阈值，则正常输出第二输出层输出的文本，若低于阈值，则对量化评估输出加入否决性约束，重复训练数据的输入，直至级联神经网络模型训练过程中的损失函数不再下降后为止。

6.根据权利要求5所述的数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，其特征在于，采用Dropout技术对级联神经网络模型的输入数据的分布进行估计，让第一层隐藏层的节点在每次迭代时有一定概率失效，第一层隐藏层节点在每次迭代时的失效概率p＝0.5。

7.根据权利要求5所述的数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，其特征在于，所述第一隐藏层的激活函数采用sigmoid函数，如公式(Ⅳ)所示：

式(Ⅳ)中，z是指从第一输入层传递到第一隐藏层的特征向量，σ(z)是第一隐藏层的输出，第一隐藏层和第一输出层之间同样有一个权重矩阵包含特征向量的权重信息。

8.根据权利要求5所述的数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，其特征在于，BP神经网络的第一隐藏层节点数根据经验公式(Ⅴ)求得：

式(Ⅴ)中，h是第一隐藏层节点数，m和n分别是第一输入层和第一输出层节点的数目，a为1～10之间的调节常数。

9.根据权利要求5所述的数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，其特征在于，径向基函数是局部响应函数，如公式(Ⅵ)所示：

式(Ⅵ)中，R(||dist||)表示神经网络的输入数据到中心点之间径向基距离的单调函数，dist表示采用的径向基函数，常用高斯径向基函数。

10.根据权利要求5所述的数据特征预处理的方法在判决服刑人员是否符合减假暂条件方面的应用，其特征在于，径向基函数采用高斯核函数，如公式(Ⅶ)所示：

式(Ⅶ)中，K(||X-X_c||)表示神经网络的输入数据X到中心点X_c的高斯距离，X_c为核函数中心，即RBF神经网络的第二隐藏层的节点，σ为函数的宽度参数，控制函数的径向作用范围；第二输入层和第二隐藏层之间是连接权值为1的连接。