CN111125186A

CN111125186A - 一种基于调查问卷的数据处理方法及系统

Info

Publication number: CN111125186A
Application number: CN201911168069.4A
Authority: CN
Inventors: 邢云冰; 潘志文; 陈益强; 戴连君; 张钧
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-05-08
Anticipated expiration: 2039-11-25
Also published as: CN111125186B

Abstract

本发明提出一种基于调查问卷的数据处理方法及系统，包括：步骤1、通过调查问卷中的回答内容，得到原始数据集，并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据，通过线性回归填补该原始数据集中空缺数据，得到第一数据集；步骤2、对该第一数据集进行质量筛查，剔除该第一数据集中错误数据和低质量数据，得到第二数据集，并对该第二数据集中冗余属性进行标记，得到预处理数据集，并将该预处理数据集输入至预设数据分析模型，得到分析结果。本发明可解决原始数据中的虚假信息难以过滤、属性冗余、难以直接处理原始数据中多选问题数据和漏填内容数据等技术问题。

Description

一种基于调查问卷的数据处理方法及系统

技术领域

本发明属于数据挖掘领域，特别涉及一种基于调查问卷的数据处理方法及系统。

背景技术

随着数据科学技术的不断发展，当前的数据挖掘技术的发展水平已经可以满足残疾人事业信息化建设对于数据分析和数据统计的需求。如何借力当前先进的数据挖掘技术助力残疾人事业信息化建设，已成为残疾人事业的一项重要议题。

当前，针对残疾人数据的分析及统计工作面临着以下三大挑战：

(1)由于很多残疾人数据的收集方式是基于问卷及表格填写的形式，数据受填写者主观因素影响较大，比如被调查者在填写表格时，可能因为种种原因对某些内容进行虚假填写和随意填写。这些被虚假或随意填写的数据往往会对之后的数据分析及统计造成明显的误导，亦即数据的真实性和可信度无法得到很好的保证。

(2)通过让被调查个人及机构填写问卷表格，表格中一般包含有单选问题和多选问题两种形式，但现有数据挖掘方法无法对多选问题数据进行直接处理。此外，数据集中往往会出现一些被调查者漏填的项，这些漏填项在某些算法场景下可能需要被填补。

(3)由于残疾人大数据普遍是一个高维的数据集，所以总是存在一些与目标类不太相关的冗余数据属性。这些冗余的数据属性不仅降低了数据分析及统计的准确性，而且增加了数据分析的时间和资源消耗。

发明内容

针对现有技术的不足，例如原始数据中的虚假信息难以过滤、属性冗余，难以直接处理原始数据中多选问题数据和漏填内容数据等问题。通过对业内先进的数据处理流程进行改进，提出了一种可对残疾人数据进行智能分析管理的方法及系统。

本发明提出一种基于调查问卷的数据处理方法，其中包括：

步骤1、通过调查问卷中的回答内容，得到原始数据集，并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据，通过线性回归填补该原始数据集中空缺数据，得到第一数据集；

步骤2、对该第一数据集进行质量筛查，剔除该第一数据集中错误数据和低质量数据，得到第二数据集，并对该第二数据集中冗余属性进行标记，得到预处理数据集，并将该预处理数据集输入至预设数据分析模型，得到分析结果。

所述的基于调查问卷的数据处理方法，其中该步骤1中属性分解包括：

步骤11、判断该多选问题数据中选项之间是否具有单调的序关系，若是，则将每个选项按序依次使用一个数字表示，否则执行步骤12；

步骤12、判断该多选问题数据中选项之间是否具有循环的序关系，若是，则采用二维向量表示每一个选项，否则采用独热编码方式表示每一个选项。

所述的基于调查问卷的数据处理方法，其中该步骤1中线性回归填补包括：

步骤13、将数据样本中需要填补缺失值的属性作为自变量Y＝(y₁,y₂,…,y_n)，并将其他属性作为因变量

其中T代表矩阵的转置，

表示一个m维向量的单个因变量；

步骤14、通过线性回归描述自变量与因变量集合之间的关联性，该关联性具体为：

y_i＝θ₀+θ₁x_i1+…+θ_mx_im

其中θ₀是回归方程的干扰项，θ＝{θ₁,...,θ_m}是自变量集合的归一化权重。

所述的基于调查问卷的数据处理方法，其中该步骤2中质量筛查包括：

步骤21、利用主成分分析将该第一数据集降维，得到降维数据集；

步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离；

步骤23、给定数据样本，找到降维数据集中与其最靠近的第k个样本，并通过下式得到两样本间的可达距离，对于数据样本p和o，可达距离利用以下公式运算：

reach_dist_k(p,o)＝max(k_distance(o),d(p,o))，

其中d(p,o)是样本p与样本o的欧几里得距离，k-distance(o)为样本o和与其最靠近的第k个样本的距离；

步骤24、根据可达距离，得到数据样本p的局部可达密度lrd_k(p)：

其中N_k(p)是数据样本p的k个最邻近样本，数据样本p的k-邻近样本的个数|N_k(p)|≥k，

步骤25、根据局部可达密度，通过下式得到局部异常因子lof_k(p)：

步骤26、为数据集的局部异常因子划定阈值，并将lof_k(p)超过该阈值的数据样本p判定为低质量数据，lof_k(p)是数据样本p的异常度量。

所述的基于调查问卷的数据处理方法，其中该步骤2中冗余属性标记包括：

步骤27、利用径向基函数，量化第二数据集中数据样本间的相似性：

其中x_i,≠c表示不包含属性c的数据样本；

步骤28、通过下式得到第二数据集的属性c的熵值：

为数据属性划定阈值，并将E(c)小于阈值的数据属性c标记为冗余属性。

本发明还提出了一种基于调查问卷的数据处理系统，其中包括：

模块1、通过调查问卷中的回答内容，得到原始数据集，并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据，通过线性回归填补该原始数据集中空缺数据，得到第一数据集；

模块2、对该第一数据集进行质量筛查，剔除该第一数据集中错误数据和低质量数据，得到第二数据集，并对该第二数据集中冗余属性进行标记，得到预处理数据集，并将该预处理数据集输入至预设数据分析模型，得到分析结果。

所述的基于调查问卷的数据处理系统，其中该模块1中属性分解包括：

模块11、判断该多选问题数据中选项之间是否具有单调的序关系，若是，则将每个选项按序依次使用一个数字表示，否则执行模块12；

模块12、判断该多选问题数据中选项之间是否具有循环的序关系，若是，则采用二维向量表示每一个选项，否则采用独热编码方式表示每一个选项。

所述的基于调查问卷的数据处理系统，其中该模块1中线性回归填补包括：

模块13、将数据样本中需要填补缺失值的属性作为自变量Y＝(y₁,y₂,…,y_n)，并将其他属性作为因变量

其中T代表矩阵的转置，

表示一个m维向量的单个因变量；

模块14、通过线性回归描述自变量与因变量集合之间的关联性，该关联性具体为：

y_i＝θ₀+θ₁x_i1+…+θ_mx_im

所述的可疑数据处理系统，其中该模块2中质量筛查包括：

模块21、利用主成分分析将该第一数据集降维，得到降维数据集；

模块22、得到对降维数据集中每个数据样本与其他数据样本的欧几里得距离；

模块23、给定数据样本，找到降维数据集中与其最靠近的第k个样本，并通过下式得到两样本间的可达距离，对于数据样本p和o，可达距离利用以下公式运算：

reach_dist_k(p,o)＝max(k_distance(o),d(p,o))，

其中d(p,o)是样本p点与样本o的欧几里得距离，k-distance(o)为样本o和与其最靠近的第k个样本的距离；

模块24、根据可达距离，得到数据样本p的局部可达密度lrd_k(p)：

模块25、根据局部可达密度，通过下式得到局部异常因子lof_k(p)：

模块26、为数据集的局部异常因子划定阈值，并将lof_k(p)超过该阈值的数据样本p判定为低质量数据，lof_k(p)是数据样本p的异常度量。

所述的基于调查问卷的数据处理系统，其中该模块2中冗余属性标记包括：

模块27、利用径向基函数，量化第二数据集中数据样本间的相似性：

其中x_i,≠c表示不包含属性c的数据样本；

模块28、通过下式得到第二数据集的属性c的熵值：

由以上方案可知，本发明的优点在于：

(1)在宏观应用层面，本发明可以加强残疾人大数据资源统筹规划管理、提高后续数据分析能力。因此，本发明将为数据挖掘技术在残疾人大数据中的广泛应用奠定技术基础，具有重要的工程应用价值。

(2)针对现有数据挖掘方法无法对多选问题数据属性进行直接处理这一问题，本发明使用属性分解技术将多选问题数据属性分解为若干个可以被现有数据挖掘算法所分析的单选问题数据属性。

(3)针对残疾人大数据中出现的一些漏填的内容，本发明使用线性回归技术实现对缺失值的填补。此技术的优势在于：1)通过训练建立数据填补数学模型，充分考量了数据集中其他属性对于当前属性值变化的影响，并对这种影响进行了数学量化；2)可以将不同时间所采集的数据同时进行分析，并将不同时间数据之间的差异性进行量化。

(4)本发明通过标记与目标类不太相关的冗余数据属性，一方面可以提高后续数据分析及统计的准确性，另一方面可以降低后续数据分析的时间和资源消耗。

(5)本发明采用基于评估数据分布密度来寻找分布离群点的算法，实现对可疑数据的智能化检测。相较于其他异常检测算法(例如基于评估距离的算法，基于神经网络的算法)此算法拥有三大优势：1)不需要假设数据服从任何特定的概率分布，因为填报型数据受被调查者的主观因素较大，在理论上此类数据往往不服从于任何概率分布；2)可以对可疑数据的异常程度进行量化。这意味着，不但可以判断出当前数据是否异常，还可以通过一个量化值来描述数据的异常程度。3)所产出数学模型拥有可解释性，因而用户可以对一个数据为何被判断为异常进行解释。

附图说明

图1为本发明大数据管理流程图；

图2为可疑数据分析模块所输出的结果可视化范例图；

图3为属性选择模块所输出的结果可视化范例图；

具体实施方式

为应对残疾人数据的分析及统计工作所面临的三大挑战，本发明的方法包含以下四个步骤：

步骤一、数据获取

数据获取包含数据读取、格式调整和属性对齐等操作。首先从不同类型的数据源中获取数据样本，数据源可以是文本(例如csv)、数据库(例如MySQL)、网络(例如WebService)等类型，然后对不符合数据解析格式的数据样本进行实时格式调整，最后对于时域未对齐数据样本进行实时对齐。

步骤二、数据预处理

数据预处理包含对数据进行属性分离和缺失值填补等操作。首先对多选问题数据进行属性分解，其次对于空缺数据值进行填补。

步骤三、可疑数据分析

可疑数据分析主要是对低质量及异常数据样本进行检测，旨在对数据集中的错误信息加以批量式甄别，并将不同于数据集正常模式的异常数据样本标记为可疑数据。可疑数据分析的有效应用基于一个假设，即数据集中绝大部分的数据都是正常的，比如绝大部分的数据收集自认真填写问卷的被调查者。

可疑数据分析可批量式对数据集中的所有数据加以处理以生成数据分布模型，接着根据模型对数据集中每一条数据样本判断是否为可疑数据(比如虚假填写或随意填写的数据)。经此处理，数据质量得到了显著的科学化提升，此外，通过对异常数据运用大数据挖掘算法进行诠释，本发明可以帮助用户大致推测出数据样本被怀疑为异常数据的原因。

步骤四、属性选择

属性选择对数据集中的所有数据加以处理，对每一个数据属性判断是否为冗余属性。经此处理，数据质量得到了显著的科学化提升，不仅提高了数据分析及统计的准确性，而且降低了数据分析的时间和资源消耗。

为应对残疾人数据的分析及统计工作所面临的三大挑战，本发明的系统包含以下四个模块：

模块一、数据获取模块

数据获取模块包含数据读取、格式调整和属性对齐子模块。数据读取的输入是数据源，可以是不同类型数据源中的任意一种或组合，输出是数据样本。格式调整的输入是数据读取子模块输出的不符合数据解析格式的数据样本，输出是进行格式调整后的数据样本。属性对齐将时域未对齐的数据进行批量化对齐，输入是格式调整子模块输出的需要进行时域对齐的数据样本，输出是对齐后的数据样本。

模块二、数据预处理模块

数据预处理模块包含属性分离和缺失值填补子模块。属性分离的输入是数据集中的多选问题数据属性集合，输出是与多选问题数据属性集合相对应的分割后的单选问题数据属性集合。缺失值填补实现对于缺失数据的批量化填补功能，输入是具有空缺属性值的数据样本，输出是针对被填补属性的结果。预处理后的数据样本以及属性集合可以被其他数据模块所处理。

模块三、可疑数据分析模块

输入是经过数据预处理的数据集，输出是将异常数据进行了标记的数据集，标记的方式是在数据集中新增一个名为“是否为可疑数据”的属性。

步骤四、属性选择模块

输入是经过数据预处理的数据集，输出是将冗余属性进行了标记的数据属性。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

根据本发明的一个实施例，提供了一种面向残疾人数据的数据管理方法，该方法包括如下步骤。

步骤一、数据读取

首先从csv文件中获取数据样本，然后将数据样本调整为json格式，最后将json数据进行时域对齐。

步骤二、数据预处理

首先对多选问题数据进行属性分解。

如果多选问题的每个选项是单调的序关系(例如高中、大学、硕士、博士)，本发明将每个选项按序依次使用一个数字表示。

如果多项问题的每个选项没有序关系(例如苹果、香蕉、橘子、梨)，本发明采用独热编码方式表示每一个选项。假设某个数据属性X_m所对应的是被调查者对一个有n个选项的勾选结果，那么数据属性X_m将被分解为n个二元数据属性：X_m＝{X_m,1，X_m,2,…X_m,n}，其中每一个二元数据属性与多选问题中的每一个选项所对应。因此当被调查者勾选第i个选项时，所对应的X_m,i被赋值为1，反之则被赋值为0。

如果多项问题的每个选项是循环的序关系(例如初、夏、秋、冬)，本发明采用二维向量方式表示每一个选项。假设某个数据属性X_m所对应的是被调查者对一个有n个选项的勾选结果，那么每个选项对应一个二维向量(x_i,y_i)，每个选项对应的坐标点按序围成一个正n边形。

其次对于空缺数据值进行填补。

本发明采用线性回归算法，在单次分析中将数据样本中需要填补缺失值的属性作为自变量Y＝(y₁,y₂,…,y_n)，并将其他属性作为一系列因变量X＝

其中T代表矩阵的转置，

表示一个m维向量的单个因变量。此算法通过线性方程来描述自变量与因变量集合之间的关联性。线性回归假设自变量与因变量集合呈线性关联性，此关联性的描述可以用以下回归方程加以表示：

y_i＝θ₀+θ₁x_i1+…+θ_mx_im

其中θ₀是回归方程的干扰项，θ＝{θ₁,...,θ_m}是自变量集合的归一化权重。通过将自变量集合用矩阵X来表示，回归方程可以被简化为：

Y＝h_θ(X)＝θX+θ₀

为了对权重集合θ加以确定从而形成拟合度最优的回归方程，运用以下目标函数对θ内的权重值加以确定：

通过运用最小二乘法，确定权重值集合过程可以用以下公式来表示：

θ＝(X^TX)^-1X^TY

最终，θ就是回归方程所输出的描述其他属性对目标属性影响力的权重集合。当得到回归方程Y＝h_θ(X)＝θX+θ₀后，本发明只需将填补缺失值的数据样本x输入至回归方程中，从而得到y，y即是对该数据样本缺失属性的估计值。

步骤三、可疑数据分析

本发明采用基于概率密度的算法框架。

第一步，利用主成分分析(Principle Component Analysis PCA)将高维度数据集进行数据降维，使得数据更适合被进行接下来的异常检测。

第二步，对数据集中的每个数据样本计算其与其他数据样本的欧几里得距离。

第三步，给定数据样本，找到数据集中与其最靠近的第k个样本，并将两样本(“给定数据样本”和“第k个样本”)距离设为该数据样本的k-邻近距离(k-distance)。基于k-distance计算每两个数据样本之间的可达距离。对于数据样本p和o，可达距离可利用以下公式运算：

reach_dist_k(p,o)＝max(k_distance(o),d(p,o))，

其中d(p,o)是样本p与样本o的欧几里得距离。

第四步，根据可达距离计算数据样本p的局部可达密度lrd_k(p)，计算公式如下：

其中N_k(p)是数据样本p的k个最邻近点，数据样本p的k-邻近点的个数|N_k(p)|≥k。接着，根据局部可达密度，算法可最终通过下式算出局部异常因子lof_k(p)

第五步，为数据集的局部异常因子划定阈值，并将lof_k(p)超过阈值的数据样本p判定为可疑数据，而lof_k(p)则是数据样本p的异常度量。

步骤四、属性选择

第一步，利用径向基函数(RBF)来量化数据样本之间的相似性。也就是说，给定两个样本，它们之间的相似性通过以下公式计算：

其中x_i,≠c表示属性c的数据样本，数据样本x_i包含m个属性，那么x_i,≠c不包含属性c，就剩下m-1个属性了，||x_i,≠c-x_j,≠c||表示2个样本的距离(去掉属性c)。

第二步，基于信息论，当群内数据样本的相似性较高时，群内随机性较低，这种相似性可以通过熵来量化。数据属性的相关性可以通过观察从数据集中删除数据属性所导致的熵减少来估计。

利用RBF计算数据样本之间的相似性，数据集的属性c的熵值可计算如下：

第三步，为数据属性划定阈值，并将E(c)的幅值小于阈值的数据属性c判定为冗余属性，而熵的值则表示数据属性c的冗余度量。

本发明的效果可以通过以下实验说明。

本发明从全国残疾人基础数据库中选取三省共3798462条数据，每条数据包含28个非隐私属性。

本实验首先基于专家知识将这些属性归为就业扶贫情况、无障碍社区服务、基本信息及教育情况三个大类，从而将28维度的数据通过PCA算法降低为以上3个维度。接着运用实施例中的算法对经过降维的数据集进行可疑数据分析，并输出数据分布图。如图2所示，图中的圆圈中数据点在数据分布上与下方数据点相比呈现显著稀疏性，因此被判定为异常。通过调整算法阈值，本发明也可以对可疑数据分析的敏感度进行调整。

本实验运用实施例中的算法计算数据集中每个数据属性的熵值，并输出数据分布图。如图3所示，教育程度和认字情况是相对最重要的数据属性，失业原因和未得到服务原因是相对冗余的数据属性。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

模块2、对该第一数据集进行质量筛查，剔除该第一数据集中错误数据和低质量数据，得到第二数据集，并对该第二数据集中冗余属性进行标记，得到预处理数据集，并将该预处理数据集输入至预设数据分析模型，得到分析结果。需要注意到是，可根据需求选择合适的分析模型，即本发明的主要发明点为数据的预处理，而不对预处理后的数据分析过程进行限制。

其中T代表矩阵的转置，

表示一个m维向量的单个因变量；

y_i＝θ₀+θ₁x_i1+…+θ_mx_im

所述的可疑数据处理系统，其中该模块2中质量筛查包括：

reach_dist_k(p,o)＝max(k_distance(o),d(p,o))，

其中x_i,≠c表示不包含属性c的数据样本；

模块28、通过下式得到第二数据集的属性c的熵值：