CN111125186B - 一种基于调查问卷的数据处理方法及系统 - Google Patents

一种基于调查问卷的数据处理方法及系统 Download PDF

Info

Publication number
CN111125186B
CN111125186B CN201911168069.4A CN201911168069A CN111125186B CN 111125186 B CN111125186 B CN 111125186B CN 201911168069 A CN201911168069 A CN 201911168069A CN 111125186 B CN111125186 B CN 111125186B
Authority
CN
China
Prior art keywords
data
data set
sample
attribute
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911168069.4A
Other languages
English (en)
Other versions
CN111125186A (zh
Inventor
邢云冰
潘志文
陈益强
戴连君
张钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201911168069.4A priority Critical patent/CN111125186B/zh
Publication of CN111125186A publication Critical patent/CN111125186A/zh
Application granted granted Critical
Publication of CN111125186B publication Critical patent/CN111125186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]

Abstract

本发明提出一种基于调查问卷的数据处理方法及系统,包括:步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。本发明可解决原始数据中的虚假信息难以过滤、属性冗余、难以直接处理原始数据中多选问题数据和漏填内容数据等技术问题。

Description

一种基于调查问卷的数据处理方法及系统
技术领域
本发明属于数据挖掘领域,特别涉及一种基于调查问卷的数据处理方法及系统。
背景技术
随着数据科学技术的不断发展,当前的数据挖掘技术的发展水平已经可以满足残疾人事业信息化建设对于数据分析和数据统计的需求。如何借力当前先进的数据挖掘技术助力残疾人事业信息化建设,已成为残疾人事业的一项重要议题。
当前,针对残疾人数据的分析及统计工作面临着以下三大挑战:
(1)由于很多残疾人数据的收集方式是基于问卷及表格填写的形式,数据受填写者主观因素影响较大,比如被调查者在填写表格时,可能因为种种原因对某些内容进行虚假填写和随意填写。这些被虚假或随意填写的数据往往会对之后的数据分析及统计造成明显的误导,亦即数据的真实性和可信度无法得到很好的保证。
(2)通过让被调查个人及机构填写问卷表格,表格中一般包含有单选问题和多选问题两种形式,但现有数据挖掘方法无法对多选问题数据进行直接处理。此外,数据集中往往会出现一些被调查者漏填的项,这些漏填项在某些算法场景下可能需要被填补。
(3)由于残疾人大数据普遍是一个高维的数据集,所以总是存在一些与目标类不太相关的冗余数据属性。这些冗余的数据属性不仅降低了数据分析及统计的准确性,而且增加了数据分析的时间和资源消耗。
发明内容
针对现有技术的不足,例如原始数据中的虚假信息难以过滤、属性冗余,难以直接处理原始数据中多选问题数据和漏填内容数据等问题。通过对业内先进的数据处理流程进行改进,提出了一种可对残疾人数据进行智能分析管理的方法及系统。
本发明提出一种基于调查问卷的数据处理方法,其中包括:
步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。
所述的基于调查问卷的数据处理方法,其中该步骤1中属性分解包括:
步骤11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行步骤12;
步骤12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
所述的基于调查问卷的数据处理方法,其中该步骤1中线性回归填补包括:
步骤13、将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为因变量
Figure BDA0002287991250000021
其中T代表矩阵的转置,/>
Figure BDA0002287991250000022
表示一个m维向量的单个因变量;
步骤14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ01xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。
所述的基于调查问卷的数据处理方法,其中该步骤2中质量筛查包括:
步骤21、利用主成分分析将该第一数据集降维,得到降维数据集;
步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
步骤23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
步骤24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
Figure BDA0002287991250000031
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
步骤25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
Figure BDA0002287991250000032
步骤26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
所述的基于调查问卷的数据处理方法,其中该步骤2中冗余属性标记包括:
步骤27、利用径向基函数,量化第二数据集中数据样本间的相似性:
Figure BDA0002287991250000033
其中xi,≠c表示不包含属性c的数据样本;
步骤28、通过下式得到第二数据集的属性c的熵值:
Figure BDA0002287991250000034
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。
本发明还提出了一种基于调查问卷的数据处理系统,其中包括:
模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。
所述的基于调查问卷的数据处理系统,其中该模块1中属性分解包括:
模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;
模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
所述的基于调查问卷的数据处理系统,其中该模块1中线性回归填补包括:
模块13、将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为因变量
Figure BDA0002287991250000041
其中T代表矩阵的转置,/>
Figure BDA0002287991250000042
表示一个m维向量的单个因变量;
模块14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ01xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。
所述的可疑数据处理系统,其中该模块2中质量筛查包括:
模块21、利用主成分分析将该第一数据集降维,得到降维数据集;
模块22、得到对降维数据集中每个数据样本与其他数据样本的欧几里得距离;
模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p点与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
模块24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
Figure BDA0002287991250000043
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
模块25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
Figure BDA0002287991250000044
模块26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
所述的基于调查问卷的数据处理系统,其中该模块2中冗余属性标记包括:
模块27、利用径向基函数,量化第二数据集中数据样本间的相似性:
Figure BDA0002287991250000051
其中xi,≠c表示不包含属性c的数据样本;
模块28、通过下式得到第二数据集的属性c的熵值:
Figure BDA0002287991250000052
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。
由以上方案可知,本发明的优点在于:
(1)在宏观应用层面,本发明可以加强残疾人大数据资源统筹规划管理、提高后续数据分析能力。因此,本发明将为数据挖掘技术在残疾人大数据中的广泛应用奠定技术基础,具有重要的工程应用价值。
(2)针对现有数据挖掘方法无法对多选问题数据属性进行直接处理这一问题,本发明使用属性分解技术将多选问题数据属性分解为若干个可以被现有数据挖掘算法所分析的单选问题数据属性。
(3)针对残疾人大数据中出现的一些漏填的内容,本发明使用线性回归技术实现对缺失值的填补。此技术的优势在于:1)通过训练建立数据填补数学模型,充分考量了数据集中其他属性对于当前属性值变化的影响,并对这种影响进行了数学量化;2)可以将不同时间所采集的数据同时进行分析,并将不同时间数据之间的差异性进行量化。
(4)本发明通过标记与目标类不太相关的冗余数据属性,一方面可以提高后续数据分析及统计的准确性,另一方面可以降低后续数据分析的时间和资源消耗。
(5)本发明采用基于评估数据分布密度来寻找分布离群点的算法,实现对可疑数据的智能化检测。相较于其他异常检测算法(例如基于评估距离的算法,基于神经网络的算法)此算法拥有三大优势:1)不需要假设数据服从任何特定的概率分布,因为填报型数据受被调查者的主观因素较大,在理论上此类数据往往不服从于任何概率分布;2)可以对可疑数据的异常程度进行量化。这意味着,不但可以判断出当前数据是否异常,还可以通过一个量化值来描述数据的异常程度。3)所产出数学模型拥有可解释性,因而用户可以对一个数据为何被判断为异常进行解释。
附图说明
图1为本发明大数据管理流程图;
图2为可疑数据分析模块所输出的结果可视化范例图;
图3为属性选择模块所输出的结果可视化范例图;
具体实施方式
为应对残疾人数据的分析及统计工作所面临的三大挑战,本发明的方法包含以下四个步骤:
步骤一、数据获取
数据获取包含数据读取、格式调整和属性对齐等操作。首先从不同类型的数据源中获取数据样本,数据源可以是文本(例如csv)、数据库(例如MySQL)、网络(例如WebService)等类型,然后对不符合数据解析格式的数据样本进行实时格式调整,最后对于时域未对齐数据样本进行实时对齐。
步骤二、数据预处理
数据预处理包含对数据进行属性分离和缺失值填补等操作。首先对多选问题数据进行属性分解,其次对于空缺数据值进行填补。
步骤三、可疑数据分析
可疑数据分析主要是对低质量及异常数据样本进行检测,旨在对数据集中的错误信息加以批量式甄别,并将不同于数据集正常模式的异常数据样本标记为可疑数据。可疑数据分析的有效应用基于一个假设,即数据集中绝大部分的数据都是正常的,比如绝大部分的数据收集自认真填写问卷的被调查者。
可疑数据分析可批量式对数据集中的所有数据加以处理以生成数据分布模型,接着根据模型对数据集中每一条数据样本判断是否为可疑数据(比如虚假填写或随意填写的数据)。经此处理,数据质量得到了显著的科学化提升,此外,通过对异常数据运用大数据挖掘算法进行诠释,本发明可以帮助用户大致推测出数据样本被怀疑为异常数据的原因。
步骤四、属性选择
属性选择对数据集中的所有数据加以处理,对每一个数据属性判断是否为冗余属性。经此处理,数据质量得到了显著的科学化提升,不仅提高了数据分析及统计的准确性,而且降低了数据分析的时间和资源消耗。
为应对残疾人数据的分析及统计工作所面临的三大挑战,本发明的系统包含以下四个模块:
模块一、数据获取模块
数据获取模块包含数据读取、格式调整和属性对齐子模块。数据读取的输入是数据源,可以是不同类型数据源中的任意一种或组合,输出是数据样本。格式调整的输入是数据读取子模块输出的不符合数据解析格式的数据样本,输出是进行格式调整后的数据样本。属性对齐将时域未对齐的数据进行批量化对齐,输入是格式调整子模块输出的需要进行时域对齐的数据样本,输出是对齐后的数据样本。
模块二、数据预处理模块
数据预处理模块包含属性分离和缺失值填补子模块。属性分离的输入是数据集中的多选问题数据属性集合,输出是与多选问题数据属性集合相对应的分割后的单选问题数据属性集合。缺失值填补实现对于缺失数据的批量化填补功能,输入是具有空缺属性值的数据样本,输出是针对被填补属性的结果。预处理后的数据样本以及属性集合可以被其他数据模块所处理。
模块三、可疑数据分析模块
输入是经过数据预处理的数据集,输出是将异常数据进行了标记的数据集,标记的方式是在数据集中新增一个名为“是否为可疑数据”的属性。
步骤四、属性选择模块
输入是经过数据预处理的数据集,输出是将冗余属性进行了标记的数据属性。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
根据本发明的一个实施例,提供了一种面向残疾人数据的数据管理方法,该方法包括如下步骤。
步骤一、数据读取
首先从csv文件中获取数据样本,然后将数据样本调整为json格式,最后将json数据进行时域对齐。
步骤二、数据预处理
首先对多选问题数据进行属性分解。
如果多选问题的每个选项是单调的序关系(例如高中、大学、硕士、博士),本发明将每个选项按序依次使用一个数字表示。
如果多项问题的每个选项没有序关系(例如苹果、香蕉、橘子、梨),本发明采用独热编码方式表示每一个选项。假设某个数据属性Xm所对应的是被调查者对一个有n个选项的勾选结果,那么数据属性Xm将被分解为n个二元数据属性:Xm={Xm,1,Xm,2,…Xm,n},其中每一个二元数据属性与多选问题中的每一个选项所对应。因此当被调查者勾选第i个选项时,所对应的Xm,i被赋值为1,反之则被赋值为0。
如果多项问题的每个选项是循环的序关系(例如初、夏、秋、冬),本发明采用二维向量方式表示每一个选项。假设某个数据属性Xm所对应的是被调查者对一个有n个选项的勾选结果,那么每个选项对应一个二维向量(xi,yi),每个选项对应的坐标点按序围成一个正n边形。
其次对于空缺数据值进行填补。
本发明采用线性回归算法,在单次分析中将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为一系列因变量X=
Figure BDA0002287991250000081
其中T代表矩阵的转置,/>
Figure BDA0002287991250000082
表示一个m维向量的单个因变量。此算法通过线性方程来描述自变量与因变量集合之间的关联性。线性回归假设自变量与因变量集合呈线性关联性,此关联性的描述可以用以下回归方程加以表示:
yi=θ01xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。通过将自变量集合用矩阵X来表示,回归方程可以被简化为:
Y=hθ(X)=θX+θ0
为了对权重集合θ加以确定从而形成拟合度最优的回归方程,运用以下目标函数对θ内的权重值加以确定:
Figure BDA0002287991250000083
通过运用最小二乘法,确定权重值集合过程可以用以下公式来表示:
θ=(XTX)-1XTY
最终,θ就是回归方程所输出的描述其他属性对目标属性影响力的权重集合。当得到回归方程Y=hθ(X)=θX+θ0后,本发明只需将填补缺失值的数据样本x输入至回归方程中,从而得到y,y即是对该数据样本缺失属性的估计值。
步骤三、可疑数据分析
本发明采用基于概率密度的算法框架。
第一步,利用主成分分析(Principle Component Analysis PCA)将高维度数据集进行数据降维,使得数据更适合被进行接下来的异常检测。
第二步,对数据集中的每个数据样本计算其与其他数据样本的欧几里得距离。
第三步,给定数据样本,找到数据集中与其最靠近的第k个样本,并将两样本(“给定数据样本”和“第k个样本”)距离设为该数据样本的k-邻近距离(k-distance)。基于k-distance计算每两个数据样本之间的可达距离。对于数据样本p和o,可达距离可利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离。
第四步,根据可达距离计算数据样本p的局部可达密度lrdk(p),计算公式如下:
Figure BDA0002287991250000091
其中Nk(p)是数据样本p的k个最邻近点,数据样本p的k-邻近点的个数|Nk(p)|≥k。接着,根据局部可达密度,算法可最终通过下式算出局部异常因子lofk(p)
Figure BDA0002287991250000092
第五步,为数据集的局部异常因子划定阈值,并将lofk(p)超过阈值的数据样本p判定为可疑数据,而lofk(p)则是数据样本p的异常度量。
步骤四、属性选择
第一步,利用径向基函数(RBF)来量化数据样本之间的相似性。也就是说,给定两个样本,它们之间的相似性通过以下公式计算:
Figure BDA0002287991250000101
其中xi,≠c表示属性c的数据样本,数据样本xi包含m个属性,那么xi,≠c不包含属性c,就剩下m-1个属性了,||xi,≠c-xj,≠c||表示2个样本的距离(去掉属性c)。
第二步,基于信息论,当群内数据样本的相似性较高时,群内随机性较低,这种相似性可以通过熵来量化。数据属性的相关性可以通过观察从数据集中删除数据属性所导致的熵减少来估计。
利用RBF计算数据样本之间的相似性,数据集的属性c的熵值可计算如下:
Figure BDA0002287991250000102
第三步,为数据属性划定阈值,并将E(c)的幅值小于阈值的数据属性c判定为冗余属性,而熵的值则表示数据属性c的冗余度量。
本发明的效果可以通过以下实验说明。
本发明从全国残疾人基础数据库中选取三省共3798462条数据,每条数据包含28个非隐私属性。
本实验首先基于专家知识将这些属性归为就业扶贫情况、无障碍社区服务、基本信息及教育情况三个大类,从而将28维度的数据通过PCA算法降低为以上3个维度。接着运用实施例中的算法对经过降维的数据集进行可疑数据分析,并输出数据分布图。如图2所示,图中的圆圈中数据点在数据分布上与下方数据点相比呈现显著稀疏性,因此被判定为异常。通过调整算法阈值,本发明也可以对可疑数据分析的敏感度进行调整。
本实验运用实施例中的算法计算数据集中每个数据属性的熵值,并输出数据分布图。如图3所示,教育程度和认字情况是相对最重要的数据属性,失业原因和未得到服务原因是相对冗余的数据属性。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于调查问卷的数据处理系统,其中包括:
模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。需要注意到是,可根据需求选择合适的分析模型,即本发明的主要发明点为数据的预处理,而不对预处理后的数据分析过程进行限制。
所述的基于调查问卷的数据处理系统,其中该模块1中属性分解包括:
模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;
模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
所述的基于调查问卷的数据处理系统,其中该模块1中线性回归填补包括:
模块13、将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为因变量
Figure BDA0002287991250000111
其中T代表矩阵的转置,/>
Figure BDA0002287991250000112
表示一个m维向量的单个因变量;
模块14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ01xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。
所述的可疑数据处理系统,其中该模块2中质量筛查包括:
模块21、利用主成分分析将该第一数据集降维,得到降维数据集;
模块22、得到对降维数据集中每个数据样本与其他数据样本的欧几里得距离;
模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p点与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
模块24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
Figure BDA0002287991250000121
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
模块25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
Figure BDA0002287991250000122
模块26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
所述的基于调查问卷的数据处理系统,其中该模块2中冗余属性标记包括:
模块27、利用径向基函数,量化第二数据集中数据样本间的相似性:
Figure BDA0002287991250000123
其中xi,≠c表示不包含属性c的数据样本;
模块28、通过下式得到第二数据集的属性c的熵值:
Figure BDA0002287991250000124
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。

Claims (2)

1.一种基于调查问卷的数据处理方法,其特征在于,包括:
步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果;
该步骤1中属性分解包括:
步骤11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行步骤12;
步骤12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项;
该步骤1中线性回归填补包括:
步骤13、将数据样本中需要填补缺失值的属性作为自变量Y=y1,y2,…,yn,并将其他属性作为因变量
Figure FDA0004129565280000011
其中T代表矩阵的转置,/>
Figure FDA0004129565280000012
表示一个m维向量的单个因变量;
步骤14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ01xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重;
该步骤2中质量筛查包括:
步骤21、利用主成分分析将该第一数据集降维,得到降维数据集;
步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
步骤23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distkp,o=max(k_distanceo,d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
步骤24、根据可达距离,得到数据样本p的局部可达密度lrdkp:
Figure FDA0004129565280000021
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数Nkp≥k,
步骤25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
Figure FDA0004129565280000022
步骤26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量;
该步骤2中冗余属性标记包括:
步骤27、利用径向基函数,量化第二数据集中数据样本间的相似性:
Figure FDA0004129565280000023
其中xi,≠c表示不包含属性c的数据样本;
步骤28、通过下式得到第二数据集的属性c的熵值:
Figure FDA0004129565280000024
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。
2.一种基于调查问卷的数据处理系统,其特征在于,包括:
模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果;
该模块1中属性分解包括:
模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;
模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项;
该模块1中线性回归填补包括:
模块13、将数据样本中需要填补缺失值的属性作为自变量Y=y1,y2,…,yn,并将其他属性作为因变量
Figure FDA0004129565280000031
其中T代表矩阵的转置,/>
Figure FDA0004129565280000032
表示一个m维向量的单个因变量;
模块14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ01xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重;
该模块2中质量筛查包括:
模块21、利用主成分分析将该第一数据集降维,得到降维数据集;
模块22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distkp,o=max(k_distanceo,d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
模块24、根据可达距离,得到数据样本p的局部可达密度lrdkp:
Figure FDA0004129565280000033
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数Nkp≥k,
模块25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
Figure FDA0004129565280000034
模块26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量;
该模块2中冗余属性标记包括:
模块27、利用径向基函数,量化第二数据集中数据样本间的相似性:
Figure FDA0004129565280000041
其中xi,≠c表示不包含属性c的数据样本;
模块28、通过下式得到第二数据集的属性c的熵值:
Figure FDA0004129565280000042
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。/>
CN201911168069.4A 2019-11-25 2019-11-25 一种基于调查问卷的数据处理方法及系统 Active CN111125186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911168069.4A CN111125186B (zh) 2019-11-25 2019-11-25 一种基于调查问卷的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911168069.4A CN111125186B (zh) 2019-11-25 2019-11-25 一种基于调查问卷的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111125186A CN111125186A (zh) 2020-05-08
CN111125186B true CN111125186B (zh) 2023-06-13

Family

ID=70496539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911168069.4A Active CN111125186B (zh) 2019-11-25 2019-11-25 一种基于调查问卷的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111125186B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967771B (zh) * 2020-08-18 2021-04-30 深圳市维度数据科技股份有限公司 基于大数据的数据质量管理方法、装置及存储介质
CN114113516A (zh) * 2021-10-27 2022-03-01 内蒙古工业大学 一种基于gan的水质异常数据检测方法
CN117216599B (zh) * 2023-09-27 2024-02-13 北京青丝科技有限公司 一种问卷数据分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006012097A (ja) * 2003-07-09 2006-01-12 Katsunori Samejima 電子検索システムおよび電子検索方法
CN108074140A (zh) * 2018-02-09 2018-05-25 弘成科技发展有限公司 智能问卷系统及数据采集方法
CN108446848A (zh) * 2018-03-21 2018-08-24 北京理工大学 个体网络安全意识分级量化评价方法
CN109325868A (zh) * 2018-09-03 2019-02-12 中国平安人寿保险股份有限公司 问卷数据处理方法、装置、计算机设备和存储介质
CN110334934A (zh) * 2019-06-27 2019-10-15 苏州众言网络科技股份有限公司 数据分析的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005712B2 (en) * 2006-04-06 2011-08-23 Educational Testing Service System and method for large scale survey analysis
US20130095462A1 (en) * 2011-10-12 2013-04-18 Tobias Ternström Universal test and questionnaire systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006012097A (ja) * 2003-07-09 2006-01-12 Katsunori Samejima 電子検索システムおよび電子検索方法
CN108074140A (zh) * 2018-02-09 2018-05-25 弘成科技发展有限公司 智能问卷系统及数据采集方法
CN108446848A (zh) * 2018-03-21 2018-08-24 北京理工大学 个体网络安全意识分级量化评价方法
CN109325868A (zh) * 2018-09-03 2019-02-12 中国平安人寿保险股份有限公司 问卷数据处理方法、装置、计算机设备和存储介质
CN110334934A (zh) * 2019-06-27 2019-10-15 苏州众言网络科技股份有限公司 数据分析的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Data Analysis Support by Combining Data Mining and Text Mining";Tomoya Matsumoto et al;《2017 6th IIAI International Congress on Advanced Applied Informatics (IIAI-AAI)》;20171116;全文 *
"Study on the Data Preprocessing of the Questionnaire Based on the Combined Classification Data Mining Model";Shuangcheng Li et al;《2009 International Conference on E-Learning, E-Business, Enterprise Information Systems, and E-Government》;20091228;全文 *
"基于问卷调查的混合型数据处理方法";张立高等;《基于问卷调查的混合型数据处理方法》;20130408;全文 *

Also Published As

Publication number Publication date
CN111125186A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125186B (zh) 一种基于调查问卷的数据处理方法及系统
CN109916628B (zh) 基于改进多尺度幅值感知排列熵的滚动轴承故障诊断方法
Villas-Boas et al. Assessment of the water quality monitoring network of the Piabanha River experimental watersheds in Rio de Janeiro, Brazil, using autoassociative neural networks
CN115412455A (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
Hu et al. Weld defect classification using 1-D LBP feature extraction of ultrasonic signals
Shajihan et al. CNN based data anomaly detection using multi-channel imagery for structural health monitoring
Alanqary et al. Change point detection via multivariate singular spectrum analysis
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
CN113222002B (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
CN113092083A (zh) 一种基于分形维数和神经网络的机泵故障诊断方法和装置
CN114972871A (zh) 基于图像配准的少样本图像异常检测方法及系统
Safarihamid et al. A joint-entropy approach to time-series classification
Liu et al. Anomaly Detection in Industrial Multivariate Time Series Data with Neutrosophic Theory
Ganesan et al. A deep learning approach to fault detection in a satellite power system using Gramian angular field
Facchini et al. Generalized recurrence plots for the analysis of images from spatially distributed systems
Li et al. Multi-sensor fusion fault diagnosis method of wind turbine bearing based on adaptive convergent viewable neural networks
Ge et al. Unsupervised anomaly detection via two-dimensional singular value decomposition and subspace reconstruction for multivariate time series
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Lim et al. Fault classification via energy based features of two-dimensional image data
CN114936203B (zh) 基于时序数据和业务数据融合分析的方法
Thomas et al. Correlation and Probability Based Similarity Measure for Detecting Outliers in Categorical Data
Zhang et al. Predictive temporal patterns detection in multivariate dynamic data system
Yang et al. Research and Analysis on the Prediction of College Enrollment based on Random Forest
Zhang et al. Hashing Learning with Hyper-Class Representation
Bicski et al. Simple Heuristics as a Viable Alternative to Machine Learning-Based Anomaly Detection in Industrial IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant