CN111125186A - 一种基于调查问卷的数据处理方法及系统 - Google Patents
一种基于调查问卷的数据处理方法及系统 Download PDFInfo
- Publication number
- CN111125186A CN111125186A CN201911168069.4A CN201911168069A CN111125186A CN 111125186 A CN111125186 A CN 111125186A CN 201911168069 A CN201911168069 A CN 201911168069A CN 111125186 A CN111125186 A CN 111125186A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- attribute
- sample
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于调查问卷的数据处理方法及系统,包括:步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。本发明可解决原始数据中的虚假信息难以过滤、属性冗余、难以直接处理原始数据中多选问题数据和漏填内容数据等技术问题。
Description
技术领域
本发明属于数据挖掘领域,特别涉及一种基于调查问卷的数据处理方法及系统。
背景技术
随着数据科学技术的不断发展,当前的数据挖掘技术的发展水平已经可以满足残疾人事业信息化建设对于数据分析和数据统计的需求。如何借力当前先进的数据挖掘技术助力残疾人事业信息化建设,已成为残疾人事业的一项重要议题。
当前,针对残疾人数据的分析及统计工作面临着以下三大挑战:
(1)由于很多残疾人数据的收集方式是基于问卷及表格填写的形式,数据受填写者主观因素影响较大,比如被调查者在填写表格时,可能因为种种原因对某些内容进行虚假填写和随意填写。这些被虚假或随意填写的数据往往会对之后的数据分析及统计造成明显的误导,亦即数据的真实性和可信度无法得到很好的保证。
(2)通过让被调查个人及机构填写问卷表格,表格中一般包含有单选问题和多选问题两种形式,但现有数据挖掘方法无法对多选问题数据进行直接处理。此外,数据集中往往会出现一些被调查者漏填的项,这些漏填项在某些算法场景下可能需要被填补。
(3)由于残疾人大数据普遍是一个高维的数据集,所以总是存在一些与目标类不太相关的冗余数据属性。这些冗余的数据属性不仅降低了数据分析及统计的准确性,而且增加了数据分析的时间和资源消耗。
发明内容
针对现有技术的不足,例如原始数据中的虚假信息难以过滤、属性冗余,难以直接处理原始数据中多选问题数据和漏填内容数据等问题。通过对业内先进的数据处理流程进行改进,提出了一种可对残疾人数据进行智能分析管理的方法及系统。
本发明提出一种基于调查问卷的数据处理方法,其中包括:
步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。
所述的基于调查问卷的数据处理方法,其中该步骤1中属性分解包括:
步骤11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行步骤12;
步骤12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
所述的基于调查问卷的数据处理方法,其中该步骤1中线性回归填补包括:
步骤14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ0+θ1xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。
所述的基于调查问卷的数据处理方法,其中该步骤2中质量筛查包括:
步骤21、利用主成分分析将该第一数据集降维,得到降维数据集;
步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
步骤23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
步骤24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
步骤25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
步骤26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
所述的基于调查问卷的数据处理方法,其中该步骤2中冗余属性标记包括:
步骤27、利用径向基函数,量化第二数据集中数据样本间的相似性:
其中xi,≠c表示不包含属性c的数据样本;
步骤28、通过下式得到第二数据集的属性c的熵值:
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。
本发明还提出了一种基于调查问卷的数据处理系统,其中包括:
模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。
所述的基于调查问卷的数据处理系统,其中该模块1中属性分解包括:
模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;
模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
所述的基于调查问卷的数据处理系统,其中该模块1中线性回归填补包括:
模块14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ0+θ1xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。
所述的可疑数据处理系统,其中该模块2中质量筛查包括:
模块21、利用主成分分析将该第一数据集降维,得到降维数据集;
模块22、得到对降维数据集中每个数据样本与其他数据样本的欧几里得距离;
模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p点与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
模块24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
模块25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
模块26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
所述的基于调查问卷的数据处理系统,其中该模块2中冗余属性标记包括:
模块27、利用径向基函数,量化第二数据集中数据样本间的相似性:
其中xi,≠c表示不包含属性c的数据样本;
模块28、通过下式得到第二数据集的属性c的熵值:
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。
由以上方案可知,本发明的优点在于:
(1)在宏观应用层面,本发明可以加强残疾人大数据资源统筹规划管理、提高后续数据分析能力。因此,本发明将为数据挖掘技术在残疾人大数据中的广泛应用奠定技术基础,具有重要的工程应用价值。
(2)针对现有数据挖掘方法无法对多选问题数据属性进行直接处理这一问题,本发明使用属性分解技术将多选问题数据属性分解为若干个可以被现有数据挖掘算法所分析的单选问题数据属性。
(3)针对残疾人大数据中出现的一些漏填的内容,本发明使用线性回归技术实现对缺失值的填补。此技术的优势在于:1)通过训练建立数据填补数学模型,充分考量了数据集中其他属性对于当前属性值变化的影响,并对这种影响进行了数学量化;2)可以将不同时间所采集的数据同时进行分析,并将不同时间数据之间的差异性进行量化。
(4)本发明通过标记与目标类不太相关的冗余数据属性,一方面可以提高后续数据分析及统计的准确性,另一方面可以降低后续数据分析的时间和资源消耗。
(5)本发明采用基于评估数据分布密度来寻找分布离群点的算法,实现对可疑数据的智能化检测。相较于其他异常检测算法(例如基于评估距离的算法,基于神经网络的算法)此算法拥有三大优势:1)不需要假设数据服从任何特定的概率分布,因为填报型数据受被调查者的主观因素较大,在理论上此类数据往往不服从于任何概率分布;2)可以对可疑数据的异常程度进行量化。这意味着,不但可以判断出当前数据是否异常,还可以通过一个量化值来描述数据的异常程度。3)所产出数学模型拥有可解释性,因而用户可以对一个数据为何被判断为异常进行解释。
附图说明
图1为本发明大数据管理流程图;
图2为可疑数据分析模块所输出的结果可视化范例图;
图3为属性选择模块所输出的结果可视化范例图;
具体实施方式
为应对残疾人数据的分析及统计工作所面临的三大挑战,本发明的方法包含以下四个步骤:
步骤一、数据获取
数据获取包含数据读取、格式调整和属性对齐等操作。首先从不同类型的数据源中获取数据样本,数据源可以是文本(例如csv)、数据库(例如MySQL)、网络(例如WebService)等类型,然后对不符合数据解析格式的数据样本进行实时格式调整,最后对于时域未对齐数据样本进行实时对齐。
步骤二、数据预处理
数据预处理包含对数据进行属性分离和缺失值填补等操作。首先对多选问题数据进行属性分解,其次对于空缺数据值进行填补。
步骤三、可疑数据分析
可疑数据分析主要是对低质量及异常数据样本进行检测,旨在对数据集中的错误信息加以批量式甄别,并将不同于数据集正常模式的异常数据样本标记为可疑数据。可疑数据分析的有效应用基于一个假设,即数据集中绝大部分的数据都是正常的,比如绝大部分的数据收集自认真填写问卷的被调查者。
可疑数据分析可批量式对数据集中的所有数据加以处理以生成数据分布模型,接着根据模型对数据集中每一条数据样本判断是否为可疑数据(比如虚假填写或随意填写的数据)。经此处理,数据质量得到了显著的科学化提升,此外,通过对异常数据运用大数据挖掘算法进行诠释,本发明可以帮助用户大致推测出数据样本被怀疑为异常数据的原因。
步骤四、属性选择
属性选择对数据集中的所有数据加以处理,对每一个数据属性判断是否为冗余属性。经此处理,数据质量得到了显著的科学化提升,不仅提高了数据分析及统计的准确性,而且降低了数据分析的时间和资源消耗。
为应对残疾人数据的分析及统计工作所面临的三大挑战,本发明的系统包含以下四个模块:
模块一、数据获取模块
数据获取模块包含数据读取、格式调整和属性对齐子模块。数据读取的输入是数据源,可以是不同类型数据源中的任意一种或组合,输出是数据样本。格式调整的输入是数据读取子模块输出的不符合数据解析格式的数据样本,输出是进行格式调整后的数据样本。属性对齐将时域未对齐的数据进行批量化对齐,输入是格式调整子模块输出的需要进行时域对齐的数据样本,输出是对齐后的数据样本。
模块二、数据预处理模块
数据预处理模块包含属性分离和缺失值填补子模块。属性分离的输入是数据集中的多选问题数据属性集合,输出是与多选问题数据属性集合相对应的分割后的单选问题数据属性集合。缺失值填补实现对于缺失数据的批量化填补功能,输入是具有空缺属性值的数据样本,输出是针对被填补属性的结果。预处理后的数据样本以及属性集合可以被其他数据模块所处理。
模块三、可疑数据分析模块
输入是经过数据预处理的数据集,输出是将异常数据进行了标记的数据集,标记的方式是在数据集中新增一个名为“是否为可疑数据”的属性。
步骤四、属性选择模块
输入是经过数据预处理的数据集,输出是将冗余属性进行了标记的数据属性。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
根据本发明的一个实施例,提供了一种面向残疾人数据的数据管理方法,该方法包括如下步骤。
步骤一、数据读取
首先从csv文件中获取数据样本,然后将数据样本调整为json格式,最后将json数据进行时域对齐。
步骤二、数据预处理
首先对多选问题数据进行属性分解。
如果多选问题的每个选项是单调的序关系(例如高中、大学、硕士、博士),本发明将每个选项按序依次使用一个数字表示。
如果多项问题的每个选项没有序关系(例如苹果、香蕉、橘子、梨),本发明采用独热编码方式表示每一个选项。假设某个数据属性Xm所对应的是被调查者对一个有n个选项的勾选结果,那么数据属性Xm将被分解为n个二元数据属性:Xm={Xm,1,Xm,2,…Xm,n},其中每一个二元数据属性与多选问题中的每一个选项所对应。因此当被调查者勾选第i个选项时,所对应的Xm,i被赋值为1,反之则被赋值为0。
如果多项问题的每个选项是循环的序关系(例如初、夏、秋、冬),本发明采用二维向量方式表示每一个选项。假设某个数据属性Xm所对应的是被调查者对一个有n个选项的勾选结果,那么每个选项对应一个二维向量(xi,yi),每个选项对应的坐标点按序围成一个正n边形。
其次对于空缺数据值进行填补。
本发明采用线性回归算法,在单次分析中将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为一系列因变量X=其中T代表矩阵的转置,表示一个m维向量的单个因变量。此算法通过线性方程来描述自变量与因变量集合之间的关联性。线性回归假设自变量与因变量集合呈线性关联性,此关联性的描述可以用以下回归方程加以表示:
yi=θ0+θ1xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。通过将自变量集合用矩阵X来表示,回归方程可以被简化为:
Y=hθ(X)=θX+θ0
为了对权重集合θ加以确定从而形成拟合度最优的回归方程,运用以下目标函数对θ内的权重值加以确定:
通过运用最小二乘法,确定权重值集合过程可以用以下公式来表示:
θ=(XTX)-1XTY
最终,θ就是回归方程所输出的描述其他属性对目标属性影响力的权重集合。当得到回归方程Y=hθ(X)=θX+θ0后,本发明只需将填补缺失值的数据样本x输入至回归方程中,从而得到y,y即是对该数据样本缺失属性的估计值。
步骤三、可疑数据分析
本发明采用基于概率密度的算法框架。
第一步,利用主成分分析(Principle Component Analysis PCA)将高维度数据集进行数据降维,使得数据更适合被进行接下来的异常检测。
第二步,对数据集中的每个数据样本计算其与其他数据样本的欧几里得距离。
第三步,给定数据样本,找到数据集中与其最靠近的第k个样本,并将两样本(“给定数据样本”和“第k个样本”)距离设为该数据样本的k-邻近距离(k-distance)。基于k-distance计算每两个数据样本之间的可达距离。对于数据样本p和o,可达距离可利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离。
第四步,根据可达距离计算数据样本p的局部可达密度lrdk(p),计算公式如下:
其中Nk(p)是数据样本p的k个最邻近点,数据样本p的k-邻近点的个数|Nk(p)|≥k。接着,根据局部可达密度,算法可最终通过下式算出局部异常因子lofk(p)
第五步,为数据集的局部异常因子划定阈值,并将lofk(p)超过阈值的数据样本p判定为可疑数据,而lofk(p)则是数据样本p的异常度量。
步骤四、属性选择
第一步,利用径向基函数(RBF)来量化数据样本之间的相似性。也就是说,给定两个样本,它们之间的相似性通过以下公式计算:
其中xi,≠c表示属性c的数据样本,数据样本xi包含m个属性,那么xi,≠c不包含属性c,就剩下m-1个属性了,||xi,≠c-xj,≠c||表示2个样本的距离(去掉属性c)。
第二步,基于信息论,当群内数据样本的相似性较高时,群内随机性较低,这种相似性可以通过熵来量化。数据属性的相关性可以通过观察从数据集中删除数据属性所导致的熵减少来估计。
利用RBF计算数据样本之间的相似性,数据集的属性c的熵值可计算如下:
第三步,为数据属性划定阈值,并将E(c)的幅值小于阈值的数据属性c判定为冗余属性,而熵的值则表示数据属性c的冗余度量。
本发明的效果可以通过以下实验说明。
本发明从全国残疾人基础数据库中选取三省共3798462条数据,每条数据包含28个非隐私属性。
本实验首先基于专家知识将这些属性归为就业扶贫情况、无障碍社区服务、基本信息及教育情况三个大类,从而将28维度的数据通过PCA算法降低为以上3个维度。接着运用实施例中的算法对经过降维的数据集进行可疑数据分析,并输出数据分布图。如图2所示,图中的圆圈中数据点在数据分布上与下方数据点相比呈现显著稀疏性,因此被判定为异常。通过调整算法阈值,本发明也可以对可疑数据分析的敏感度进行调整。
本实验运用实施例中的算法计算数据集中每个数据属性的熵值,并输出数据分布图。如图3所示,教育程度和认字情况是相对最重要的数据属性,失业原因和未得到服务原因是相对冗余的数据属性。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于调查问卷的数据处理系统,其中包括:
模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。需要注意到是,可根据需求选择合适的分析模型,即本发明的主要发明点为数据的预处理,而不对预处理后的数据分析过程进行限制。
所述的基于调查问卷的数据处理系统,其中该模块1中属性分解包括:
模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;
模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
所述的基于调查问卷的数据处理系统,其中该模块1中线性回归填补包括:
模块14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ0+θ1xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。
所述的可疑数据处理系统,其中该模块2中质量筛查包括:
模块21、利用主成分分析将该第一数据集降维,得到降维数据集;
模块22、得到对降维数据集中每个数据样本与其他数据样本的欧几里得距离;
模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p点与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
模块24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
模块25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
模块26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
所述的基于调查问卷的数据处理系统,其中该模块2中冗余属性标记包括:
模块27、利用径向基函数,量化第二数据集中数据样本间的相似性:
其中xi,≠c表示不包含属性c的数据样本;
模块28、通过下式得到第二数据集的属性c的熵值:
为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。
Claims (10)
1.一种基于调查问卷的数据处理方法,其特征在于,包括:
步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。
2.如权利要求1所述的基于调查问卷的数据处理方法,其特征在于,该步骤1中属性分解包括:
步骤11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行步骤12;
步骤12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
4.如权利要求1所述的基于调查问卷的数据处理方法,其特征在于,该步骤2中质量筛查包括:
步骤21、利用主成分分析将该第一数据集降维,得到降维数据集;
步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
步骤23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
步骤24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
步骤25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
步骤26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
6.一种基于调查问卷的数据处理系统,其特征在于,包括:
模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。
7.如权利要求6所述的基于调查问卷的数据处理系统,其特征在于,该模块1中属性分解包括:
模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;
模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。
9.如权利要求6所述的基于调查问卷的数据处理系统,其特征在于,该模块2中质量筛查包括:
模块21、利用主成分分析将该第一数据集降维,得到降维数据集;
模块22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
模块24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):
其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
模块25、根据局部可达密度,通过下式得到局部异常因子lofk(p):
模块26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168069.4A CN111125186B (zh) | 2019-11-25 | 2019-11-25 | 一种基于调查问卷的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168069.4A CN111125186B (zh) | 2019-11-25 | 2019-11-25 | 一种基于调查问卷的数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125186A true CN111125186A (zh) | 2020-05-08 |
CN111125186B CN111125186B (zh) | 2023-06-13 |
Family
ID=70496539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911168069.4A Active CN111125186B (zh) | 2019-11-25 | 2019-11-25 | 一种基于调查问卷的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125186B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967771A (zh) * | 2020-08-18 | 2020-11-20 | 深圳市维度统计咨询股份有限公司 | 基于大数据的数据质量管理方法、装置及存储介质 |
CN114113516A (zh) * | 2021-10-27 | 2022-03-01 | 内蒙古工业大学 | 一种基于gan的水质异常数据检测方法 |
CN117216599A (zh) * | 2023-09-27 | 2023-12-12 | 北京青丝科技有限公司 | 一种问卷数据分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006012097A (ja) * | 2003-07-09 | 2006-01-12 | Katsunori Samejima | 電子検索システムおよび電子検索方法 |
US20080021576A1 (en) * | 2006-04-06 | 2008-01-24 | Davier Matthias V | System and method for large scale survey analysis |
US20130095462A1 (en) * | 2011-10-12 | 2013-04-18 | Tobias Ternström | Universal test and questionnaire systems |
CN108074140A (zh) * | 2018-02-09 | 2018-05-25 | 弘成科技发展有限公司 | 智能问卷系统及数据采集方法 |
CN108446848A (zh) * | 2018-03-21 | 2018-08-24 | 北京理工大学 | 个体网络安全意识分级量化评价方法 |
CN109325868A (zh) * | 2018-09-03 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 问卷数据处理方法、装置、计算机设备和存储介质 |
CN110334934A (zh) * | 2019-06-27 | 2019-10-15 | 苏州众言网络科技股份有限公司 | 数据分析的方法及装置 |
-
2019
- 2019-11-25 CN CN201911168069.4A patent/CN111125186B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006012097A (ja) * | 2003-07-09 | 2006-01-12 | Katsunori Samejima | 電子検索システムおよび電子検索方法 |
US20080021576A1 (en) * | 2006-04-06 | 2008-01-24 | Davier Matthias V | System and method for large scale survey analysis |
US20130095462A1 (en) * | 2011-10-12 | 2013-04-18 | Tobias Ternström | Universal test and questionnaire systems |
CN108074140A (zh) * | 2018-02-09 | 2018-05-25 | 弘成科技发展有限公司 | 智能问卷系统及数据采集方法 |
CN108446848A (zh) * | 2018-03-21 | 2018-08-24 | 北京理工大学 | 个体网络安全意识分级量化评价方法 |
CN109325868A (zh) * | 2018-09-03 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 问卷数据处理方法、装置、计算机设备和存储介质 |
CN110334934A (zh) * | 2019-06-27 | 2019-10-15 | 苏州众言网络科技股份有限公司 | 数据分析的方法及装置 |
Non-Patent Citations (3)
Title |
---|
SHUANGCHENG LI ET AL: ""Study on the Data Preprocessing of the Questionnaire Based on the Combined Classification Data Mining Model"", 《2009 INTERNATIONAL CONFERENCE ON E-LEARNING, E-BUSINESS, ENTERPRISE INFORMATION SYSTEMS, AND E-GOVERNMENT》 * |
TOMOYA MATSUMOTO ET AL: ""Data Analysis Support by Combining Data Mining and Text Mining"", 《2017 6TH IIAI INTERNATIONAL CONGRESS ON ADVANCED APPLIED INFORMATICS (IIAI-AAI)》 * |
张立高等: ""基于问卷调查的混合型数据处理方法"", 《基于问卷调查的混合型数据处理方法》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967771A (zh) * | 2020-08-18 | 2020-11-20 | 深圳市维度统计咨询股份有限公司 | 基于大数据的数据质量管理方法、装置及存储介质 |
CN114113516A (zh) * | 2021-10-27 | 2022-03-01 | 内蒙古工业大学 | 一种基于gan的水质异常数据检测方法 |
CN117216599A (zh) * | 2023-09-27 | 2023-12-12 | 北京青丝科技有限公司 | 一种问卷数据分析方法及系统 |
CN117216599B (zh) * | 2023-09-27 | 2024-02-13 | 北京青丝科技有限公司 | 一种问卷数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111125186B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Identifying performance anomalies in fluctuating cloud environments: A robust correlative-GNN-based explainable approach | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN111125186B (zh) | 一种基于调查问卷的数据处理方法及系统 | |
CN110489630B (zh) | 资源数据的处理方法、装置、计算机设备和存储介质 | |
Oliseenko et al. | Neural network approach in the task of multi-label classification of user posts in online social networks | |
Cheng et al. | Online power system event detection via bidirectional generative adversarial networks | |
CN117670066A (zh) | 基于智能决策的司库管理方法、系统、设备及存储介质 | |
CN117421994A (zh) | 一种边缘应用健康度的监测方法和监测系统 | |
Ali et al. | Fake accounts detection on social media using stack ensemble system | |
Scherger et al. | The OWA distance operator and its application in business failure | |
CN112949097B (zh) | 一种基于深度迁移学习的轴承剩余寿命预测模型和方法 | |
Ding et al. | A novel software defect prediction method based on isolation forest | |
CN113092083A (zh) | 一种基于分形维数和神经网络的机泵故障诊断方法和装置 | |
Yu et al. | A hybrid learning-based model for on-line monitoring and diagnosis of out-of-control signals in multivariate manufacturing processes | |
Balaji et al. | Plant Infirmity Detection Using Vgg-16 Convolutional Neural Network | |
CN118114139A (zh) | 移动应用流量分类模型训练方法、分类方法和设备 | |
Safarihamid et al. | A joint-entropy approach to time-series classification | |
Liu et al. | An integrated method for variation pattern recognition of BIW OCMM online measurement data | |
Pan et al. | Anomaly data management and big data analytics: an application on disability datasets | |
Liu et al. | Anomaly Detection in Industrial Multivariate Time-Series Data With Neutrosophic Theory | |
Donets et al. | APPLICATION OF A DATA STRATIFICATION APPROACH IN COMPUTER MEDICAL MONITORING SYSTEMS. | |
Bicski et al. | Simple Heuristics as a Viable Alternative to Machine Learning-Based Anomaly Detection in Industrial IoT | |
CN115687632B (zh) | 一种刑事量刑情节分解分析的方法和系统 | |
Yang et al. | Research and Analysis on the Prediction of College Enrollment based on Random Forest | |
Boyko | Evaluating Binary Classification Algorithms on Data Lakes Using Machine Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |