CN114626886A

CN114626886A - 一种调查问卷数据分析方法及系统

Info

Publication number: CN114626886A
Application number: CN202210267500.6A
Authority: CN
Inventors: 何明龙; 曾广层
Original assignee: Shenzhen Wanren Market Research Co ltd
Current assignee: Shenzhen Wanren Market Research Co ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-14

Abstract

本发明公开了一种调查问卷数据分析方法及系统，涉及数据处理技术领域。本发明包括如下步骤：获取用户信息和调查问卷数据；对获取的数据进行预处理，对数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R‑tree构建索引；按照多层次的数据建模技术将各种模型元素构建成多层次的数据分析的总体模型；对总体的多层次数据分析模型运行实际的数据并进行监控和管理并以可视化的形式输出问卷分析结果。本发明根据场景选择对应的问题数据库生成调查问卷，通过从调查问卷获取数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R‑tree构建索引，按照多层次的数据建模技术将各种模型元素构建成多层次的数据分析的总体模型，提高调查问卷的数据分析准确性。

Description

一种调查问卷数据分析方法及系统

技术领域

本发明属于数据处理技术领域，特别是涉及一种调查问卷数据分析方法及系统。

背景技术

调查问卷是一种常用的研究潜在变量的方法。如市场研究中，想要知道消费者的消费行为、态度和价值观之间的关系，往往采用一组态度量表进行测量。例如为了测量消费者的价值观，可以设计若干问题让消费者进行打分，收集到的数据只是潜在变量的测量数据，并不能直接反应潜在变量之间的关系。潜在变量即隐变量的典型分析方法是因子分析。因子分析假设数据服从高斯分布，研究数据中的相关性。然而，相关关系并不能给出最正确的决策建议，如吸烟、黄牙和肺癌之间都存在相关关系，但干预黄牙并不能降低肺癌的患病几率。因此因果关系的引入是有必要的，如在吸烟、黄牙和肺癌中，吸烟和肺癌存在因果关系，干预吸烟可以有效降低肺癌患病几率。所以在调查问卷数据中，发现隐变量的因果关系可以帮助我们做出正确的决策。目前，针对隐变量间因果关系的发现主要基于线性隐变量模型的假设，通过利用观测变量间的协方差信息或引入非高斯假设来解决隐变量结构学习问题。例如，Silva等人提出了线性隐变量模型的假设和经典的隐变量学习的两步骤框架，Cai等人提出了在非高斯假设下，隐变量之间因果结构的学习方法，这些方法都有很好的应用前景，但是都只能在特定的约束下，如非高斯约束，才能有理论保证学到正确的因果结构。而在实际应用中，无法得到隐变量的分布信息，通常无法确定数据是否完全满足非高斯分布，从而无法学到正确的因果结构信息。

2020年5月19日公开的中国专利申请CN111177337A提供了一种调查问卷的数据处理方法及装置，调查问卷中至少包括显示问题和隐含问题，显示问题为在用户终端进行展示的问题，以使用户针对显示问题输入答案；隐含问题为在用户终端不进行展示的问题，以通过变量参数请求采集用户的答案，其中采集到的用户的答案包括用户的属性信息；接收所述用户终端返回的调查问卷结果，包括所述显示问题的答案和所述隐含问题的答案；根据所述调查问卷结果中包括的所述显示问题的答案和所述隐含问题的答案，进行数据分析。该方法通过提前设置显示问题和隐含问题，收集答案，进行数据分析，仍是基于数据的相关性进行分析的，无法获得数据间的因果关系，对调查问卷的数据分析准确性不高。

发明内容

本发明的目的在于提供一种调查问卷数据分析方法及系统，根据场景选择对应的问题数据库生成调查问卷，通过从调查问卷获取数据进行分析处理，解决了现有调查问卷的数据分析准确性不高问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种调查问卷数据分析方法，包括如下步骤：

步骤S1：获取用户信息和调查问卷数据；

步骤S2：对获取的数据进行预处理，根据其范围和特点由上之下进行题型的分解、分类并计划每个数据的层次类别；

步骤S3：对数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R-tree构建索引；

步骤S4：针对每个输出的数据点和状态值定义的多层次数据的元素对象，对每个数据进行层级、元素类别、属性的模型概念定义；

步骤S5：按照多层次的数据建模技术将各种模型元素构建成多层次的数据分析的总体模型；

步骤S6：对总体的多层次数据分析模型运行实际的数据并进行监控和管理；

步骤S7：将监控和管理的调查问卷结果以可视化的形式输出问卷分析结果。

作为一种优选的技术方案，所述步骤S1中，从终端上获取上传的场景信息，并根据场景信息从问题数据库中选取出至少一个问题，得到基于至少一个问题构建的调查问卷；将构建的调查问卷发送至终端，并接收终端返回的针对调查问卷中目标问题的作答信息；所述作答信息包括针对调查问卷中目标问题的答案以及证明材料,所述目标问题为调查问卷中任意一个或多个问题。

作为一种优选的技术方案，所述步骤S3中，CURE聚类算法预处理是将随机取样得到每个数据或者数据集都视为一个聚类，然后将最近聚类的联合，直到聚类的个数满足指定的k。

作为一种优选的技术方案，所述CURE聚类算法预处理是将随机取样得到的每个点或者数据集都视为一个聚类，并将距离最近的聚类联合，直到聚类的个数满足指定的k，具体流程如下：

步骤C1：对原始数据集X＝{x_i|i＝1,2,3,...,m}，随机抽取n个样本，S＝{x₀,x₁,...,x_n-1}；

步骤C2：将样本S划分为P个分区，每个分区大小为n/p，并对每个分区进行聚类直到分区内聚类的个数为n/p×q为止；

步骤C3：删除离群点；

步骤C4：对于新生成的聚类求取其聚类中心,用聚类中心代表相应的簇再次进行聚类操作,并删除第二次聚类过程中离群点；

步骤C5：通过计算剩余数据距离各个聚类中心的距离,将各数据归到与其距离最近的聚类中,完成全局聚类。

作为一种优选的技术方案，所述CURE聚类算法具体步骤如下：

CURE1：对原数据集随机抽取n个样本；

CURE2：采用切诺夫边界来确定最小取样数据量；

CURE3：将样本S划分为P个分区，每个分区大小为n/p，并对每个分区进行聚类直到分区内的聚类个数为n/p*q；

CURE4：删除离群点；

CURE5：对于新生成的聚类求取其聚类中心，用聚类中心代表相应的簇再次进行聚类操作，并删除第二次聚类过程中离群点；

CURE6：通过计算剩余数据距离各个聚类中心的距离，将各数据归到与其距离最近的聚类中，从而实现全局聚类。

作为一种优选的技术方案，所述步骤S3中，Hilbert R-tree构建索引具体步骤如下：

步骤R1：构建三维Hilbert空间填充曲线；

步骤R2：从空间集S中取n个样本的数据对象，计算每个对象的最小包围盒边界坐标；

步骤R3：将这n个数据对象划分为P个分区，对每个分区执行聚类操作；

步骤R4：删除第一次聚类过程中的离群点后，在新生成的簇上执行聚类操作，然后移除第二聚类过程中的异常点，并获得最终的聚类结果；

步骤R5：计算剩余MBB的中心与每个现有聚类中心之间的距离，并按距离最近准则将剩余数据合并到相应的聚类中，完成全局的聚类操作；

步骤R6：对各聚类按其聚类中心的Hilbert码值进行升序排列，当聚类中的数据量小于等于Hilbert R-tree节点的最大容量时，则将其构成一个叶节点，否则将聚类中的对象按Hilbert码值进行升序排列，顺序构成若干个叶节点；

步骤R7：按生成叶节点的时间顺序自下而上构成各层的中间节点和根节点，最终生成一棵Hilbert R-tree树。

作为一种优选的技术方案，所述步骤C1中，最小取样量数据采用切诺夫边界来确定最小取样数据量：

式中，ζ为最小聚类包含的数据点数，δ为属于聚类的数据点的个数小于n/p的概率。

作为一种优选的技术方案，所述步骤R5中，聚类的操作步骤如下：

步骤R51：将每个对象看作一个独立的聚类，聚类的中心点为MBB的中心点，并设为center Mi(a_i,b_i,c_i)；

步骤R52：依次计算两两MBB之间的距离，公式为：

式中，最短距离h＝h_min；

步骤R53：若2个MBB之间的距离h小于等于h_min，则将其对应数据对象合并为一个聚类；

步骤R54：若该合成聚类的数据量达到Hilbert R-tree节点的最大容量，则结束该聚类并返回步骤R52，否则以其新的聚类中心作为中心点计算该聚类与其他聚类之间的距离，如果距离小于等于h_min，则将它们再进行合并；

步骤R55：重复步骤R54，直至在该分区完成聚类。

本发明为一种调查问卷数据分析系统，包括终端和移动终端，所述终端包括用户管理单元、问卷管理单元、数据分析单元和可视化单元；

所述用户管理单元包括菜单管理模块、角色管理模块、机构管理模块和系统用户管理模块；

所述问卷管理单元包括问卷设计模块、问卷发布模块和问卷管理模块；

所述数据分析单元包括预处理模块、CURE分类模块、Hilbert R-tree模块、模型建立模块和分析数据监控模块；

所述可视化单元包括可视化生成模块和报告生成模块。

本发明具有以下有益效果：

本发明根据场景选择对应的问题数据库生成调查问卷，通过从调查问卷获取数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R-tree构建索引，按照多层次的数据建模技术将各种模型元素构建成多层次的数据分析的总体模型，提高调查问卷的数据分析准确性。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种调查问卷数据分析方法流程图；

图2为本发明的一种调查问卷数据分析系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种调查问卷数据分析方法，包括如下步骤：

步骤S1：获取用户信息和调查问卷数据；

步骤S1中，从终端上获取上传的场景信息，并根据场景信息从问题数据库中选取出至少一个问题，得到基于至少一个问题构建的调查问卷；将构建的调查问卷发送至终端，并接收终端返回的针对调查问卷中目标问题的作答信息；作答信息包括针对调查问卷中目标问题的答案以及证明材料,目标问题为调查问卷中任意一个或多个问题。

步骤S3中，CURE聚类算法预处理是将随机取样得到每个数据或者数据集都视为一个聚类，然后将最近聚类的联合，直到聚类的个数满足指定的k。

CURE聚类算法预处理是将随机取样得到的每个点或者数据集都视为一个聚类，并将距离最近的聚类联合，直到聚类的个数满足指定的k，具体流程如下：

步骤C3：删除离群点；

CURE聚类算法具体步骤如下：

CURE1：对原数据集随机抽取n个样本；

CURE2：采用切诺夫边界来确定最小取样数据量；

CURE4：删除离群点；

步骤S3中，Hilbert R-tree构建索引具体步骤如下：

步骤R1：构建三维Hilbert空间填充曲线；

步骤C1中，最小取样量数据采用切诺夫边界来确定最小取样数据量：

步骤R5中，聚类的操作步骤如下：

步骤R52：依次计算两两MBB之间的距离，公式为：

式中，最短距离h＝h_min；

步骤R55：重复步骤R54，直至在该分区完成聚类。

请参阅图2所示，本发明为一种调查问卷数据分析系统，包括终端和移动终端，终端包括用户管理单元、问卷管理单元、数据分析单元和可视化单元；

用户管理单元包括菜单管理模块、角色管理模块、机构管理模块和系统用户管理模块；

问卷管理单元包括问卷设计模块、问卷发布模块和问卷管理模块；

数据分析单元包括预处理模块、CURE分类模块、Hilbert R-tree模块、模型建立模块和分析数据监控模块；

可视化单元包括可视化生成模块和报告生成模块。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种调查问卷数据分析方法，其特征在于，包括如下步骤：

步骤S1：获取用户信息和调查问卷数据；

2.根据权利要求1所述的一种调查问卷数据分析方法，其特征在于，所述步骤S1中，从终端上获取上传的场景信息，并根据场景信息从问题数据库中选取出至少一个问题，得到基于至少一个问题构建的调查问卷；将构建的调查问卷发送至终端，并接收终端返回的针对调查问卷中目标问题的作答信息；所述作答信息包括针对调查问卷中目标问题的答案以及证明材料,所述目标问题为调查问卷中任意一个或多个问题。

3.根据权利要求1所述的一种调查问卷数据分析方法，其特征在于，所述步骤S3中，CURE聚类算法预处理是将随机取样得到每个数据或者数据集都视为一个聚类，然后将最近聚类的联合，直到聚类的个数满足指定的k。

4.根据权利要求3所述的一种调查问卷数据分析方法，其特征在于，所述CURE聚类算法预处理是将随机取样得到的每个点或者数据集都视为一个聚类，并将距离最近的聚类联合，直到聚类的个数满足指定的k，具体流程如下：

步骤C3：删除离群点；

5.根据权利要求4所述的一种调查问卷数据分析方法，其特征在于，所述CURE聚类算法具体步骤如下：

CURE1：对原数据集随机抽取n个样本；

CURE2：采用切诺夫边界来确定最小取样数据量；

CURE4：删除离群点；

6.根据权利要求1所述的一种调查问卷数据分析方法，其特征在于，所述步骤S3中，Hilbert R-tree构建索引具体步骤如下：

步骤R1：构建三维Hilbert空间填充曲线；

7.根据权利要求4所述的一种调查问卷数据分析方法，其特征在于，所述步骤C1中，最小取样量数据采用切诺夫边界来确定最小取样数据量：

8.根据权利要求6所述的一种调查问卷数据分析方法，其特征在于，所述步骤R5中，聚类的操作步骤如下：

步骤R52：依次计算两两MBB之间的距离，公式为：

式中，最短距离h＝h_min；

步骤R55：重复步骤R54，直至在该分区完成聚类。

9.一种调查问卷数据分析系统，包括终端和移动终端，其特征在于，所述终端包括用户管理单元、问卷管理单元、数据分析单元和可视化单元；

所述可视化单元包括可视化生成模块和报告生成模块。