CN117216599B

CN117216599B - 一种问卷数据分析方法及系统

Info

Publication number: CN117216599B
Application number: CN202311259403.3A
Authority: CN
Inventors: 周俊; 李章民; 方博; 常春; 王冬悦; 曹亚男; 高宏扬
Original assignee: Beijing Qingsi Technology Co ltd
Current assignee: Beijing Qingsi Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-13
Anticipated expiration: 2043-09-27
Also published as: CN117216599A

Abstract

本发明公开了一种问卷数据分析方法及系统，属于数据处理技术领域，具体包括以下步骤：采集每个问卷样本的填写结果，生成问卷数据集，对所有问卷数据集进行数据预处理，得到待处理问卷集：提取待处理问卷集中的非数值数据，对非数值数据进行编码得到数值型数据，将编码后的问卷数据转化为若干个特征向量，生成每个问卷的特征集；计算所有特征集之间的欧氏距离I，生成欧氏距离集合U，设置聚类控制半径R，生成若干类别簇，分别对所有类别簇内的问卷数据进行分析，得到最终分析结果；本发明通过将大量的问卷数据简化为几个代表性的类别，通过对具有代表性的类别群体进行分析，可以大大减少工作量，使数据分析工作更加高效。

Description

一种问卷数据分析方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种问卷数据分析方法及系统。

背景技术

问卷，又称调查表，是一组与研究目标有关的问题，或者说是一份为进行调查而编制的问题表格。它是人们在社会调查研究活动中用来收集资料的一种常用工具。调研人员借助这一工具对社会活动过程进行准确、具体的测定，并应用社会学统计方法进行量的描述和分析，获取所需要的调查资料。

随着科技的发展，问卷调查也从纸质问卷逐渐向电子问卷转变。电子问卷实现了在问卷调研过程中基于不同场景对问题进行自动筛选，提升了问卷数据处理的效率。然而现有的问卷数据分析中，大多都是对所有问卷样本数据进行逐个分析，工作量大且效率较低，没有对样本之间的相似性进行深入探究，将大量的问卷数据简化为几个代表性的类别，通过对具有代表性的类别群体进行分析，可以大大减少工作量，使数据分析工作更加高效。

发明内容

本发明的目的在于提供一种问卷数据分析方法及系统，解决以下技术问题：

现有的问卷数据分析中，大多都是对所有问卷样本数据进行逐个分析，没有对样本之间的相似性进行深入研究，工作量大且效率较低。

本发明的目的可以通过以下技术方案实现：

一种问卷数据分析方法，包括以下步骤：

采集每个问卷样本的填写结果，生成问卷数据集，对所有问卷数据集进行数据预处理，得到待处理问卷集；

提取待处理问卷集中的非数值数据，对非数值数据进行编码得到数值型数据，将编码后的问卷数据转化为若干个特征向量，生成每个问卷的特征集；

计算所有特征集之间的欧氏距离，生成欧氏距离集合U，设置聚类控制半径R，以任一特征集为中心，计算控制半径R内的特征集密度P，获取所有特征集的控制半径R内的特征集密度均值，将特征集密度均值标记为MinP；

对于任一特征集，若P大于MinP，则以该特征集为核心点生成类别簇，并将所有位于半径R内的相邻特征集归类至该类别簇中；检测该类别簇中的非核心点特征集，若存在非核心点特征集控制半径R内的密度P同样大于MinP，则将该非核心点生成的类别簇与原有类别簇合并，生成若干类别簇；

若存在不属于任何类别簇的特征集，则判定该特征集为噪声，将噪声作为异常数据剔除；

分别对所有类别簇内的问卷数据进行分析，得到最终分析结果。

作为本发明进一步的方案：对问卷数据集进行预处理过程为：

确定一个正常问卷数据集的长度并标记为m，统计生成的问卷数据集的长度n，当时，则判定该问卷数据集为无效数据，进行剔除，当/>，则判定该问卷数据集为有效数据，进行保留。

作为本发明进一步的方案：对非数值数据进行编码得到数值型数据过程为：

移除问卷数据集中的特殊字符和标点符号，将问卷数据集中所有单个词汇通过独热编码映射为对应数值。

作为本发明进一步的方案：得到欧氏距离集合U的过程为：

对特征集进行排序，n表示特征集的个数，k表示单个特征集中的特征向量个数，对特征集进行特征归一化；

分别计算每两个特征集之间的欧氏距离I，将其中一个特征集标记为P，将另一个特征集标记为t，计算公式如下：

；

其中，y_P，y_t分别代表特征集P和特征集t以及对应的特征向量，将每个特征集到其他特征集的距离数据进行排序，得到。

作为本发明进一步的方案：设置聚类控制半径R的过程为：

对集合U中每一个欧式距离求和得到u，基于数值u得到控制半径R，计算公式如下：

;

；

其中，u为集合U中所有欧氏距离数据值之和。

作为本发明进一步的方案：计算控制半径R内的特征集密度过程为：

P=i/(πR²)；

其中i为控制半径R内存在的特征集数量。

作为本发明进一步的方案：分别对所有类别簇内的问卷数据进行分析的过程为；

以每个类别簇中的核心点为中心，R为半径生成若干个子簇，计算每个子簇的聚合度并标记为DP，DP的计算公式为：

；

其中z为代表簇内的特征集数，z₀为代表簇的核心点，v₀为代表簇内的数据点；

在每个类别簇中选取DP值最小的子簇作为该类别簇的代表簇，提取DP值最高的代表簇的特征集数量并标记为k，在每个类别簇中的代表簇中任选k个特征集，生成每个类别簇的代表集合，从k个特征集中随机选择一个相同位置的特征向量，并标记分析向量，获取所有分析向量的数据值，对于单个代表集合，统计任一数据值占所有分析向量数据值的比例，若所述比例大于预设阈值，则将该数据值作为该类别簇的代表，若所述比例低于预设阈值，则随机采集另一个相同位置的特征向量进行分析。

一种问卷数据分析系统，包括：

数据获取模块，用于采集每个样本的问卷填写结果，生成问卷数据集，对所有问卷数据集进行数据预处理，得到待处理问卷集；

数据处理模块，用于提取待处理问卷集中的非数值数据，对非数值数据进行编码得到数值型数据，将编码后的问卷数据转化为若干个特征向量，生成每个问卷的特征集；

问卷聚类模块，用于计算所有特征集之间的欧氏距离I，生成欧氏距离集合U，设置聚类控制半径R，以任一特征集为中心，计算控制半径R内的特征集密度P，获取所有特征集的控制半径R内的特征集密度均值，将特征集密度均值标记为MinP；

类别生成模块，用于对于任一特征集，若P大于MinP，则以该特征集为核心点生成类别簇，并将所有位于半径R内的相邻特征集归类至该类别簇中；检测该类别簇中的非核心点特征集，若存在非核心点特征集控制半径R内的密度P同样大于MinP，则将该非核心点生成的类别簇与原有类别簇合并，生成若干类别簇；

结果生成模块，用于若存在不属于任何类别簇的特征集，则判定该特征集为噪声，将噪声作为异常数据剔除；分别对所有类别簇内的问卷数据进行分析，得到最终分析结果。

本发明的有益效果：本发明通过采集每个问卷样本数据，对样本数据进行预处理，得到了有效样本数据，利用编码技术将问卷中的非数值数据进行编码处理得到数值数据，对编码后的问卷数据进行特征提取，生成问卷特征集，对问卷特征集进行特征归一化，通过计算问卷特征集之间的欧氏距离，并根据欧氏距离设置聚类控制半径，能够将大量的问卷数据简化为几个代表性的类别簇，通过对具有代表性的类别簇进行分析，可以大大减少工作量，使数据分析工作更加高效。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种问卷数据分析方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种问卷数据分析方法及系统，包括以下步骤：

现有问卷分析都是对所有问卷样本逐个分析，工作量大且效率较低，本发明通过采集每个问卷样本数据，对样本数据进行预处理，得到了有效样本数据，通过编码技术将问卷中的非数值数据进行编码处理得到数值数据，对编码后的问卷数据进行特征提取，生成问卷特征集，对问卷特征集进行特征归一化，通过计算问卷特征集之间的欧氏距离，并根据欧氏距离设置聚类控制半径，能够合理有效划分不同簇，将大量的问卷数据简化为几个代表性的类别簇，通过对具有代表性的类别簇进行分析，可以得到每个类别簇所代表的特征群体，对每个类别簇的分析可以使研究人员可以更快速地了解每个簇的特征，进而无需分析每个样本，可以大大减少工作量，使数据分析工作更加高效。

在本发明的一种优选的实施例中，对问卷数据集进行预处理过程为：

设定一个标准问卷数据集的长度为m，统计生成的问卷数据集的长度n，若存在问卷数据集的时，则判定该问卷数据集为无效数据，进行剔除，若存在问卷数据集的，则判定该问卷数据集为有效数据，进行保留。

问卷调查的有效性和可靠性与被调查者的回答完整度密切相关，完整的回答有助于确保数据集的质量，通过对问卷数据集长度来评定问卷回答的完整度，通过将得到的问卷数据集与标准数据集长度进行对比，可以剔除部分无效问卷，减少计算成本，加速分析过程，从而提高整个数据集的质量。

在本发明的一种优选的实施例中，对非数值数据进行编码得到数值型数据过程为：

文本数据通常是非结构化的，且具有高维度，难以直接进行计算和处理，将文本数据转换为数值数据，可以有效降低维度，提高计算效率，有助于对问卷数据进行特征提取和数据归一化，从而获得更好的聚类效果。

在本发明的一种优选的实施例中，得到欧式距离集合U的过程为：

；

在本发明的一种优选的实施例中，设置聚类控制半径R的过程为：

对集合U中每一个欧氏距离数据求和得到u，基于数值u得到控制半径R，计算公式如下：

;

；

其中，u为集合U中所有欧氏距离数据值之和；

通过基于所有特征集之间的欧氏距离，计算平均欧氏距离，以平均欧氏距离作为聚类控制半径，能够综合多个特征集的信息，有助于在多维空间中更全面地评估数据点之间的距离，以数据点之间的距离判定特征集之间的相似性，通过特征集之间的相似性，能够有效合理的将所有特征集进行类别群体划分。

在本发明的一种优选的实施例中，计算控制半径R内的特征集密度过程为：

P=i/(πR²)；

其中i为控制半径R内存在的特征集数量。

在本发明的一种优选的实施例中，分别对所有类别簇内的问卷数据进行分析的过程为；

以每个类别簇中的核心点为中心，R为半径生成若干个子簇，计算每个子簇的紧密度并标记为DP，DP的计算公式为：

；

在每个类别簇中选取DP值最小的子簇作为该类别簇的代表簇，提取DP值最高的代表簇重的特征集数量并标记为k，在每个类别簇中的代表簇任选k个特征集，生成每个类别簇的代表集合，从特征集中选择一个特征向量作为分析对象，对于所选的特征向量，计算它的特征数据值在代表集合中的出现比例，重复上述过程，得到每一个特征向量在每一个代表集合中的比例，通过特征向量比例确定每个代表集合中具有代表性特征向量，得到每个类别簇所代表的主要特征。

DP值代表每个簇中，其他特征集点到中心点的平均距离，DP值越小说明这个子簇紧密度高，聚类效果好，通过选取每个类别簇中DP值最小的簇，可以得到该类别簇中最具代表性的子簇，对每个代表簇进行分析，可以不用对类别簇中每个特征集进行分析，进而减少问卷工作量，提高工作效率，选取一个特征向量，计算该特征向量的某一数据值在代表集合的出现比例，例如，一个特征向量的回答结果为男生或女生，对应数据值为1或0，于是统计代表簇中1的数量，通过计算数值1的数量占代表簇中所有数据之比，得到一个比值，若比值大于0.8，说明该类别簇的其中一个主要特征为男，若比值大于0.5小于0.8，说明该类别簇的大体特征为男，若比值小于0.5，说明该类别簇的大体特征不为男，接着随机采集另一个相同位置的特征向量进行分析，进而可以得到每个类别簇所代表的主要特征，通过对具有代表性的类别簇进行分析，可以大大减少工作量，使数据分析工作更加高效。

一种问卷数据分析系统，包括；

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种问卷数据分析方法，其特征在于，包括以下步骤：

计算所有特征集之间的欧氏距离I，生成欧氏距离集合U，设置聚类控制半径R，以任一特征集为中心，计算控制半径R内的特征集密度P，获取所有特征集的控制半径R内的特征集密度均值，将特征集密度均值标记为MinP；

2.根据权利要求1所述的一种问卷数据分析方法，其特征在于，对问卷数据集进行预处理过程为：

设定一个标准问卷数据集的长度为m，统计生成的问卷数据集的长度n，若存在问卷数据集的，则判定该问卷数据集为无效数据，进行剔除，若存在问卷数据集的，则判定该问卷数据集为有效数据，进行保留。

3.根据权利要求1所述的一种问卷数据分析方法，其特征在于，对非数值数据进行编码得到数值型数据过程为：

4.根据权利要求1所述的一种问卷数据分析方法，其特征在于，得到欧氏距离集合U的过程为：

；

5.根据权利要求1所述的一种问卷数据分析方法，其特征在于，设置聚类控制半径R的过程为：

对集合U中每一个欧氏距离进行求和得到u，基于数值u得到控制半径R，计算公式如下：

;

；

其中，u为集合U中所有欧氏距离数据值之和。

6.根据权利要求1所述的一种问卷数据分析方法，其特征在于，计算控制半径R内的特征集密度过程为：

P=i/(πR²)；

其中i为控制半径R内存在的特征集数量。

7.根据权利要求1所述的一种问卷数据分析方法，其特征在于，分别对所有类别簇内的问卷数据进行分析的过程为；

；

8.一种问卷数据分析系统，其特征在于，包括：