CN108717411B

CN108717411B - 一种基于大数据的调查问卷设计辅助系统

Info

Publication number: CN108717411B
Application number: CN201810503552.2A
Authority: CN
Inventors: 张子斌; 牛永伟; 吴鑫坤
Original assignee: Anhui Datatang Technology Co ltd
Current assignee: Anhui Datatang Technology Co ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2022-04-08
Anticipated expiration: 2038-05-23
Also published as: CN108717411A

Abstract

本发明公开一种基于大数据的调查问卷设计辅助系统，包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块；信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元，数据清洗模块与主题语义分析模块和评价语义分析模块连接，主题语义分析模块和评价语义分析模块分别通过非结构化存储模块与多维度统计可视化模块连接。本发明通过对输入调查方向的主体和关键字进行爬取、清洗和分析处理，以输出形成聚类的可视化多维度展现的与调查方向相关的主体和评价的热点、导向，从而辅助调查文件设计，提高了调查文件设计环节的工作效率，同时提高了调查问卷设计的可靠性和辅助能力。

Description

一种基于大数据的调查问卷设计辅助系统

技术领域

本发明属于大数据技术领域，涉及到一种基于大数据的调查问卷设计辅助系统。

背景技术

目前调查问卷的设计方法，主要通过以下几个流程来完成设计的辅助工作，例如，1.深入了解调查背景，2.相关文献调研，3.深入了解被访者情况，4.形成定性研究报告并提出相应假设，5.围绕假设，设置题目。

在问卷调查设计前期，需要花费大量时间和精力来围绕调查主题进行调研，对于多个地区的调查工作可能需要花费更多的精力在实地调研工作，不仅浪费调查人员的时间和精力，而且大大降低了调研的效率，并且无法对调研的内容进行可靠的分析以及无法对潜在的选项提供可靠的依据，为了解决以上问题，现设计一种基于大数据的调查问卷设计辅助系统。

发明内容

本发明的目的在于提供一种基于大数据的调查问卷设计辅助系统，解决了现有调查问卷设计需消耗大量的人力和物力，存在调研效率低，以及无法为调研内容提供可靠的分析和依据的问题。

本发明的目的可以通过以下技术方案实现：

一种基于大数据的调查问卷设计辅助系统，包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块；

所述信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元，所述第一信息爬虫单元用于接收输入的主题、关键字信息，对爬虫进行初始化，通过主题、关键字寻找目标网络信息，开始进行爬取任务，爬取的内容包括页面数据中的结构化、非结构化文本、页面内和页面间的超链接，且通过多层相关链接的深度爬取，获取与主题和关键字的相关性较强的信息以为进一步处理做准备，并将爬虫抓取的数据信息发送至数据清洗模块；

第二信息爬虫单元对不同关键字所关联的评论信息进行爬取；

数据清洗模块对爬虫爬取的数据信息进行清理加工，通过预过滤提取所需的文本信息和链接信息，并进行分类，将提取的文本信息进行分词处理，以便于提取主题和关键字信息，并将分词后的主题和关键字信息主题语义分析模块，将链接信息发送至返回至第二信息爬取单元，实现数据信息的进一步爬取；

所述主题语义分析模块对分词过后的关键字信息进行分析，通过不同量化指标后将关键字排序，获取前N个作为关键字，对分析出的前N个关键字标注的地理位置、时间、传播途径维度进一步进行分析，将前N个关键字标注的地理位置、时间、传播途径维度构成文本向量，对文本向量进行特征提取，再通过降维，构建语义空间模型，把文本向量投影在语义空间，形成新文本向量；

所述评价语义分析模块通过量化指标对评价信息中的关键字进行排序，并标注多个维度信息，标注的多个维度的关键字发送至深度学习模块，便于深度学习模块进一步分析；

所述深度学习模块对关键字进行不同主题关键字方向的聚类分析，通过聚类分析和深度学习模型的训练，提高了语义关键字的聚类分析能力，产生对调查问卷主题方向不同分类下的问卷题目设计思路；

在分析评论信息时，深度学习模型对不同主题的评论信息进行聚类分析，形成该主题的多个聚类方向的候选答案，便于对调查问题的答案设计提供参考思路；

所述非结构化存储模块与深度学习模块连接，用于接收深度学习模块对不同主题关键字和评价信息进行分析的数据，并将接收的数据进行存储和读取；

多维度统计可视化模块用于调用非结构化存储模块中不同主题关键字以及关键字对应的评论信息，进行可视化处理，生成可视化中间结果，并将生成的可视化中间结果进行可视化输出。

进一步地，所述评论信息包括评价的地理位置、评论时间、传播途径、评论人信息、对该评论的点赞或反对数值。

进一步地，所述主题语义分析模块对分词过后的关键字信息进行分析，通过对以下几个属性方法进行计算，分别为：

a.主题关键字属性

当关键字是动词或者名词，且名词比其他属性词类更能表达主要的思想和结构，该属性需和其他属性结合使用；

b.关键字出现频率

在分词结果中出现的频率越高，该关键字在分词结果中作为核心词的权值就越大；

c.关键字出现位置属性

从中文结构来说，在分词结果中，出现在开头和结尾的关键字更具有代表性，其权值越高；

d.关键字主题相关性

关键字在分词结果后的相关性决定了其与主题的交互程度，取决于联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度,相关性的计算公式如下：

其中，p(x,y)是X和Y的联合概率分布函数，X为关键字分词结果，Y是调查主题，p(x)和p(y)分别为X和Y的边缘概率分布函数,使用关键字主题作为关键字提取的特征量化时，对正文和标题构造Patricia Tree(PAT Tree)，然后计算相关性。

e.关键字最大距离

关键字跨度是关键字或者关键字在分词结果后第一次出现和最后一次出现的距离，距离越大，该关键字的权值就有可能增加，有可能更接近主题主旨，关键字最大距离计算公式如下：

其中，last_i表示词i在文本中最后一次出现的位置，first_i表示为词i在文本中第一次出现的位置，sum表示为文本中词的总数。

进一步地，深度学习模块中所采用的的神经网络深度学习算法，包括以下步骤：

h1.把随机值[0,1]赋值给权值{Wij},i＝1,2,3,……,N,确定学习效率初始值s(0)(0<s(0)<1)，确定总学习次数T；

h2.选择学习模式中的一个模式P^k给神经网络输入层。

h3.根据权值矢量W_j＝(w_1j,…,w_Nj)，算出Wj和P^k的向量距离d_j：

h4.找出最小距离dg＝mid[dj]，j＝1,2,3，…,M；

h5.对所有神经元之间的连接权值w进行更新：

w_ij(t+1)＝w_ij(t)+s(t)·[P^k _i-w_ij]，j∈N_g(t),j＝1,2,…,M；

h6.选取新的学习模式，返回步骤h2，直至所有学习模式完成；

h7.更新学习速率G(t)以及邻域N_g(t)，s(t)＝s(0)[1-t/T],t为学习次数，T为学习总次数；

h8.t增加1，返回步骤h1.5，学习直至t＝T结束；

对输入的向量，找出与权值W最靠近神经单元的输出为最终输出单元；

通过以上算法，以最靠近的神经单元进行信息的反馈，自主将聚类区域内各神经元的权值向量和输入向量逼近，使具有近似的特性输入向量聚集，完成聚类分析。

本发明的有益效果：

本发明提供的基于大数据的调查问卷设计辅助系统，通过对输入调查方向的主体和关键字进行爬取、清洗和分析处理，以输出形成聚类的可视化多维度展现的与调查方向相关的主体和评价的热点、导向，从而辅助调查文件设计，提高了调查文件设计环节的工作效率，同时提高了调查问卷设计的可靠性和辅助能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于大数据的调查问卷设计辅助系统的示意图；

图2为本发明中调查问卷设计辅助系统的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于大数据的调查问卷设计辅助系统，包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块；

信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元，所述第一信息爬虫单元用于接收输入的主题、关键字信息，对爬虫进行初始化，通过主题、关键字自动寻找目标网络信息，开始进行爬取任务，爬取的内容包括页面数据中的结构化、非结构化文本、页面内和页面间的超链接，且通过多层相关链接的深度爬取，获取与主题和关键字的相关性较强的信息以为进一步处理做准备，并将爬虫抓取的数据信息发送至数据清洗模块；

当主题语义分析模块在完成主题、关键字分析后，第二信息爬虫单元对不同关键字所关联的评论信息进行爬取，所述评论信息包括评价的地理位置、评论时间、传播途径、评论人信息、对该评论的点赞或反对数值等维度，便于进一步深度分析；

数据清洗模块对爬虫爬取的数据信息进行清理加工，通过预过滤提取所需的文本信息和链接信息，并进行分类，将提取的文本信息进行分词处理，以便于提取主题和关键字信息，并将分词后的主题和关键字信息主题语义分析模块，将链接信息发送至返回至第二信息爬取单元，实现数据信息的进一步爬取。

主题语义分析模块对分词过后的关键字信息进行分析，通过对以下几个属性方法进行计算：

a.主题关键字属性

b.关键字出现频率

c.关键字出现位置属性

d.关键字主题相关性

其中，p(x,y)是X和Y的联合概率分布函数，X为关键字分词结果，Y是调查主题，p(x)和p(y)分别为X和Y的边缘概率分布函数,使用关键字主题作为关键字提取的特征量化时，对正文和标题构造PatriciaTree(PAT Tree)，然后计算相关性。

e.关键字最大距离

对以上关键字进行特征属性统计，通过不同量化指标后将关键字排序，获取前N个作为关键字，对分析出的前N个关键字标注的地理位置、时间、传播途径等维度，便于进一步分析，将前N个关键字标注的地理位置、时间、传播途径等维度构成文本向量，对文本向量进行特征提取，再通过降维，构建语义空间模型，把文本向量投影在语义空间，形成新文本向量。

评论语义分析模块，与主题语义分析模块相类似，评价语义分析模块通过量化指标对评价信息中的关键字进行排序，并标注多个维度信息，标注的多个维度的关键字发送至深度学习模块，便于深度学习模块进一步分析；

所述深度学习模块对关键字进行不同主题关键字方向的聚类分析，通过聚类分析和深度学习模型的训练，能更好的形成语义关键字的聚类分析能力，产生对调查问卷主题方向不同分类下的问卷题目设计思路。

在分析评论信息时，深度学习模型对不同主题的评论信息进行聚类分析，形成该主题的多个聚类方向的候选答案，便于对调查问题的答案设计提供参考思路。

深度学习模块中所采用的的神经网络深度学习算法，包括以下步骤：

h2.选择学习模式中的一个模式P^k给神经网络输入层。

h4.找出最小距离dg＝mid[dj]，j＝1,2,3，…,M；

h5.对所有神经元之间的连接权值w进行更新：

w_ij(t+1)＝w_ij(t)+s(t)·[P^k _i-w_ij]，j∈N_g(t),j＝1,2,…,M；

h7.更新学习速率G(t)以及邻域Ng(t)，s(t)＝s(0)[1-t/T],t为学习次数，T为学习总次数；

h8.t增加1，返回步骤h1.5，学习直至t＝T结束；

对输入的向量，找出与权值W最靠近神经单元的输出为最终输出单元。

非结构化存储模块与深度学习模块连接，用于接收深度学习模块对不同主题关键字和评价信息进行分析的数据，并将接收的数据进行存储和读取；

图2是该辅助系统的各模块间处理流程，通过输入调查方向主题、关键字输入，通过系统中的各个模块，最终输出为形成聚类的可视化多维度展现的有关调查方向相关主题和评论的热点、导向，从而辅助调查问卷设计。

以上内容仅仅是对本发明的构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于大数据的调查问卷设计辅助系统，其特征在于：包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块；

所述非结构化存储模块与深度学习模块连接，用于接收深度学习模块对不同主题关键字和评论信息进行分析的数据，并将接收的数据进行存储和读取；

2.根据权利要求1所述的一种基于大数据的调查问卷设计辅助系统，其特征在于：所述评论信息包括评价的地理位置、评论时间、传播途径、评论人信息、对该评论的点赞或反对数值。

3.根据权利要求1所述的一种基于大数据的调查问卷设计辅助系统，其特征在于：所述主题语义分析模块对分词过后的关键字信息进行分析，通过对以下几个属性方法进行计算，分别为：

a.主题关键字属性

b.关键字出现频率

c.关键字出现位置属性

d.关键字主题相关性

，

其中，p(x,y)是X和Y的联合概率分布函数，X为关键字分词结果，Y是调查主题，p(x)和p(y)分别为X和Y的边缘概率分布函数,使用关键字主题作为关键字提取的特征量化时，对正文和标题构造PatriciaTree(PAT Tree)，然后计算相关性；

e.关键字最大距离