CN110990673B

CN110990673B - 一种获取调查问卷关注点的方法及系统

Info

Publication number: CN110990673B
Application number: CN201911157813.0A
Authority: CN
Inventors: 庞俊彪; 霍嫣然; 严海; 黄庆明; 陶诚
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-06-01
Anticipated expiration: 2039-11-22
Also published as: CN110990673A

Abstract

本发明实施例提供一种获取调查问卷关注点的方法及系统。该方法包括:获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；对获取目标网页内容进行预处理，得到目标网页预处理内容；基于所述目标网页预处理内容和所述微博信息提取问题点；将所述问题点作为调查问卷的关注点。本发明实施例通过根据指定关键词搜索目标网页，对目标网页的内容基于微博信息进行数据处理，得出问题关注点，较为全面地覆盖了调查问卷设计中相关问题的关注热度。

Description

一种获取调查问卷关注点的方法及系统

技术领域

本发明涉及信息技术领域，尤其涉及一种获取调查问卷关注点的方法及系统。

背景技术

在日常生活中，调查问卷是一种常用的调查群众意见，收集数据的方法；但是实际生活中用于收集数据的调查问卷并不能包含所需的全部问题点，导致调查的结果不能得到预期的效果，造成对时间、人力和物力的浪费。传统调查问卷问题的设计一般以行业内的问卷设置规则为基础，结合实际情况、历史问卷和专家意见确定调查问卷的关注点，然后设置具体的调查问题。但是随着社会的不断发展，任何一个行业需要关注的热点问题都在不断发生变化；如果单纯依靠人为力量感知社会问题点，不可避免的会忽略部分值得关注的问题点。

微博作为一种人们日常生活中重要的社交方式，数据来源广泛，且具有实时性和交互性。其用户经常在平台上分享生活、评论时政、维护公共秩序等；而且，这些用户往往来自不同地区、不同职业、不同年龄段，用户发布的信息来自不同时间段和情境，内容丰富，所以从微博平台上获得的数据特点鲜明、代表性强。从微博平台获取信息进行处理是获取用户关注点的一种方法。

通过微博内容获取问题点时，一定要充分利用微博用户特点，将用户影响力与用户间互动指数加入到日常分析中，尽可能获得全面的、具有代表性的问题。现有的关于调查问卷问题点的获取或调查问卷设计方面的技术，多通过聚类的方法来实现。但是，网络获取的文本内容与用户信息内容比较复杂，每一个用户都具有鲜明的特点，这些特点对于分析文本内容具有很重要的影响。总之，单纯的通过聚类方法得到的问题点是不全面的。比如对爬虫所得的文本数据进行聚类处理，之后加入了深度学习处理模块，对聚类结果进行再处理。此方法中单纯使用聚类获得的主题结果本身就会遗漏一部分问题点，比如，有一些具有庞大粉丝数量，或者很有影响力的微博用户，发表的内容代表的是众多粉丝的观点，一般会获得很多的转发与评论等，这类用户发表的内容多是需要重点关注的问题。对于这种影响力高的用户，其发表的内容不能依靠单纯的文本聚类方法进行处理，无论后续使用什么方法对聚类结果进行再处理，得到的问题点都是不全面的。

发明内容

本发明实施例提供一种获取调查问卷关注点的方法及系统，用以解决现有技术中获取调查问卷关注点时过于片面，涵盖关注的热点问题不够全面的缺陷。

第一方面，本发明实施例提供一种获取调查问卷关注点的方法，包括：

获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；

对所述目标网页内容进行预处理，得到目标网页预处理内容；

基于所述目标网页预处理内容和所述微博信息提取问题点；

将所述问题点作为调查问卷的关注点。

优选地，所述根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息，具体包括：

基于爬虫技术根据所述指定关键词在网上进行搜索，获取包含所述指定关键词的所述目标网页内容；

利用爬虫程序在所述目标网页内容中下载微博用户个人信息和微博文本内容。

优选地，所述对所述目标网页内容进行预处理，得到目标网页预处理内容，具体包括：

将所述微博文本内容中字数少于预设数量的内容删除，得到第一文本集；

对所述第一文本集进行筛选，去除官方微博用户对应的内容，得到第二文本集；

提取所述第二文本集中的微博文本信息，得到第三文本集；

对所述第三文本集进行分词处理，得到第四文本集。

优选地，所述基于所述目标网页预处理内容和所述微博信息提取问题点，具体包括：

对所述目标网页预处理内容按照所述微博信息对应的影响力指数进行排序，得到第一问题点集合；

将所述目标网页预处理内容中除所述第一问题点集合之外的内容，基于聚类方法，按照所述微博信息对应的文本内容进行排序，得到第二问题点集合；

对所述目标网页预处理内容按照所述微博信息对应的互动指数进行排序，得到第三问题点集合。

优选地，所述将所述问题点作为调查问卷的关注点，具体包括：

对所述第一问题点集合、所述第二问题点集合和所述第三问题点集合求解并集，得到问题点总集合；

将所述问题点总集合作为设计所述调查问卷的参考关注点，输出所述调查问卷。

优选地，所述互动指数由微博正文浏览量和微博评论数量获取。

优选地，所述将所述问题点作为调查问卷的关注点，之后还包括：

获取调查问卷设置规则、历史调查问卷信息和专家经验。

第二方面，本发明实施例提供一种获取调查问卷关注点的系统，包括：

获取模块，用于获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；

预处理模块，用于对所述目标网页内容进行预处理，得到目标网页预处理内容；

提取模块，用于基于所述目标网页预处理内容和所述微博信息提取问题点；

输出模块，用于将所述问题点作为调查问卷的关注点。

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述获取调查问卷关注点的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述获取调查问卷关注点的方法的步骤。

本发明实施例提供的获取调查问卷关注点的方法及系统，通过根据指定关键词搜索目标网页，对目标网页的内容基于微博信息进行数据处理，得出问题关注点，较为全面地覆盖了调查问卷设计中相关问题的关注热度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中调查问卷设计流程图；

图2为本发明实施例提供的调查问卷设计流程图；

图3为本发明实施例提供的一种获取调查问卷关注点的方法流程图；

图4为本发明实施例提供的问题点获取流程图；

图5为本发明实施例提供的一种获取调查问卷关注点的系统结构图；

图6为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中仅依靠确定调查问卷目的和搜集相关资料来进行问卷设计，参见图1所示，导致调查问卷不能全面涵盖最新关注点的问题，本发明实施例选用微博用户产生的内容进行分析，将提取到的关注点提供给设计调查问卷的专家作为参考，使专家尽可能全面的了解相关问题的关注点，设计出高质量的调查问卷，使每一次发放的调查问卷都可以得到预期的效果，进行高效调查，与现有技术相比，参见图2所示，增加了根据关键词获取网页这一途径，使得设计的调查问卷更具有全面性和针对性。

图3为本发明实施例提供的一种获取调查问卷关注点的方法流程图，如图3所示，包括：

S1，获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；

S2，对所述目标网页内容进行预处理，得到目标网页预处理内容；

S3，基于所述目标网页预处理内容和所述微博信息提取问题点；

S4，将所述问题点作为调查问卷的关注点。

具体地，首先根据调查意向选出最核心的指定关键词，然后根据该指定核心关键词在网络上搜索包含该核心关键词的对应目标网页内容，以及该网页内容在微博中的对应信息，进一步对搜索获取的目标网页内容进行预处理，从而得到目标网页的预处理内容，再基于目标网页预处理内容和前述搜索对应的微博相关信息全面提取与调查意向紧密相关的问题点，最后将总结出的问题点作为设计调查问卷所依据的关注点。

例如根据指定关键词获取目标网页，并获取每个网页对应的请求网址URL，通过爬虫程序根据自己需求获取相应信息，例如采用微博正文、评论内容及数量、微博正文点赞数、浏览量、用户等级、影响力、粉丝数量等内容，并保存至本地CSV文件中，每一个微博博主的相关信息作为一条数据。

本发明实施例通过根据指定关键词搜索目标网页，对目标网页的内容基于微博信息进行数据处理，得出问题关注点，较为全面地覆盖了调查问卷设计中相关问题的关注热度。

基于上述实施例，所述对所述目标网页内容进行预处理，得到目标网页预处理内容，具体包括：

提取所述第二文本集中的微博文本信息，得到第三文本集；

对所述第三文本集进行分词处理，得到第四文本集。

具体地，首先将微博用户发表的微博正文，以及每条微博获得的评论内容、评论数量、转发数量、点赞数量等信息进行整理，作为该用户的相应参数。然后删除微博正文字数不超过预设数量，例如5个的微博用户及其相关内容，将剩余用户及其相关内容定义为第一文本集。

在“微博认证”这一项内容中筛选具有“官方微博”介绍词的微博用户，此处，使用爬虫方法获取微博正文以及博文评论内容、点赞数、转发数、评论数和浏览数等微博正文相关内容，并获取发表微博用户的个人资料，比如，影响力、粉丝数、关注数、等级、是否为大V用户等各种信息。为了避免官方微博发表的通知类的微博影响问题点的提取，对提取的信息进行降噪处理，删除官方微博用户信息及其发表的内容，即在第一文本集的基础上除去这些用户的相关信息，得到第二文本集。

然后在第二文本集中提取微博正文与评论，对每个用户的内容进行归档，将所有用户的文档构成第三文本集。

进一步地，对第三文本集进行分词处理，例如使用jieba分词算法进行分词处理，但不仅限于此方法，得到第四文本集。此处，具体处理为：1)除去文本内容中字数少于15个字的文本内容；2)除去文本中无用的特殊符号，比如：#、【】、@、表情等；3)将文本内容分为单个的词语；4)对分词后的内容进行主题聚类，获得23个由10个词表示的主题结果，每个主题结果包含至少1个问题点。

本发明实施例通过对目标网页预处理内容进行四个步骤的逐层处理，去除与指定关键词内容无关的部分，减少干扰信息，有效提升核心内容文本的搜索准确率。

基于上述任一实施例，所述基于所述目标网页预处理内容和所述微博信息提取问题点，具体包括：

具体地，为了更精确地提取问题点，本发明实施例采用了以下三个步骤进行处理，参见图4所示：

第一步，对目标网页预处理内容，一般采用前述实施例中预处理过的第三文本集按照微博的影响力指数进行排序，例如根据最具影响力的前50名微博用户的微博正文及其相关内容，提取问题点，得到第一问题点集合。此处，由于微博作为一个热门的社交平台，对于微博用户发布的关于指定关键词的看法或者问题，具有相同或相反观点的其他用户会进行评论、点赞或转发微博正文，这些信息代表了其他微博用户对该条微博的看法。而且，粉丝数量超过一万的微博用户，发表的微博内容一般是对粉丝观点的总结，代表的是多数人的意见，具有很高的参考价值。

第二步，除去第一步中处理过的文本内容部分，将剩余部分使用NMF(Non-negative Matrix Factorization，非负矩阵分解)方法进行文本聚类，进而获得影响力较低但具有广泛性的问题点，即第二问题点集合。

第三步，仍然是对第三文本集进行处理，根据互动指数进行排序，排序依据使用改进的Hacker News算法，即排名算法，选取排名最高的前若干名，例如50名进行文本分析，获取微博用户频繁互动的问题点，即第三问题点集合。

本发明实施例通过从微博内容的多个维度对问题点进行筛选和提取，即覆盖了热度，又覆盖了广度，比较全面地获取了关键文本信息。

基于上述任一实施例，所述将所述问题点作为调查问卷的关注点，具体包括：

具体地，将前述实施例中使用三种方法得到的问题点集合进行归纳总结，合并相同或相似的问题点，最后剩余的就是设计调查问卷需考虑的关注点，最后将整理好的关注点提供给设计调查问卷的专家作为参考。

基于上述任一实施例，所述互动指数由微博正文浏览量和微博评论数量获取。

具体地，互动指数的评价公式为：

其中：S表示互动指数，P表示微博正文浏览量，Q表示评论数量，G作为一个参数取值为1.25。

本发明实施例通过由微博正文浏览量和微博评论数量计算得到互动指数，比较客观地得到微博互动指数，使得通过互动指数提取的问题点更加真实可信。

基于上述任一实施例，所述将所述问题点作为调查问卷的关注点，之后还包括：

获取调查问卷设置规则、历史调查问卷信息和专家经验。

具体地，在全面客观地根据网页内容及微博信息获取问题点之后，还要结合调查问卷的设置规则，参考历史调查问卷的信息以及相关专家的经验，才能设计出实用性更强的调查问卷。

下面以一个具体的实施例来说明本发明所提出的一种获取调查问卷关注点的方法，针对“厦门公交”关键词获得微博用户产生内容用本专利设计的三种方法可以获得的问题点示例如下：

方法一：根据用户影响力较高的的微博用户产生的微博内容，可以得到的问题点包括：公交司机在驾驶过程中身体出现突发情况(疾病发作、晕倒等情况)、乘客在公交车上随手涂鸦、公交车内空调温度的设定等问题。针对公交车上温度设置过高或过低的问题，不仅是公共资源的浪费，乘车下车间的温度差异也会不利于乘客的身体健康，为了提高公共交通的服务质量，更好的为乘客服务，可以设计如下问题进行调查：

1、公交车内的空调温度的设定是否需要根据实际情况随时调整？您的观点是：

a)应该设置固定温度，便于公交车的管理

b)需公交车司机根据实际情况随时调节温度

c)乘客在乘车过程中可向公交司机提出更改空调温度的要求

d)公交车按照班车时间表安全运行即可，其他问题不用过多要求

方法二：根据微博用户讨论频率比较频繁，互动指数比较高的微博用户产生内容。可以得到以下热点话题：公交车上存在的乘客使用物品霸占座位；公交线路安排不合理导致站点重复等问题点；公交乘客后门上车，没有刷卡或投币以及个别乘客在公交车上做出不尊重女性的行为等问题。乘客后门上车忘记刷卡或投币的问题，这种行为虽然是个别现象，但是也违背了“文明乘车”的社会准则，因此可以设计问题如下：

2、针对公交车内人员拥挤时，部分乘客在后门上车且忘记刷卡或投币的问题，针对这种问题您的观点是：

a)禁止后门上车，文明乘车

b)在前门投币或刷卡之后才能从后门上车

c)在后门设置投币箱，并设置标语

d)个别事例，无需多管

女性作为社会中的弱势群体，在人员拥挤的公共场合不可避免会受到来自某些道德观念底下的异性的骚扰，这给女性带来了很大的困扰，征求群众意见尽量减少同类事件的发生率是一个值得社会思考的一个问题。据此可以在调查问卷中设计问题如下：

3、对于公交车上出现的个别乘客做出的不尊重女性的行为，应该怎么解决？

a)在乘车高峰期开设女性公交专列

b)将公交车上的指定区域作为女性专座

c)在公交车上增加公交管理员监督乘客行为d)当今社会提倡男女平等，设置女性专座或专利是对男性的歧视

方法三：根据文本聚类的方法获得的主题结果，可以得到以下问题点内容：公交车后门未关闭就启动发车、公交线路站点安排不合理、高峰期公交不能准点发车存在提前与延迟现象、公交车司机普通话不标准以及公交车站点停靠时的提醒问题等。公交车在后门未关闭的情况驶出公交站一种违反安全驾驶，忽视乘客安全的行为，必须杜绝再次发生。该项内容可以作为设计调查问卷一个问题点。

4、针对公交车后门为关闭，公交司机便驶离公交站台的问题，应该如何解决？

a)制定严格的规章制度，进行处罚

b)发动乘客共同监督，并实行举报奖励活动

c)定期对公交车司机进行安全培训，坚决避免类似情况发生公交车上安装一种联动装置，车门未关闭时不能启动

图5为本发明实施例提供的一种获取调查问卷关注点的系统结构图，如图5所示，包括：获取模块51、预处理模块52、提取模块53和输出模块54；其中：

获取模块51用于获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；预处理模块52用于对所述目标网页内容进行预处理，得到目标网页预处理内容；提取模块53用于基于所述目标网页预处理内容和所述微博信息提取问题点；输出模块54用于将所述问题点作为调查问卷的关注点。

本发明实施例提供的系统用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

基于上述任一实施例，所述预处理模块52包括第一预处理子模块521、第二预处理子模块522、第三预处理子模块523和第四预处理子模块524；其中：

第一预处理子模块521用于将所述微博文本内容中字数少于预设数量的内容删除，得到第一文本集；第二预处理子模块522用于对所述第一文本集进行筛选，去除官方微博用户对应的内容，得到第二文本集；第三预处理子模块523用于提取所述第二文本集中的微博文本信息，得到第三文本集；第四预处理子模块524用于对所述第三文本集进行分词处理，得到第四文本集。

基于上述任一实施例，所述提取模块53包括第一提取子模块531、第二提取子模块532和第三提取子模块533；其中：

第一提取子模块531用于对所述目标网页预处理内容按照所述微博信息对应的影响力指数进行排序，得到第一问题点集合；第二提取子模块532用于将所述目标网页预处理内容中除所述第一问题点集合之外的内容，基于聚类方法，按照所述微博信息对应的文本内容进行排序，得到第二问题点集合；第三提取子模块533用于对所述目标网页预处理内容按照所述微博信息对应的互动指数进行排序，得到第三问题点集合。

基于上述任一实施例，所述输出模块54包括合并子模块541和输出子模块542；其中：

合并子模块541用于对所述第一问题点集合、所述第二问题点集合和所述第三问题点集合求解并集，得到问题点总集合；输出子模块542用于将所述问题点总集合作为设计所述调查问卷的参考关注点，输出所述调查问卷。

基于上述任一实施例，所述第三提取子模块533中的所述互动指数由微博正文浏览量和微博评论数量获取。

基于上述任一实施例，该系统还包括参考模块55，所述参考模块55用于获取调查问卷设置规则、历史调查问卷信息和专家经验。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；对所述目标网页内容进行预处理，得到目标网页预处理内容；基于所述目标网页预处理内容和所述微博信息提取问题点；将所述问题点作为调查问卷的关注点。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取指定关键词，根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息；对所述目标网页内容进行预处理，得到目标网页预处理内容；基于所述目标网页预处理内容和所述微博信息提取问题点；将所述问题点作为调查问卷的关注点。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种获取调查问卷关注点的方法，其特征在于，包括：

基于所述目标网页预处理内容和所述微博信息提取问题点；

将所述问题点作为调查问卷的关注点；

所述基于所述目标网页预处理内容和所述微博信息提取问题点，具体包括：

2.根据权利要求1所述的获取调查问卷关注点的方法，其特征在于，所述根据所述指定关键词获取目标网页内容和所述目标网页内容对应的微博信息，具体包括：

3.根据权利要求2所述的获取调查问卷关注点的方法，其特征在于，所述对所述目标网页内容进行预处理，得到目标网页预处理内容，具体包括：

提取所述第二文本集中的微博文本信息，得到第三文本集；

对所述第三文本集进行分词处理，得到第四文本集。

4.根据权利要求1所述的获取调查问卷关注点的方法，其特征在于，所述将所述问题点作为调查问卷的关注点，具体包括：

5.根据权利要求1所述的获取调查问卷关注点的方法，其特征在于，所述互动指数由微博正文浏览量和微博评论数量获取。

6.根据权利要求1至5中任一权利要求所述的获取调查问卷关注点的方法，其特征在于，所述将所述问题点作为调查问卷的关注点，之后还包括：

获取调查问卷设置规则、历史调查问卷信息和专家经验。

7.一种获取调查问卷关注点的系统，其特征在于，包括：

提取模块，用于基于所述目标网页预处理内容和所述微博信息提取问题点，具体用于：

对所述目标网页预处理内容按照所述微博信息对应的互动指数进行排序，得到第三问题点集合；

输出模块，用于将所述问题点作为调查问卷的关注点。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述获取调查问卷关注点的方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述获取调查问卷关注点的方法的步骤。