CN113010659A - 一种问卷样本处理方法及装置 - Google Patents

一种问卷样本处理方法及装置 Download PDF

Info

Publication number
CN113010659A
CN113010659A CN202110379675.1A CN202110379675A CN113010659A CN 113010659 A CN113010659 A CN 113010659A CN 202110379675 A CN202110379675 A CN 202110379675A CN 113010659 A CN113010659 A CN 113010659A
Authority
CN
China
Prior art keywords
questionnaire
sample
questionnaire sample
invalid
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110379675.1A
Other languages
English (en)
Inventor
李泽帆
范俊豪
邱锦森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110379675.1A priority Critical patent/CN113010659A/zh
Publication of CN113010659A publication Critical patent/CN113010659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于计算机技术领域,具体涉及一种问卷样本处理方法及装置。问卷样本处理方法包括:获取待处理的问卷样本及问卷样本对应的用户行为数据,其中,用户行为数据包括用户完成问卷样本的过程中的操作行为及操作行为发生的时间的时间戳;将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据;基于问卷样本的特征数据预测问卷样本的无效概率;当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本。基于本申请的问卷样本处理方法及装置能够根据问卷样本的无效概率判定无效问卷样本,有利于将无效问卷样本从回收的大量问卷样本中高效地挑选并清洗出来,从而能够提高回收的问卷样本的数据可靠性。

Description

一种问卷样本处理方法及装置
技术领域
本申请属于计算机技术领域,具体涉及一种问卷样本处理方法及装置。
背景技术
在问卷调研中,存在刷回收或回答者不认真答题等现象,从而影响调研形成的报告的可靠性,影响问卷调研的结论的准确性。因此,在问卷回收完后可以通过人工对问卷的有效性进行判断的方式将这部分无效样本剔除。但是,如果采用人工对问卷的有效性进行判断的方式判别无效样本,需要大量的人力成本和时间成本,判断速度较低,并且要求每个操作人员对无效样本的的敏感性较高,才能准确地识别出无效样本,可操作性较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种问卷样本处理方法及装置,至少在一定程度上克服相关技术中采用人工对问卷的有效性进行判断的方式判别无效样本的识别效率低等技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种问卷样本处理方法,所述方法包括:
获取待处理的问卷样本及所述问卷样本对应的用户行为数据,其中,所述用户行为数据包括用户完成问卷样本的过程中的操作行为及所述操作行为发生的时间的时间戳;
将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据;
基于所述问卷样本的特征数据预测所述问卷样本的无效概率;
当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本。
根据本申请实施例的一个方面,提供一种问卷样本处理装置,所述问卷样本处理装置包括:
样本数据获取模块,被配置为获取待处理的问卷样本及所述问卷样本对应的用户行为数据,其中,所述用户行为数据包括用户完成问卷样本的过程中的操作行为及所述操作行为发生的时间的时间戳;
特征数据获取模块,被配置为将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据;
无效概率预测模块,被配置为基于所述问卷样本的特征数据预测所述问卷样本的无效概率;
问卷样本判定模块,被配置为当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本。
在本申请的一些实施例中,基于以上技术方案,所述特征数据获取模块包括:
中间数据获取单元,被配置为将所述问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到以题目为粒度的中间数据;
特征数据获取单元,被配置为将所述中间数据以问卷样本粒度进行聚合和特征提取,得到所述问卷样本的特征数据。
在本申请的一些实施例中,基于以上技术方案,所述无效概率预测模块包括:
特征数据划分单元,被配置为将所述特征数据划分为数值类特征数据和非数值类特征数据;
归一化处理单元,被配置为对所述数值类特征数据进行归一化处理以得到第一预处理数据;
数值化处理单元,被配置为对所述非数值类数据进行数值化处理以得到第二预处理数据;
无效概率预测单元,被配置为将所述第一预处理数据和所述第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取所述问卷样本的无效概率,其中,所述问卷样本清洗模型用于预测所述问卷样本的无效概率。
在本申请的一些实施例中,基于以上技术方案,所述问卷样本处理装置还包括:
训练集建立单元,被配置为获取标记了结果标签的问卷样本及所述问卷样本对应的用户行为数据,以建立训练集,其中,所述结果标签包括有效标签和无效标签;
分类器训练单元,被配置为采用所述训练集对一个或多个分类器进行训练;
清洗模型构建单元,被配置为根据训练后的所述一个或多个所述分类器构建问卷样本清洗模型。
在本申请的一些实施例中,基于以上技术方案,所述清洗模型构建单元包括:
训练效果获取子单元,被配置为获取训练后的所述一个或多个所述分类器的分类准确率、分类精确率和问卷样本召回率;
清洗模型组合子单元,被配置为根据所述分类器的分类准确率、分类精确率和分类召回率,选择一个或多个所述分类器组合成所述问卷样本清洗模型。
在本申请的一些实施例中,基于以上技术方案,所述训练集建立单元包括:
无效问卷样本获取子单元,被配置为获取标记了无效标签的无效问卷样本,并将所述无效问卷样本加入到训练集中;
反标问卷样本获取子单元,被配置为获取标记了有效标签的反标问卷样本,并将所述反标问卷样本加入到所述训练集中,所述反标问卷样本为被所述问卷样本清洗模型误判为无效问卷样本的问卷样本;
有效问卷样本获取子单元,被配置为获取标记了有效标签的有效问卷样本,并将所述有效问卷样本加入到所述训练集中,以使得所述无效问卷样本占训练集中所有带有结果标签的问卷样本的比例在预设的比例范围中。
在本申请的一些实施例中,基于以上技术方案,所述样本数据获取模块包括:
数据实时抓取单元,被配置为抓取实时上传的用户行为数据、问卷样本和问卷题目数据,其中,所述用户行为数据绑定了问卷标签和样本标签,所述问卷样本绑定了问卷标签和样本标签,所述问卷题目数据绑定了问卷标签和样本标签;
数据聚合单元,被配置为将绑定了相同的问卷标签和相同的样本标签的所述用户行为数据、所述问卷样本和所述问卷题目数据聚合,得到待处理的问卷样本、所述问卷样本对应的用户行为数据以及所述问卷样本对应的题目数据。
在本申请的一些实施例中,基于以上技术方案,所述无效问卷样本包括大概率无效问卷样本和疑似无效问卷样本;所述问卷样本判定模块包括:
疑似无效判定单元,被配置为当所述问卷样本的无效概率大于第一预设阈值并且小于或等于第二预设阈值时,判定所述问卷样本为疑似无效问卷样本;
大概率无效判定单元,被配置为当所述问卷样本的无效概率大于第二预设阈值时,判定所述问卷样本为大概率无效问卷样本。
在本申请的一些实施例中,基于以上技术方案,所述问卷样本处理装置还包括:
问卷样本回收模块,被配置为自一个或多个渠道中回收问卷样本;
无效概率获取模块,被配置为分别获取每个所述渠道中的问卷样本的无效概率;
渠道质量诊断模块,被配置为根据每个所述渠道对应的问卷样本无效概率的分布情况诊断所述渠道的渠道质量。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的问卷样本处理方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的问卷样本处理方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的问卷样本处理方法。
在本申请实施例提供的技术方案中,通过将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据,再基于问卷样本的特征数据预测问卷样本的无效概率,并当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本,实现对问卷样本的无效概率的预测,并能够根据问卷样本的无效概率判定无效问卷样本,有利于将无效问卷样本从回收的大量问卷样本中高效地挑选并清洗出来,从而能够提高回收的问卷样本的数据可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2示意性地示出了本申请某些实施方式的问卷样本处理方法的步骤流程图。
图3示出了本申请某些实施方式对问卷样本及问卷样本对应的用户行为数据进行处理,并判定无效问卷样本的可视化示意图。
图4示意性地示出了本申请某实施例的对无效问卷样本进行汇总的汇总结果的展示页。
图5示意性地示出了本申请某实施例的对问卷样本数据进行分类后的月度监控图。
图6示意性地示出了本申请某实施例中获取待处理的问卷样本及问卷样本对应的用户行为数据的步骤流程图。
图7示意性地示出了本申请某实施例中将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据的步骤流程图。
图8示出了本申请某实施例中将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据的过程示意图。
图9示意性地示出了本申请某实施例中基于问卷样本的特征数据预测问卷样本的无效概率的步骤流程图。
图10示出了本申请某实施例中基于问卷样本的特征数据预测问卷样本的无效概率的过程示意图。
图11示意性地示出了本申请某实施例中将第一预处理数据和第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取问卷样本的无效概率之前的步骤流程图。
图12示意性地示出了本申请某实施例中根据训练后的一个或多个分类器构建问卷样本清洗模型的步骤流程图。
图13示出了本申请某实施例中构建训练集、模型训练与选择、模型上线应用、产生新数据的循环过程示意图。
图14示意性地示出了本申请某实施例中获取标记了结果标签的问卷样本及问卷样本对应的用户行为数据,以建立训练集的步骤流程图。
图15示意性地示出了本申请某实施例中当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本的步骤流程图。
图16示意性地示出了本申请某实施例中问卷样本处理方法的部分步骤流程图。
图17a示意性地示出了本申请某实施例中第一渠道对应的问卷样本无效概率的分布情况图。
图17b示意性地示出了本申请某实施例中第二渠道对应的问卷样本无效概率的分布情况图。
图17c示意性地示出了本申请某实施例中第三渠道对应的问卷样本无效概率的分布情况图。
图18示意性地示出了本申请实施例提供的问卷样本处理装置的结构框图。
图19示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
需要说明的是,本申请涉及到的数据可存储在区块链中,例如,问卷样本的特征数据等。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,服务器130上可以搭载了本申请实施方式的问卷样本处理方法,用户填写问卷后,可以通过客户端110实时上传回收的问卷样本到服务器130中,再由服务器130实施本申请实施方式的问卷样本处理方法,以对无效样本进行剔除,实现对问卷样本进行数据清洗。由此,能够实现对问卷样本的无效概率的预测,并能够根据问卷样本的无效概率判定无效问卷样本,有利于将无效问卷样本从回收的大量问卷样本中高效地挑选并清洗出来,从而能够提高回收的问卷样本的数据可靠性。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可以理解,基于规则设置的人工样本清洗需要由人工手动操作清洗,费时费力,并且需要有专业的用研人员设置剔除规则或陷阱题,对操作人员的要求较高,普适性低,而本申请实施方式的问卷样本处理方法能够根据问卷样本的无效概率判定无效问卷样本,有利于将无效问卷样本从回收的大量问卷样本中高效地挑选并清洗出来,从而能够以较低的时间成本和人力成本对无效问卷样本进行判定,从而实现数据清洗,普适性较高。
下面结合具体实施方式对本申请提供的问卷样本处理方法做出详细说明。
图2示意性地示出了本申请某些实施方式的问卷样本处理方法的步骤流程图。该问卷样本处理方法的执行主体可以是终端设备,也可以是服务器等,本申请对此不设限。如图2所示,该问卷样本处理方法主要可以包括如下步骤S210~步骤S240。
S210.获取待处理的问卷样本及问卷样本对应的用户行为数据,其中,用户行为数据包括用户完成问卷样本的过程中的操作行为及操作行为发生的时间的时间戳;
S220.将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据;
S230.基于问卷样本的特征数据预测问卷样本的无效概率;
S240.当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本。
问卷主发布问卷,用户对问卷进行填答产生问卷样本并提交问卷样本后,可以从实时录入问卷样本的数据库中、实时录入问卷样本的的消息队列中或者存储着历史问卷数据的数据库中获取待处理的问卷样本及问卷样本对应的用户行为数据。其中,问卷样本为用户填答完成并提交问卷后,形成的问卷及对应的相关填答数据,也即数据库回收的问卷及对应的相关填答数据。用户行为数据包括用户完成问卷样本的过程中的操作行为及操作行为发生的时间的时间戳。具体地,时间戳可以精确到毫秒。
图3示出了本申请某些实施方式对问卷样本及问卷样本对应的用户行为数据进行处理,并判定无效问卷样本的可视化示意图。如图3所示,横轴为时间戳,每一行代表回收的一个问卷样本,每个问卷样本具有对应的唯一的问卷样本编号,每行中的每个圆点代表用户的一个用户行为数据。其中,用户行为数据可以包括以下数据中的一种或多种:打开问卷、移动鼠标、点击鼠标、滚动鼠标、翻页、填答题目和提交问卷。
将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,可以得到问卷样本的特征数据。特征数据可以包括以下数据中的一种或多种:问卷答题时长、题目答题时长、题目读题时长、答题总数、题目内容长度、题目选项个数、题目回答选项、用户阅读速度、用户来源和用户使用设备中的一种或多种。不同的特征数据与问卷样本的无效之间可以具有不同的相关系数。
然后,基于问卷样本的特征数据预测问卷样本的无效概率,并当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本。对多个问卷样本进行判定之后的判定结果进行可视化后,如图3所示,框内的问卷样本为无效问卷样本。
其中。判断问卷样本为无效样本也即将问卷判定为在问卷调研中影响最终结论的样本,该部分样本很可能来源于刷问卷样本回收或者不认真答题的用户。在判定问卷样本为无效问卷样本后,可以对无效问卷样本进行汇总并将汇总结果展示给问卷主。图4示意性地示出了本申请某实施例的对无效问卷样本进行汇总的汇总结果的展示页。如图4所示,对被判定为无效问卷样本的问卷样本进行展示和排列。其中,“用户名”为对该无效问卷样本进行填答的用户的用户名。“答题时长”为该无效问卷样本的用户从打开该问卷至提交该问卷经过的时长。“红包奖励”为问卷的红包发放情况。部分平台或问卷主会通过发放红包的方式激励用户填写问卷,可能会增大获得无效问卷样本的概率。“审核人”为该问卷样本被判定为无效问卷样本的判定者。其中,若是由本申请实施方式的问卷样本处理方法判定为无效问卷样本的,则审核人为“智能识别”。若是由审核员工通过人工对问卷样本中的无效问卷样本进行判定,得到无效问卷样本的判定结果,则标注具体的审核员工,如“Lynnliu”。图4所示的无效问卷样本的汇总结果展示页还提供了问卷的查看入口,可以通过点击“点击查看”对该行对应的问卷样本的答题情况和用户行为数据进行查看。“提交时间”为该无效问卷样本的提交日期和时间。点击“操作”列的“点击标为有效问卷样本”可以将该无效问卷样本反标为有效问卷样本。由此,问卷主可以通过查看和操作图4所示的无效问卷样本的汇总结果展示页,实现对误判别的无效问卷样本的反标,有利于减小本申请某些实施方式问卷样本处理方法的误判率,提高对问卷样本的判别的准确度。问卷主还可以在发现过多的有效问卷样本被误判为无效问卷样本时,点击“误标问卷太多?请点击反馈。”反馈误判率过高的情况,从而有利于本申请某些实施方式问卷样本处理方法根据反馈对步骤S220、S230或S240中的操作进行修正,也有利于问卷样本清洗模型的进一步训练和进化,以提高对问卷样本的无效概率的判定的准确率。
经过以上操作,还可以得到如图5所示的,对问卷样本数据进行分类后的月度监控图。如图5所示,横轴为问卷样本的产生时间,纵轴为问卷样本的数量。如图5中所示,可以将每个月份回收的所有问卷样本分类成有效问卷样本、人工标记的无效问卷样本、自动判定的无效问卷样本和反标问卷样本。其中,人工标记的无效问卷样本由审核员工通过人工对问卷样本中的无效问卷样本进行判定,得到无效问卷样本的判定结果。自动判定的无效问卷样本为由本申请实施方式的问卷处理方法判定为无效问卷样本的问卷样本。有效问卷样本为经过审核员工审核为有效的问卷样本,或未被本申请实施方式的问卷处理方法判定为无效问卷样本的问卷样本。反标问卷样本为被问卷样本清洗模型误判为无效问卷样本,再由人工主动反标为有效问卷样本的问卷样本。由此,可以对每个月份回收的所有问卷样本分类成有效问卷样本、人工标记的无效问卷样本、自动判定的无效问卷样本和反标问卷样本,并生成柱状图等可视化图表展现给问卷主,使得问卷主可以对问卷的组成部分进行直观的分析,从而能够更好地把握问卷回收情况,进行相应的措施调整,如增发问卷渠道、取消红包激励等。
在某些实施方式中,在判定问卷样本为无效问卷样本后,可以将无效问卷样本存储到预设的数据库中,以便后续对无效问卷样本进行分析和汇总,也可以将剔除了无效问卷样本的问卷样本存储到预设的另一数据库中,以便后续根据剔除了无效问卷样本的问卷样本对问卷调研的问题进行数据分析,输出问卷报告,能够提高问卷调研输出的报告和结论的准确性。
图6示意性地示出了本申请某实施例中获取待处理的问卷样本及问卷样本对应的用户行为数据的步骤流程图。如图6所示,在以上实施例的基础上,步骤S210中的获取待处理的问卷样本及问卷样本对应的用户行为数据,可以进一步包括以下步骤S610~步骤S620。
S610.抓取实时上传的用户行为数据、问卷样本和问卷题目数据,其中,用户行为数据绑定了问卷标签和样本标签,问卷样本绑定了问卷标签和样本标签,问卷题目数据绑定了问卷标签和样本标签;
S620.将绑定了相同的问卷标签和相同的样本标签的用户行为数据、问卷样本和问卷题目数据聚合,得到待处理的问卷样本、问卷样本对应的用户行为数据以及问卷样本对应的题目数据。
用户行为数据的原始数据采集后可以通过接口储存在数据库Elasticsearch或列式数据库Clickhouse中。Elasticsearch是一个分布式的搜索服务器。Clickhouse是一个列式储存数据库。当有新的问卷样本回收时,可以将问卷样本加入到Kafka消息队列中,并通过消息队列存储到问卷回收数据库中。问卷后台数据库存储着问卷主创建的问卷的所有题目及相关设置等数据。
获取待处理的问卷样本及问卷样本对应的用户行为数据时,可以异步实时地从用户行为数据库中拉取用户行为数据,从问卷后台数据库中拉取相关问卷的所有题目、设置等题目数据,再从问卷回收数据库拉取回收的相关的问卷样本。然后,再将绑定了相同的问卷标签和相同的样本标签的用户行为数据、问卷样本和问卷题目数据聚合,得到待处理的问卷样本、问卷样本对应的用户行为数据以及问卷样本对应的题目数据。由此,可以通过对绑定了相同的问卷标签和相同的样本标签的用户行为数据、问卷样本和问卷题目数据聚合,实现数据的实时快速拉取,从而能够对实时上传的用户行为数据、问卷样本和问卷题目数据采用本申请实施方式的问卷样本处理方法进行样本清洗,有利于实时监控问卷回收的大盘的问卷样本的无效问卷样本的占比情况。
图7示意性地示出了本申请某实施例中将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据的步骤流程图。如图7所示,在以上实施例的基础上,步骤S220中的将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据,可以进一步包括以下步骤S710~步骤S720。
S710.将问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到以题目为粒度的中间数据;
S720.将中间数据以问卷样本粒度进行聚合和特征提取,得到问卷样本的特征数据。
在一些实施方式中,预设粒度可以包括题目粒度和问卷样本粒度。
图8示出了本申请某实施例中将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据的过程示意图。如图8所示,先从用户行为数据库中拉取用户行为数据,得到如虚线框810中所示的用户行为数据。该用户行为数据的问卷样本标签也即会话id为021,该用户行为数据的用户身份标签也即用户id为ly1277,该用户行为数据的问卷标签为001。在虚线框810中所示的用户行为数据中显示:在时间戳为0s时,用户打开问卷;在时间戳为0.5s时,用户对题目A进行填答;在时间戳为3s时,用户再次对题目A进行填答;在时间戳为4s时,用户第三次对题目A进行填答;在时间戳为6s时,用户对题目B进行填答;在时间戳为9s时,用户再次对题目B进行填答;在时间戳为10s时,用户提交问卷。
然后,再从问卷后台数据库中拉取相关问卷的所有题目、设置等题目数据,并且从问卷回收数据库拉取回收的相关的问卷样本,将绑定了相同的问卷标签和相同的样本标签的用户行为数据、问卷样本和问卷题目数据聚合,并且,将问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到如图8中的虚线框820中所示的以题目为粒度的中间数据。在虚线框820中所示的以题目为粒度的中间数据中,包括两组以题目为粒度的数据。
第一组数据包括围绕着题目标签为题目A的数据进行聚合和特征提取:根据用户行为数据中,用户打开问卷的时间戳0s和用户第一次填答题目A的时间戳0.5s得到题目A的读题时长为0.5s;根据用户行为数据中用户打开问卷的时间戳0s和用户第三次填答完成题目A的时间戳4s得到题目A的答题时长为4s;根据用户行为数据中填答题目A的次数得到题目A的答题次数3;根据问卷题目数据库中拉取的问卷题目数据得到题目A的内容长度16和选项个数3,以题目为粒度的其他特征的提取过程与之类似。
第二组数据包括围绕着题目标签为题目B的数据进行聚合和特征提取:根据用户行为数据中,用户第三次填答完成题目A的时间戳4s和用户第一次填答题目B的时间戳6s得到题目B的读题时长为2s;根据用户行为数据中用户第三次填答完成题目A的时间戳4s和用户第二次填答完成题目B的时间戳9s得到题目B的答题时长为5s;根据用户行为数据中填答题目B的次数得到题目B的答题次数2;根据问卷题目数据库中拉取的问卷题目数据得到题目B的内容长度10和选项个数1(当选项个数为1时,该题可以为填空题或者非必做题),以题目为粒度的其他特征的提取过程与之类似。
然后,再将中间数据以问卷样本粒度进行聚合和特征提取,得到问卷样本的如图8的虚线框830所示的特征数据。图8的虚线框830所示的问卷样本的特征数据的聚合和特征提取的具体过程如下:根据用户行为数据中,用户打开问卷的时间戳0s和用户提交问卷的时间戳10s得到该问卷的答题总时长10s;(0,1)s的读题比例为时间戳在(0,1)s之间的题目填答行为所指示的题目个数占所有题目的比例,本问卷样本中时间戳在(0,1)s之间的题目填答行为所指示的题目仅有题目A,个数1的题目占题目总数2的0.5,因此得到(0,1)s的读题比例为0.5;(0,1)s的答题比例为时间戳在(0,1)s之间的题目填答完成的行为所指示的题目个数占所有题目的比例,本问卷样本中时间戳在(0,1)s之间的题目填答完成的行为不存在,题目填答完成的行为所指示的题目个数为0,因此得到(0,1)s的答题比例为0;题目包括题目A和题目B,得到题目总数为2;来源可以记载在问卷回收数据库中,问卷样本回收的渠道来源为微信;用户设备可以记载在问卷回收数据库中,该问卷样本中,产生并发送该问卷样本的用户设备为IOS设备;根据题目A和题目B的答题时长得到题目A和题目B的答题时长的加和为4s+5s=9s,根据题目A和题目B的内容长度得到题目A和题目B的内容长度的加和为26,根据题目A和题目B的答题时长的加和9s与题目A和题目B的内容长度的加和26得到该问卷样本的平均阅题速度为26/9=2.89。
在某些实施例中,无法进一步聚合和作特征提取的用户行为数据可以直接输出为中间数据;无法进一步聚合和作特征提取的中间数据可以直接输出为特征数据。
由此,通过将问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到以题目为粒度的中间数据,再将中间数据以问卷样本粒度进行聚合和特征提取,得到问卷样本的特征数据,实现对问卷样本以预设粒度进行聚合和特征提取,得到问卷样本的特征数据,从而有利于后续根据问卷样本的特征数据继续处理,最终得到该问卷样本的无效概率和该问卷样本是否为无效问卷样本的判定结果。
在另一些实施方式中,预设粒度还可以包括其他粒度。例如翻页粒度等,可以将问卷样本的用户行为数据以翻页粒度进行聚合和特征提取,得到以翻页为粒度的中间数据,再将中间数据以问卷样本粒度进行聚合和特征提取,得到问卷样本的特征数据。例如,将与翻页有关的用户行为数据进行聚合和特征提取,得到翻页速度和翻页次数。由此,可以对问卷样本的用户行为数据实现多样化的聚合和特征提取,有利于提高后续判断问卷样本的无效概率的准确性。
图9示意性地示出了本申请某实施例中基于问卷样本的特征数据预测问卷样本的无效概率的步骤流程图。如图9所示,在以上实施例的基础上,步骤S230中的基于问卷样本的特征数据预测问卷样本的无效概率,可以进一步包括以下步骤S910~步骤S940。
S910.将特征数据划分为数值类特征数据和非数值类特征数据;
S920.对数值类特征数据进行归一化处理以得到第一预处理数据;
S930.对非数值类数据进行数值化处理以得到第二预处理数据;
S940.将第一预处理数据和第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取问卷样本的无效概率,其中,问卷样本清洗模型用于预测问卷样本的无效概率。
例如,数值类特征数据可以包括问卷答题总时长、题目内容长度、选项个数、题目读题时长的占比、题目答题时长的占比、回答题目总数。非数值类数据可以包括用户来源、用户设备等。
图10示出了本申请某实施例中基于问卷样本的特征数据预测问卷样本的无效概率的过程示意图。请参阅图10,先获取问卷样本的特征数据,然后对问卷样本的特征数据进行数据预处理后输入到问卷样本清洗模型中,得到问卷样本的无效概率;然后,根据预先配置好的预设阈值,在问卷样本的无效概率大于预设阈值时,将该问卷样本标记为无效问卷样本,上报无效问卷样本以供监控。而如果问卷样本的无效概率小于或等于预设阈值,则可以将该问卷样本标记为有效问卷样本,或者可以不对该问卷样本进行标记。其中,数据预处理包括数值化处理或归一化处理。具体地,可以先将特征数据划分为数值类特征数据和非数值类特征数据,然后对数值类特征数据进行归一化处理以得到第一预处理数据,对非数值类数据进行数值化处理以得到第二预处理数据。然后将第一预处理数据和第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取问卷样本的无效概率,其中,问卷样本清洗模型用于预测问卷样本的无效概率。该问卷样本清洗模型可以为人工智能模型。
图11示意性地示出了本申请某实施例中将第一预处理数据和第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取问卷样本的无效概率之前的步骤流程图。如图11所示,在以上实施例的基础上,步骤S940中的将第一预处理数据和第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取问卷样本的无效概率之前,可以进一步包括以下步骤S1110~步骤S1130。
S1110.获取标记了结果标签的问卷样本及问卷样本对应的用户行为数据,以建立训练集,其中,结果标签包括有效标签和无效标签;
S1120.采用训练集对一个或多个分类器进行训练;
S1130.根据训练后的一个或多个分类器构建问卷样本清洗模型。
具体地,标记了有效标签的问卷样本为被认为是有效的问卷样本;标记了无效标签的问卷样本为被认为是无效的问卷样本。训练集中包括标记了有效标签的问卷样本和标记了无效标签的问卷样本。分类器可以包括朴素贝叶斯分类器、浅层神经网络、逻辑回归分类器中的一种或多种。对分类器进行训练,可以使得分类器对训练集中的问卷样本的分类结果与问卷样本所带的结果标签趋向于一致,从而能够使得分类器乃至问卷样本清洗模型对问卷样本的无效概率的预测具有较高的准确性。
图12示意性地示出了本申请某实施例中根据训练后的一个或多个分类器构建问卷样本清洗模型的步骤流程图。如图12所示,在以上实施例的基础上,步骤S1130中的根据训练后的一个或多个分类器构建问卷样本清洗模型,可以进一步包括以下步骤S1210和步骤S1220。
S1210.获取训练后的一个或多个分类器的分类准确率、分类精确率和问卷样本召回率;
S1220.根据分类器的分类准确率、分类精确率和分类召回率,选择一个或多个分类器组合成问卷样本清洗模型。
其中,分类准确率为采用训练集对分类器进行训练后,分类器的预测结果是正确的的概率。分类精确率为采用训练集对分类器进行训练后,分类器预测一个问卷样本为无效问卷样本的正确率。分类召回率为采用训练集对分类器进行训练后,分类器成功将输入到分类器中的所有问卷样本中,实际无效的问卷样本预测为无效问卷样本的样本数量,占输入到分类器中的所有问卷样本的比率。
也就是说,分类准确率accuracy的表达式为:
accuracy=(TP+TN)/(TP+FN+FP+TN)
分类精确率precision的表达式为:
precision=TP/(TP+FP)
召回率recall的表达式为:
recall=TP/(TP+FN)
其中,TP为分类器在分类过程中,将实际无效的问卷样本预测为无效问卷样本的样本数量。FN为分类器在分类过程中,未将实际无效的问卷样本预测为无效问卷样本的样本数量。FP为分类器在分类过程中,将实际有效的问卷样本预测为无效问卷样本的样本数量。TN为分类器在分类过程中,未将实际有效的问卷样本预测为无效问卷样本的样本数量。
然后,根据分类器的分类准确率、分类精确率和分类召回率,选择一个或多个分类器组合成问卷样本清洗模型。具体地,可以将分类器中分类准确率、分类精确率较高,并且召回率不低的分类器乘以较高的权重,将分类器中分类准确率和分类精确率较低的分类器乘以较低的权重后,将前述分类器组合成问卷样本清洗模型,有利于提高问卷样本清洗模型的预测准确率、预测精确率,并且使得该问卷样本清洗模型能够具有较高的召回率。并且,由于不同的特征数据与问卷样本的无效之间可以具有不同的相关系数。在将前述分类器组合成问卷样本清洗模型之前,若输入分类器的特征数据的相关系数较高,则可以将该分类器乘以较高的权重,若输入分类器的特征数据的相关系数较低,则可以将该分类器乘以较低的权重,由此,能够有利于提高问卷样本清洗模型的预测准确率。
图13示出了本申请某实施例中构建训练集、模型训练与选择、模型上线应用、产生新数据的循环过程示意图。请参阅图13,拉取数据进行数据清洗并构建训练集后,可以对训练集中的问卷样本的用户行为数据以预设粒度进行聚合和特征提取,也即做特征工程得到特征数据。然后,采用该特征数据对模型进行训练并进行效果测试,效果测试包括对问卷样本清洗模型及其分类器的分类准确率、分类精确率和分类召回率的检测,效果检测后对模型进行调整和存储。接着,将该调整后的问卷样本清洗模型进行E2E测试(端对端测试)后上线并应用该问卷样本清洗模型,实现对实时回收的问卷大盘的监控,问卷主无需任何操作即可享受模型自动对无效问卷样本的清洗。
图14示意性地示出了本申请某实施例中获取标记了结果标签的问卷样本及问卷样本对应的用户行为数据,以建立训练集的步骤流程图。如图14所示,在以上实施例的基础上,步骤S1110中的获取标记了结果标签的问卷样本及问卷样本对应的用户行为数据,以建立训练集,可以进一步包括以下步骤S1410~步骤S1430。
S1410.获取标记了无效标签的无效问卷样本,并将无效问卷样本加入到训练集中;
S1420.获取标记了有效标签的反标问卷样本,并将反标问卷样本加入到训练集中,反标问卷样本为被问卷样本清洗模型误判为无效问卷样本的问卷样本;
S1430.获取标记了有效标签的有效问卷样本,并将有效问卷样本加入到训练集中,以使得无效问卷样本占训练集中所有带有结果标签的问卷样本的比例在预设的比例范围中。
其中,标记了无效标签的无效问卷样本可以由问卷主直接标记产生、或者由专业用研团队手工清洗时标记产生。获取标记了有效标签的反标问卷样本可以由问卷主直接反标产生。具体地,问卷主可以对被问卷样本清洗模型判定为无效问卷样本的问卷样本进行检查,并将实际有效的问卷样本反标上有效标签,以形成反标问卷样本。标记了有效标签的有效问卷样本可以直接在剔除了无效问卷样本的数据库中随机抽取产生,也可以由问卷主手工标记或者专业用研团队手工清洗时标记产生。
请继续参阅图13,在对实时回收的问卷大盘的监控过程中,会产生新数据,例如:问卷主标记了无效标签的问卷样本、专业用研团队标记了无效标签的问卷样本、问卷主对误判为无效的问卷样本反标上有效标签形成的反标问卷样本、以及对剔除了无效问卷样本后,标记了有效标签的有效问卷样本进行随机采样后得到的有效问卷样本等。
其中,获取标记了有效标签的有效问卷样本,并将有效问卷样本加入到训练集中,以使得无效问卷样本占训练集中所有带有结果标签的问卷样本的比例在预设的比例范围中,能够使得标记了有效标签的有效问卷样本的数量与标记了无效标签的无效问卷样本的数量处于平衡的比例范围中,有利于提供优质的问卷样本训练集,优化对分类器和问卷样本清洗模型的训练,从而能够提高本申请实施方式的问卷样本处理方法对问卷样本的判定的准确率。
图15示意性地示出了本申请某实施例中当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本的步骤流程图。如图15所示,在以上实施例的基础上,无效问卷样本包括大概率无效问卷样本和疑似无效问卷样本,步骤S240的当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本,可以进一步包括以下步骤S1510~步骤S1520。
S1510.当问卷样本的无效概率大于第一预设阈值并且小于或等于第二预设阈值时,判定问卷样本为疑似无效问卷样本;
S1520.当问卷样本的无效概率大于第二预设阈值时,判定问卷样本为大概率无效问卷样本。
进一步地,无效问卷样本还可以包括第一层级概率无效问卷样本、第二层级概率无效问卷样本、第三层级概率无效问卷样本和第四层级概率。当问卷样本的无效概率小于或等于第一预设阈值时,判定问卷样本为第一层级概率无效问卷样本;当问卷样本的无效概率大于第一预设阈值并且小于或等于第二预设阈值时,判定问卷样本为第二层级概率无效问卷样本;当问卷样本的无效概率大于第二预设阈值并且小于或等于第三预设阈值时,判定问卷样本为第三层级概率无效问卷样本;当问卷样本的无效概率大于第三预设阈值时,判定问卷样本为第四层级概率无效问卷样本。其中,第一预设阈值小于第二预设阈值,第二预设阈值小于第三预设阈值。第四层级概率无效问卷样本中的问卷样本的无效概率最大,第三层级概率无效问卷样本中的问卷样本的无效概率次之,第二层级概率无效问卷样本中的问卷样本的无效概率再次之,第一层级概率无效问卷样本中的问卷样本的无效概率在四个层级中最小。
例如,第一预设阈值为25%,第二预设阈值为50%,第三预设阈值为75%。则,可以采用折线图、柱状图或扇形图等将第一层级概率[0%,25%]、第二层级概率(25%,50%]、第三层级概率(50%,75%]、第四层级概率(75,100%]的各个层级概率无效问卷样本通过可视化的方式直观地展现出来。具体地,第一层级概率无效样本为大概率有效问卷样本、第二层级概率无效样本为疑似有效问卷样本、第三层级概率无效样本为疑似无效问卷样本、第四层级概率无效样本为大概率无效问卷样本。
在某些实施例中,还可以分析一些预设的特定时间段回收的问卷样本的无效概率的变化,有利于问卷主对问卷样本的回收情况和无效情况进行时间上的监控和分析。
图16示意性地示出了本申请某实施例中问卷样本处理方法的部分步骤流程图。如图16所示,在以上实施例的基础上,所述问卷样本处理方法还可以进一步包括以下步骤S1610~步骤S1630。
S1610.自一个或多个渠道中回收问卷样本;
S1620.分别获取每个渠道中的问卷样本的无效概率;
S1630.根据每个渠道对应的问卷样本无效概率的分布情况诊断渠道的渠道质量。
图17a示意性地示出了本申请某实施例中第一渠道对应的问卷样本无效概率的分布情况图。请参阅图17a,横轴为问卷样本的无效概率,纵轴为该渠道回收的某个无效概率下的问卷样本的样本数量占该渠道回收的所有问卷样本的比例,可以看出,柱状图形成的波形的波峰靠左,根据该无效概率偏低的分布情况,可以判断出该渠道的渠道质量较高,该渠道回收的问卷样本具有更多数量的有效样本,数据质量好,该渠道回收的问卷样本无效的可能性较低。
图17b示意性地示出了本申请某实施例中第二渠道对应的问卷样本无效概率的分布情况图。请参阅图17b,横轴为问卷样本的无效概率,纵轴为该渠道回收的某个无效概率下的问卷样本的样本数量占该渠道回收的所有问卷样本的比例,可以看出,柱状图形成的波形的波峰处于中间,根据该无效概率中等的分布情况,可以判断出该渠道的渠道质量中等,该渠道回收的问卷样本具有中等数量的有效样本,该渠道回收的问卷样本无效的可能性中等。
图17c示意性地示出了本申请某实施例中第三渠道对应的问卷样本无效概率的分布情况图。请参阅图17b,横轴为问卷样本的无效概率,纵轴为该渠道回收的某个无效概率下的问卷样本的样本数量占该渠道回收的所有问卷样本的比例,可以看出,柱状图形成的波形有两个波峰分别处于中间偏左和中间偏右,两个波峰的情况异常,有可能一批无效概率低的质量较高的样本混杂了一批无效概率大的质量较低的样本,使得两个正态分布叠成两个波峰,此种分布情况下,说明问卷样本的无效概率偏高,可以判断出该渠道的渠道质量较低,该渠道回收的问卷样本具有较少数量的有效样本,该渠道回收的问卷样本无效的可能性较高。
综前所述,第一渠道的渠道质量最高,第二渠道的渠道质量次之,第三驱动的渠道质量最低。
由此,可以帮助问卷主判断和选择质量较高的问卷回收渠道,能够提高回收的问卷样本的数据可靠性。并且,由于用户研究部门经常需要在外部渠道购买和使用样本库,采样本申请某些实施例的问卷样本处理方法可以以较低的成本高效地帮助用研团队发现渠道样本库质量问题,从而有利于使用采用了质量较高的问卷回收渠道回收问卷形成的样本库。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的问卷样本处理方法。图18示意性地示出了本申请实施例提供的问卷样本处理装置的结构框图。如图18所示,问卷样本处理装置1800包括:
样本数据获取模块1810,被配置为获取待处理的问卷样本及问卷样本对应的用户行为数据,其中,用户行为数据包括用户完成问卷样本的过程中的操作行为及操作行为发生的时间的时间戳;
特征数据获取模块1820,被配置为将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据;
无效概率预测模块1830,被配置为基于问卷样本的特征数据预测问卷样本的无效概率;
问卷样本判定模块1840,被配置为当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本。
在本申请的一些实施例中,基于以上各实施例,特征数据获取模块包括:
中间数据获取单元,被配置为将问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到以题目为粒度的中间数据;
特征数据获取单元,被配置为将中间数据以问卷样本粒度进行聚合和特征提取,得到问卷样本的特征数据。
在本申请的一些实施例中,基于以上各实施例,无效概率预测模块包括:
特征数据划分单元,被配置为将特征数据划分为数值类特征数据和非数值类特征数据;
归一化处理单元,被配置为对数值类特征数据进行归一化处理以得到第一预处理数据;
数值化处理单元,被配置为对非数值类数据进行数值化处理以得到第二预处理数据;
无效概率预测单元,被配置为将第一预处理数据和第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取问卷样本的无效概率,其中,问卷样本清洗模型用于预测问卷样本的无效概率。
在本申请的一些实施例中,基于以上各实施例,问卷样本处理装置还包括:
训练集建立单元,被配置为获取标记了结果标签的问卷样本及问卷样本对应的用户行为数据,以建立训练集,其中,结果标签包括有效标签和无效标签;
分类器训练单元,被配置为采用训练集对一个或多个分类器进行训练;
清洗模型构建单元,被配置为根据训练后的一个或多个分类器构建问卷样本清洗模型。
在本申请的一些实施例中,基于以上各实施例,清洗模型构建单元包括:
训练效果获取子单元,被配置为获取训练后的一个或多个分类器的分类准确率、分类精确率和问卷样本召回率;
清洗模型组合子单元,被配置为根据分类器的分类准确率、分类精确率和分类召回率,选择一个或多个分类器组合成问卷样本清洗模型。
在本申请的一些实施例中,基于以上各实施例,训练集建立单元包括:
无效问卷样本获取子单元,被配置为获取标记了无效标签的无效问卷样本,并将无效问卷样本加入到训练集中;
反标问卷样本获取子单元,被配置为获取标记了有效标签的反标问卷样本,并将反标问卷样本加入到训练集中,反标问卷样本为被问卷样本清洗模型误判为无效问卷样本的问卷样本;
有效问卷样本获取子单元,被配置为获取标记了有效标签的有效问卷样本,并将有效问卷样本加入到训练集中,以使得无效问卷样本占训练集中所有带有结果标签的问卷样本的比例在预设的比例范围中。
在本申请的一些实施例中,基于以上各实施例,样本数据获取模块包括:
数据实时抓取单元,被配置为抓取实时上传的用户行为数据、问卷样本和问卷题目数据,其中,用户行为数据绑定了问卷标签和样本标签,问卷样本绑定了问卷标签和样本标签,问卷题目数据绑定了问卷标签和样本标签;
数据聚合单元,被配置为将绑定了相同的问卷标签和相同的样本标签的用户行为数据、问卷样本和问卷题目数据聚合,得到待处理的问卷样本、问卷样本对应的用户行为数据以及问卷样本对应的题目数据。
在本申请的一些实施例中,基于以上各实施例,无效问卷样本包括大概率无效问卷样本和疑似无效问卷样本;问卷样本判定模块包括:
疑似无效判定单元,被配置为当问卷样本的无效概率大于第一预设阈值并且小于或等于第二预设阈值时,判定问卷样本为疑似无效问卷样本;
大概率无效判定单元,被配置为当问卷样本的无效概率大于第二预设阈值时,判定问卷样本为大概率无效问卷样本。
在本申请的一些实施例中,基于以上各实施例,问卷样本处理装置还包括:
问卷样本回收模块,被配置为自一个或多个渠道中回收问卷样本;
无效概率获取模块,被配置为分别获取每个渠道中的问卷样本的无效概率;
渠道质量诊断模块,被配置为根据每个渠道对应的问卷样本无效概率的分布情况诊断渠道的渠道质量。
本申请各实施例中提供的问卷样本处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图19示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图19示出的电子设备的计算机系统1900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图19所示,计算机系统1900包括中央处理器1901(Central Processing Unit,CPU),其可以根据存储在只读存储器1902(Read-Only Memory,ROM)中的程序或者从存储部分1908加载到随机访问存储器1903(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1903中,还存储有系统操作所需的各种程序和数据。中央处理器1901、在只读存储器1902以及随机访问存储器1903通过总线1904彼此相连。输入/输出接口1905(Input/Output接口,即I/O接口)也连接至总线1904。
以下部件连接至输入/输出接口1905:包括键盘、鼠标等的输入部分1906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1907;包括硬盘等的存储部分1908;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至输入/输出接口1905。可拆卸介质1911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1910上,以便于从其上读出的计算机程序根据需要被安装入存储部分1908。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1909从网络上被下载和安装,和/或从可拆卸介质1911被安装。在该计算机程序被中央处理器1901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种问卷样本处理方法,其特征在于,所述方法包括:
获取待处理的问卷样本及所述问卷样本对应的用户行为数据,其中,所述用户行为数据包括用户完成问卷样本的过程中的操作行为及所述操作行为发生的时间的时间戳;
将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据;
基于所述问卷样本的特征数据预测所述问卷样本的无效概率;
当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本。
2.根据权利要求1所述的问卷样本处理方法,其特征在于,所述将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据,包括:
将所述问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到以题目为粒度的中间数据;
将所述中间数据以问卷样本粒度进行聚合和特征提取,得到所述问卷样本的特征数据。
3.根据权利要求1所述的问卷样本处理方法,其特征在于,所述基于所述特征数据预测所述问卷样本的无效概率,包括:
将所述特征数据划分为数值类特征数据和非数值类特征数据;
对所述数值类特征数据进行归一化处理以得到第一预处理数据;
对所述非数值类数据进行数值化处理以得到第二预处理数据;
将所述第一预处理数据和所述第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取所述问卷样本的无效概率,其中,所述问卷样本清洗模型用于预测所述问卷样本的无效概率。
4.根据权利要求3所述的问卷样本处理方法,其特征在于,在所述将所述第一预处理数据和所述第二预处理数据输入到由一个或多个分类器组成的问卷样本清洗模型中,以获取所述问卷样本的无效概率之前,所述方法包括:
获取标记了结果标签的问卷样本及所述问卷样本对应的用户行为数据,以建立训练集,其中,所述结果标签包括有效标签和无效标签;
采用所述训练集对一个或多个分类器进行训练;
根据训练后的所述一个或多个所述分类器构建问卷样本清洗模型。
5.根据权利要求4所述的问卷样本处理方法,其特征在于,所述根据训练后的所述一个或多个所述分类器构建问卷样本清洗模型,包括:
获取训练后的所述一个或多个所述分类器的分类准确率、分类精确率和问卷样本召回率;
根据所述分类器的分类准确率、分类精确率和分类召回率,选择一个或多个所述分类器组合成所述问卷样本清洗模型。
6.根据权利要求4所述的问卷样本处理方法,其特征在于,所述获取标记了结果标签的问卷样本及所述问卷样本对应的用户行为数据,以建立训练集,包括:
获取标记了无效标签的无效问卷样本,并将所述无效问卷样本加入到训练集中;
获取标记了有效标签的反标问卷样本,并将所述反标问卷样本加入到所述训练集中,所述反标问卷样本为被所述问卷样本清洗模型误判为无效问卷样本的问卷样本;
获取标记了有效标签的有效问卷样本,并将所述有效问卷样本加入到所述训练集中,以使得所述无效问卷样本占训练集中所有带有结果标签的问卷样本的比例在预设的比例范围中。
7.根据权利要求1所述的问卷样本处理方法,其特征在于,所述获取待处理的问卷样本及所述问卷样本对应的用户行为数据,包括:
抓取实时上传的用户行为数据、问卷样本和问卷题目数据,其中,所述用户行为数据绑定了问卷标签和样本标签,所述问卷样本绑定了问卷标签和样本标签,所述问卷题目数据绑定了问卷标签和样本标签;
将绑定了相同的问卷标签和相同的样本标签的所述用户行为数据、所述问卷样本和所述问卷题目数据聚合,得到待处理的问卷样本、所述问卷样本对应的用户行为数据以及所述问卷样本对应的题目数据。
8.根据权利要求1所述的问卷样本处理方法,其特征在于,所述无效问卷样本包括大概率无效问卷样本和疑似无效问卷样本;所述当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本,包括:
当所述问卷样本的无效概率大于第一预设阈值并且小于或等于第二预设阈值时,判定所述问卷样本为疑似无效问卷样本;
当所述问卷样本的无效概率大于第二预设阈值时,判定所述问卷样本为大概率无效问卷样本。
9.根据权利要求1所述的问卷样本处理方法,其特征在于,所述方法还包括:
自一个或多个渠道中回收问卷样本;
分别获取每个所述渠道中的问卷样本的无效概率;
根据每个所述渠道对应的问卷样本无效概率的分布情况诊断所述渠道的渠道质量。
10.一种问卷样本处理装置,其特征在于,所述装置包括:
样本数据获取模块,被配置为获取待处理的问卷样本及所述问卷样本对应的用户行为数据,其中,所述用户行为数据包括用户完成问卷样本的过程中的操作行为及所述操作行为发生的时间的时间戳;
特征数据获取模块,被配置为将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据;
无效概率预测模块,被配置为基于所述问卷样本的特征数据预测所述问卷样本的无效概率;
问卷样本判定模块,被配置为当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本。
CN202110379675.1A 2021-04-08 2021-04-08 一种问卷样本处理方法及装置 Pending CN113010659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379675.1A CN113010659A (zh) 2021-04-08 2021-04-08 一种问卷样本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379675.1A CN113010659A (zh) 2021-04-08 2021-04-08 一种问卷样本处理方法及装置

Publications (1)

Publication Number Publication Date
CN113010659A true CN113010659A (zh) 2021-06-22

Family

ID=76388332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379675.1A Pending CN113010659A (zh) 2021-04-08 2021-04-08 一种问卷样本处理方法及装置

Country Status (1)

Country Link
CN (1) CN113010659A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022124107A1 (ja) * 2020-12-07 2022-06-16 国立大学法人 奈良先端科学技術大学院大学 モデル構築装置および評価装置
CN114860922A (zh) * 2022-03-25 2022-08-05 南京脑科医院 心理测评量表的分类模型获取方法、筛查方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022124107A1 (ja) * 2020-12-07 2022-06-16 国立大学法人 奈良先端科学技術大学院大学 モデル構築装置および評価装置
CN114860922A (zh) * 2022-03-25 2022-08-05 南京脑科医院 心理测评量表的分类模型获取方法、筛查方法及系统

Similar Documents

Publication Publication Date Title
US11281552B2 (en) Self-learning alerting and anomaly detection
WO2020249125A1 (zh) 用于自动训练机器学习模型的方法和系统
US20200293946A1 (en) Machine learning based incident classification and resolution
CN103294592B (zh) 利用用户工具交互来自动分析其服务交付中的缺陷的方法与系统
CN111652280B (zh) 基于行为的目标物数据分析方法、装置及存储介质
CN106096657A (zh) 基于机器学习来预测数据审核目标的方法及系统
CN113010659A (zh) 一种问卷样本处理方法及装置
US20220198265A1 (en) Pattern discovery, prediction and causal effect estimation in treatment discontinuation
CN111666298A (zh) 基于flink的用户服务类别检测方法、装置、计算机设备
CN114282882B (zh) 素材工单审核方法、装置、设备及存储介质
CN113762973A (zh) 数据处理方法、装置、计算机可读介质及电子设备
Galbraith et al. Analyzing user-event data using score-based likelihood ratios with marked point processes
CN111858560B (zh) 基于数据仓库的金融数据自动化测试与监控系统
CN116452212B (zh) 一种智能客服商品知识库信息管理方法及系统
US20210142233A1 (en) Systems and methods for process mining using unsupervised learning
CN117437019A (zh) 信用卡逾期风险预测方法、装置、设备、介质和程序产品
Kohyarnejadfard et al. Anomaly detection in microservice environments using distributed tracing data analysis and NLP
CN113269614A (zh) 商家快速注册接单方法及装置、电子设备及可读介质
CN117172632B (zh) 一种企业异常行为检测方法、装置、设备及存储介质
CN114331227B (zh) 数据分析的方法、装置、电子设备和可读介质
CN118171645B (zh) 一种基于文本分类的商业信息分析方法及系统
CN111598159B (zh) 机器学习模型的训练方法、装置、设备及存储介质
Fronza et al. Failure Prediction based on Log Files Using the Cox Proportional Hazard Model.
CN117035434B (zh) 可疑交易监测方法及装置
CN116484293B (zh) 一种基于svm算法的平台用户付费行为预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047268

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination