CN114912510B

CN114912510B - 一种线上调研样本质量评估系统

Info

Publication number: CN114912510B
Application number: CN202210360899.2A
Authority: CN
Inventors: 苏磊; 王爽; 王霄; 付晓东
Original assignee: Cctv Market Research Co ltd
Current assignee: Cctv Market Research Co ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2023-08-15
Anticipated expiration: 2042-04-07
Also published as: CN114912510A

Abstract

本发明提出一种线上调研样本质量评估系统，包括：用户鉴别模块，其判断是否存在风险用户并对所述风险用户进行限制操作；用户行为质控模块，其根据用户答题操作投射出态度指数，进而确定样本质量。本发明的系统能够监控样本质量，甄别虚假流量，确保样本真实性和问卷有效性，提高在线调研质量。

Description

一种线上调研样本质量评估系统

技术领域

本发明涉及样本质量评估技术，更具体地，涉及一种线上调研样本质量评估系统。

背景技术

调研行业年市场收入120亿，涉及到样本执行的成本占整体收入30％左右，大概36亿。相比于欧美国家，国内调研行业仍具备很大的增量空间和发展潜力。随着移动互联网时代的到来，调研行业正在经历着从传统线下调研到在线可访问样组(Web Access Panel)，到大数据的全面数字化转型。

传统的调研方法也因环境的变化面临着新的挑战，以Panel和大数据调研为代表的线上化调研也面临着样本职业化、被污染的风险，这些短板的解决是该模式行业推广的关键。“羊毛党”有选择性地参加线上活动，严重破环了样本质量，使客户研究价值受损。

建立在虚假流量甄别基础之上的样本唯一性和真实性都被大大减弱。传统调研的质控手段单一，无法处理互联网时代虚假流量甄别的问题。针对大数据调研领域，作为流量交易平台，特别是一些开放式的广告交易平台拥有丰富的长尾媒体资源，必须提高媒体资源准入机制和甄别机制，建立自有的黑白名单机制，对于可能存在虚假流量的媒体资源进行排查和治理。

单纯依靠一种手段来阻止虚假流量，可能会给某些虚假流量渠道以可乘之机，事前预防、事后追溯、人工排查、智能算法等武器多管齐下才足以抗衡作弊。

调研行业传统的质控方法，是通过问卷中的经验题或者陷阱题来判断样本的质量，这些方法有迹可循，职业样本往往可以轻松过关。电话复核成本较高，受制因素多，很多项目都没有采纳。黑产会利用大量的小号、僵尸号码，甚至批量自动工具参与活动，给客户造成损失。

大数据调研作为近年来新兴的线上调研方式，业界尚未有第三方样本质量评估/虚假样本鉴别的服务或产品。

数字化时代的到来，需要站在产业发展的角度上重新梳理关键生产要素，规范调研执行的流程，在保证样本质量的前提下，充分调用多种执行资源，为市场调研行业奠定可持续发展良性的生态环境。

发明内容

本发明的目的就是通过将现有的样本质量监控的方法与大数据端的虚假流量甄别、用户答题态度监测等方法有效结合起来，确保样本真实性和问卷有效性，提高在线调研质量。

为此，本发明提出一种线上调研样本质量评估系统，包括：用户鉴别模块，其判断是否存在风险用户并对所述风险用户进行限制操作；用户行为质控模块，其根据用户答题操作投射出态度指数，进而确定样本质量。

本发明能够结合问卷答题进行行为分析，对样本用户的身份、答题行为实时监控，更为有效和全面的拒绝羊毛党，抵质无效问卷。

在传统的质控流程和手段为基础的同时，将大数据、数字化质控的方法和智能防作弊系统融入其中，在问卷投放前、中、后三个阶段进行数据质量的把控，形成完备的、高标准的调研数据质量控制体系，从根本上保障了调研数据的可靠性和高质量。

本发明的方法和系统能够有助于促进行业持续发展，创造良性的生态环境。

附图说明

为了更容易理解本发明，将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式，不应认为对本发明保护范围的限制。

图1为本发明的系统的结构原理图。

图2显示了答题时长节奏相似度判断模块的一个运行结果图。

图3显示了答题内容相似度判断模块的一个运行结果图。

具体实施方式

下面参照附图描述本发明的实施方式，以便于本领域的技术人员可以更好的理解本发明并能予以实施，但所列举的实施例不作为本发明的限定，在不冲突的情况下，下述的实施例及实施例中的技术特征可以相互组合，其中相同的部件用相同的附图标记表示。

如图1所示，本发明的系统包括：用户鉴别模块、用户行为质控模块和名单库。

用户鉴别模块判断是否存在风险用户并对所述风险用户进行限制操作。在一个实施方式中，用户鉴别模块采集用户访问IP和cookie。当用户进入调研问卷系统时，用户鉴别模块对用户IP及浏览器cookie进行排重判断，同一问卷不同用户，如果IP和cookie相同，则判定为同一用户重复作答，将重复用户剔除以确保调研质量。在另一个实施方式中，用户鉴别模块还采集用户ID(IP、设备号、手机号、IMEI号，访问持续时长，访问开始时间，访问结束时间，URL等)，进行风险评估，根据风险评估结果自行设定对应的处理机制，例如追加验证步骤、设定优惠条件、限制参与次数、限制权重等。

用户鉴别模块将问卷用户存储在名单库中，用户在所述名单库中设定了风险等级，例如黑白灰名单库，白名单表示正常用户，黑名单表示异常用户，灰名单表示疑似用户。

在有一个实施方式中，筛选过程如下：

1)用户鉴别模块采集并存储调研用户ID、域名以及请求时间戳；

2)根据问卷ID组成人群包，所述人群包包括：虚拟用户ID、域名及时间戳；

3)根据域名和时间戳，对调研用户进行精准匹配；

4)匹配成功的用户，通过运营商自身IMEI或手机号与调研用户ID进行对比，生成用户ID与实际用户的校验报告。

本发明的系统还包括用户行为质控模块。用户行为质控模块可以进行AI学习。用户行为质控模块能够获得受访者填答问卷时的填答操作及投射出的态度，根据具体行为比如答题时长、答题内容等维度数据进行数据挖掘，从而可以实时监控和甄别自然人或机器人批量答题，以及真实的受访者填答问卷时“敷衍了事”的行为，最终剔除不合格样本，并对不合格样本进行黑(灰)名单标记，为后续调研项目的执行沉淀用户标签库。

用户行为质控模块对输入的数据进行智能监控和实时甄别不合格样本，最终输出合格调研样本数据(产生用户黑白灰名单库)，保障调研项目的数据质量。用户行为质控模块包括：答题选项时长评估模块、答题时长节奏相似度判断模块、答题内容相似度判断模块。

下面描述本发明的答题选项时长评估模块。

传统质控采用的手段通常是关注受访者问卷填答总时长，小于某一阈值即为答题过快，态度不良。该方法关注的受访者行为颗粒度较粗，并不足以验证答题者态度。本发明的答题选项时长评估模块采集评判受访者在填答问卷的过程中每选择一个选项的操作，确定态度指数(受访者是否经历了“认真细致”的思考而非“不假思索”地勉强应付)。例如，问卷某一问题的选项设定超过30个，某些受访者出现在10s内选择了20个选项的情况，也就是平均半秒钟选择一个选项，该类受访者在未读清问卷题目，未经思索的状态下答题，应付差事态度的可行性非常大，持有如此态度的受访者显然不符合质控要求，势必会对整个调查结果造成不良影响，并且在最终进行调研数据分析和研究的时候很难被发现，从而导致调研数据与客观实际情况产生偏差。因此本发明考虑以判别受访者答题态度为出发点，依据单个选项平均点击时长来判断样本是否合格。

在一个实施方式中，确定态度指数的方法如下：(1)确定问卷中每道题所有样本平均每选项答题时长分布。(2)定义单一样本答题过程中出现超过问卷设置总题目数量的一定比例(阈值)为单一样本疑似答题过快，态度不良；最终，需要甄别掉该类样本，并记录该类样本，标记为黑(灰)名单。

例如，在一个实例中，由于问卷题目内容不一，有的题目为“一目了然”例如“请问您的性别是？”，有的题目则为”细细思考”型，例如选择和自己匹配的生活态度语句等。确定问卷中每道题所有样本平均每选项答题时长分布，如5％，10％，25％，50％，75％，90％，95％分位点时长值，如果某道题平均每选项答题时长小于5％分位点时长值为答该道题速度偏快，属于“少数派“操作行为，如表1所示。

表1批量计算所有样本问卷平均每选项答题时长的分位数时长值(单位：秒)

然后，定义单一样本答题过程中出现超过问卷设置总题目数量的某一阈值(例如30％)为单一样本疑似答题过快，态度不良；最终，需要甄别掉该类样本，并记录该类样本，标记为黑(灰)名单。

模型结果：通过答题选项时长评估模块能够有效甄别出参与问卷调查操作过快的样本，大约占项目的1％-3％左右，及时剔除态度不认真的作答者会对调研数据质量有力提升。

表2样本答题低于5％分位数时长值的题目占比

实证分析，某品牌净水器消费者调研问卷，计算每道题平均每选项答题时长5％分位数，单个样本平均每选项答题时长小于5％分位数的题目数量占总答题数量比例超过30％，判断为答题速度过快的不合格样本。

最终输出的项目质控结果为：

表3净水器消费者调研项目答题选项时长评估数据质控结果，单位：秒/选项

下面描述本发明的答题时长节奏相似度判断模块。

由于受访者参与调查问卷的主要动机之一为“获得奖励和报酬”，从而滋生了一些“投机取巧”的受访者，利用多个设备或多个账号进行批量操作进行答题。受访者此种作弊行为显然违背了调查问卷抽样的随机性和数据多样性的原则，导致无效数据的产生，从而影响调查结果的精准度。但是，通常这种情况难以通过人工质控的手段发现和甄别。本发明采用答题时长节奏相似度模块实现查找批量答题的“自然人”和“机器人”，剔除具有作弊嫌疑的不合格样本，达到提高数据有效性和精准度的目的。该模块需要采集的基础数据是：问卷调查样本每道问题的答题时长统计，单位：秒。如下表4：

表4样本调查问卷每道题的答题时长数据(单位：秒)

用户ID

题目1

题目2

题目3

题目4

题目5

…

题目100

用户1

t1

t2

t3

t4

t5

t100

用户2

t1’

t2’

t3’

t4’

t5’

t100’

模型原理：以样本问卷每道问题的答题时长为数据源，通过判断两两样本间答题时长的欧式距离(Euclidean Distance)，将距离小于某一阈值(例如20秒，不同问卷题目数量不同，阈值设置不同)样本查找到，并判定为不合格样本。答题时长距离小于阈值，说明样本答题节奏高度相似，疑似“自然人批量答题或机器人答题”。

模型结果：通过批量计算两两样本间时长距离，形成样本与样本时长距离的对称矩阵，小于某一阈值的样本间距离在该对称矩阵中呈现较为明显的“对角线聚集现象”，注：样本默认按照进入答题系统的顺序排列，因此，越靠对角线的位置是样本答题顺序越临近的位置，也就是说有些前后相邻进入答题系统的样本每道题答题时长距离更小，答题行为高度相似，说明了该类样本疑似存在“自然人或机器人批量答题”的作弊行为。图2显示了一个答题时长欧式距离对称矩阵，<20s的样本距离用红色显示。

实证分析，某品牌净水器消费者调研问卷，项目两两样本间时长节奏相似度如下表，默认按答题顺序排列，可见，答题时长节奏整体分布相差较远，通过描述统计得到95％的样本组之间平均每题时长d_t/n欧式距离在30S以上(问卷题目数量不同，可转换为计算平均每题时长距离，n为问卷题目数量)，对角线附近出现平均每题时长d_t/n欧式距离为3S以下，即答题顺序临近的样本呈现答题时长节奏相似度过高的现象，因此判断为刷题作弊-时长相似的不合格样本。

表5：净水器消费者调研项目样本每题答题时长相似度矩阵(单位：秒)

最终输出的项目质控结果为：

表6：净水器消费者调研项目样本答题时长质控结果单位：秒/题

下面描述答题内容相似性判断模块。

答题内容相似度判断模块与答题时长节奏相似度判断模块的模型思想类似，目的均为找到“自然人批量答题或机器人答题”。

模块原理如下：通过统计计算两两样本间填答答案“一模一样”题目占总答题数量的比重，判断两两样本间答题内容的相似程度，将占比超过阈值(一般定义为整体相似度分布的平均值+3倍标准差)的样本判定为不合格样本。答题内容相似度过高疑似存在“自然人批量答题或机器人答题”的作弊行为。该模块需要采集的基础数据是：问卷调查样本每道问题的选项答案数据。如下表7：

表7样本调查问卷每道题的答题内容数据

用户ID

题目1

题目2

题目3

题目4

题目5

…

题目100

用户1

答案1

答案2

答案3

答案4

答案5

答案100

用户2

答案1’

答案2’

答案3’

答案4’

答案5’

答案100’

可以将问卷选项答案数据标准化为是否选择该选项的二分类数据(是1，否0)，因此通过求和样本答案间差异占总答题数量占比得到两样板间答题内容相似度，答题内容相似度公式(2)。

其中，p₁，p₂，…，p_n，q₁，q₂，…，q_n分别表示p，q两个样本每道题的选项答案，n为总答题数量。

模型结果：通过该计算结果发现样本答题内容上也呈现较为明显的“对角线聚集现象”，越靠对角线的位置是样本答题顺序越临近的位置，也就是说前后相邻进入答题系统样本间每道题答案相似度过高，说明了临近样本有可能存在“自然人或机器人批量答题”的作弊行为，如图3所示。

实证分析，某品牌净水器消费者调研问卷，项目两两样本间答题相似度如下表，默认按答题顺序排列，可见，答题内容相似度整体分布较低，通过描述统计得到95％的相似度为30％以下，对角线附近出现超过50％的相似度样本组，即答题顺序临近的样本呈现答题内容相似度过高的现象，因此判断为刷题作弊-内容相似的不合格样本。

表8：净水器消费者调研项目样本答题内容相似度矩阵

最终输出的项目质控结果为：

表9：净水器消费者调研项目样本答题内容质控结果

综上所述，本发明的创新性在于：

第一，我们从大量历史调研项目数据中挖掘出其中隐含的受访者答题行为习惯的规律，在此基础上搭建答题选项时长评估模型、答题相似度等用户行为质控模型，识别出答题质量不高的问题样本，大大提高调研项目样本质控的分辨能力，保证数据质量，并且所有模型能够很好地适用于“新样本”，实现模型的泛化；

第二，我们通过问卷系统技术手段采集调研项目中除答题内容以外的受访者的系统登录及操作信息，例如每道问卷题目的答题时间点、答题时长、选择选项个数等多维度数据，针对上述受访者无感知数据进行挖掘(选择答案数据属于用户有感知数据，作弊行为可以表现为用户有意识地差异性答题)，因此，判断用户是否作弊、是否态度不良更加客观、精准；

第三，我们通过对用户行为质控模型的离线运行以及在线部署，实现调研项目数字化质控，大大提高调研项目样本质控的执行效率，降低整体成本，颠覆依靠人工进行样本质量检验的传统模式。

本发明的系统还包括用户等级设定模块，用于根据之前三个模块的运行结果对该用户进行等级划分，划分为黑白灰名单库。黑白灰名单库是针对参与问卷调查的用户质量情况进行综合评级的结果，类似于用户生命周期管理。如果用户多次参与问卷调查身份真实有效、答题态度良好，被归入白名单行列；而在这两方面存在一定问题，疑似有作弊或态度不良的行为，待观察判断，则归入灰名单行列；身份虚假，答题态度不端正的用户将被纳入黑名单，黑白灰名单库动态更新状态。

用户等级设定模块主要利用基于因子分析的用户质量综合评价模型，以单一样本通过1.用户鉴别模块和2.用户行为分析质控模块判定为不合格的频次占参与问卷调查总频次的比例为基础数据源，按照因子分析法对单一样本羊毛党策略进行因子评分为F₁，对用户行为质控模块结果进行因子评分为F₂，最终综合评价单一样本因子总分F，w₁，w₂为权重，如公式(3)。

F＝w₁×F₁+w₂×F₂ (3) (3)

表10单一样本羊毛党和用户行为分析策略的基础数据

注：表内统计数据＝判定为不合格样本的频次/参与问卷调查的总频次

用户等级设定模块的处理步骤如下：

S1，对原始数据进行标准化处理。

假设进行因子分析的指标变量6个，x₁,x₂,…,x_p，共有n个评价对象(用户)，第i个评价对象的第j个指标的取值为x_ij。将各指标值x_ij转换成标准化指标

其中，(j＝1,2,…,6)，即/>s_j

为第j个指标的样本均值和样本标准差。对应地，称(i＝1，2，…，6)为标准化指标变量。

S2，计算相关系数矩阵R。

式中r_ii＝1，r_ij＝r_ji，r_ij是第i个指标与第j个指标的相关系数。

S3，计算初等载荷矩阵。

计算相关系数矩阵R的特征值λ₁≥λ₂≥…≥λ₆≥0，及对应的特征向量u₁,u₂,…,u₆，其中u_j＝(u_1j,u_2j,…,u_nj),初等载荷矩阵

S4，选择2个主因子，进行因子旋转。

S5，计算因子得分，并进行综合评价。

[b_1^Tb_2^T]＝R^(-1)A

S6，利用综合因子得分公式计算各样本的综合得分F。

根据因子综合得分F区间划分标准对应黑白灰名单用户标签，得到用户分组数据，连续参与问卷调查活动累积达到10次以上开始计算黑白灰名单，并且根据后续参与问卷调查的行为动态调整用户标签，类似于用户生命周期管理。

表11因子综合得分区间划分标准对应黑白灰名单用户标签

综合因子得分区间	用户标签
		0.0≤F＜0.3	黑名单
0.3≤F＜0.7	灰名单
		0.7≤F＜1.0	白名单

以上所述的实施例，只是本发明较优选的具体实施方式，本说明书使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种线上调研样本质量评估系统，其特征在于，包括：

用户鉴别模块，其判断是否存在风险用户并对所述风险用户进行限制操作；用户鉴别模块通过用户的访问IP、cookie、ID、设备号、手机号、IMEI号、访问持续时长、访问开始时间、访问结束时间和URL中的一个或多个信息判断是否是风险用户，所述限制操作包括：剔除、追加验证步骤、限制参与次数、限制权重或设定为中高风险；用户鉴别模块通过如下操作进行鉴别：1)采集并存储用户ID、域名以及请求时间戳；2)根据问卷ID组成人群包，所述人群包包括：虚拟用户ID、域名及时间戳；3)通过域名和时间戳对用户进行精准匹配；4)匹配成功的用户，通过IMEI或手机号与虚拟用户ID进行对比，生成用户ID；

用户行为质控模块，其根据答题选项时长、答题时长节奏相似度和答题内容相似度来判断态度指数，进而确定样本质量，其中，

用户行为质控模块通过如下操作确定答题选项时长：1)确定问卷中每道题所有样本平均每选项答题时长分布，如5％，10％，25％，50％，75％，90％，95％分位点时长值，如果某道题平均每选项答题时长小于5％分位点时长值为答该道题速度偏快；2)定义单一样本答题过程中出现超过问卷设置总题目数量的一定比例为单一样本疑似答题过快，态度不良；最终，甄别掉该类样本，标记为黑名单；用户行为质控模块通过如下操作确定用户答题时长节奏相似度：以样本问卷每道问题的答题时长为数据源，通过判断两两样本间答题时长的欧式距离，答题时长距离小于阈值，则判定样本答题节奏高度相似，答题内容相似度公式如下：

其中，p₁，p₂，…，p_n，q₁，q₂，…，q_n分别表示p，q两个样本每道题的选项答案，n为总答题数量；用户行为质控模块通过如下操作确定答题内容相似度：将问卷选项答案数据标准化为是否选择该选项的二分类数据，通过求和样本答案间差异占总答题数量占比得到两样本间答题内容相似度，将占比超过阈值的样本判定为不合格样本；

用户等级设定模块，用户等级设定模块根据用户鉴别模块进行因子评分为F₁，对用户行为质控模块结果进行因子评分为F₂，最终综合评价单一样本因子总分F，根据因子综合得分F区间划分标准对应黑白灰名单用户标签。

2.根据权利要求1所述的线上调研样本质量评估系统，其特征在于，用户等级设定模块通过如下操作计算样本的因子综合得分F：

1)对原始数据进行标准化处理；

2)计算相关系数矩阵；

3)计算初等载荷矩阵；

4)选择两个主因子，进行因子旋转；

5)计算主因子得分，并进行综合评价；

6)利用综合因子得分公式计算各样本的综合得分，综合因子得分公式如下：F＝w₁×F₁+w₂×F₂，w₁，w₂为权重，F₁和F₂为主因子得分。