CN115330346B

CN115330346B - 基于能力评价的滑坡众包标注结果评估及任务分配方法

Info

Publication number: CN115330346B
Application number: CN202210991961.8A
Authority: CN
Inventors: 朱赛楠; 殷跃平; 黄坚; 杜博文; 佟彬; 赵慧; 涂博文; 李鑫
Original assignee: China Institute Of Geological Environment Monitoring
Current assignee: China Institute Of Geological Environment Monitoring
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2023-05-23
Anticipated expiration: 2042-08-17
Also published as: CN115330346A

Abstract

本发明涉及一种基于能力评价的滑坡众包标注结果评估及任务分配方法及系统，其方法包括：S1：用户在滑坡众包标注平台注册后，回答不同难度的测试问卷，得到用户的初始能力值；S2：用户接收标注任务，并提交标注曲线；利用共识曲线生成方法融合所有用户的标注曲线，得到初始融合曲线；剔除低质量标注曲线，对剩余标注曲线进行二次融合，得到最终融合曲线；S3：对最终融合曲线进行修正，得到用户的标注结果评分，并更新用户的能力值；S4：根据用户的能力值以及待标注任务的紧急度和难度为用户制定任务推荐队列，用户选择合适的任务进行标注。本发明提供的方法通过合理的任务分配，提升平台标注质量，降低审核工作量，加速高质量滑坡标注结果的产出。

Description

基于能力评价的滑坡众包标注结果评估及任务分配方法

技术领域

本发明涉及软件众包标注领域，具体涉及一种基于能力评价的滑坡众包标注结果评估及任务分配方法及系统。

背景技术

随着标注数据使用方式的不断发展，标注系统也经历了数次迭代。最初，大部分标注系统都是针对特定领域的特定任务所设计，典型的如序列标注、指代消解、句法结构等，或是多个任务的组合。随着数据规模的增长，单用户的系统己经不能满足需求，标注系统开始向多用户拓展。基于众包方法的高位远程地质灾害数据标注平台根据客户的目标场景补充训练和评测数据，通过自动化处理能力和海量标注能力，帮助用户解决大量数据需要加工和标注的场景，让用户快速获取到加工后的目标数据，为滑坡的研究提供数据支撑。

然而，由于滑坡形态复杂，标注难度高，不同人给出的标注结果不同，因此如何有效的整合这些标注数据是滑坡众包标注首先面临的问题；此外，还应考虑如何高效、准确的对用户的标注结果给出评价并建立对应的反馈机制，以吸引更多用户参与到滑坡标注过程中。

发明内容

为了解决上述技术问题，本发明提供一种基于能力评价的滑坡众包标注结果评估及任务分配方法及系统。

本发明技术解决方案为：一种基于能力评价的滑坡众包标注结果评估及任务分配方法，包括：

步骤S1：用户在滑坡众包标注平台注册后，通过回答不同难度的测试问卷，得到所述用户的初始能力值；

步骤S2：所述用户接收标注任务，并提交标注曲线；利用共识曲线生成方法融合所有用户的标注曲线，得到初始融合曲线；根据所述初始融合曲线剔除低质量标注曲线，对剩余所述标注曲线进行二次融合，得到最终融合曲线；

步骤S3：所述滑坡众包标注平台对所述最终融合曲线进行修正，得到所述用户的标注结果评分，并根据所述评分更新所述初始能力值，得到用户的能力值；

步骤S4：根据所述用户的能力值以及待标注任务的紧急度和难度为所述用户制定任务推荐队列，所述用户根据所述任务推荐队列选择待完成的标注任务。

本发明与现有技术相比，具有以下优点：

本发明公开了一种基于能力评价的滑坡众包标注结果评估及任务分配方法，融合多个用户对同一滑坡的标注结果，根据单个用户在标注任务中的表现，计算用户标注与审核结果的曲线相似度，量化用户在不同地区、种类、难度的滑坡标注任务中的表现，得到用户能力值，根据用户能力值进行合理的任务分配，提升滑坡众包标注平台的标注质量，降低审核工作量，加速高质量滑坡标注结果的产出。

附图说明

图1为本发明实施例中一种基于能力评价的滑坡众包标注结果评估及任务分配方法的流程图；

图2为本发明实施例中使用DTW算法进行曲线融合的示意图；

图3为本发明实施例中一种基于能力评价的滑坡众包标注结果任务分配系统的结构框图。

具体实施方式

本发明提供了一种基于能力评价的滑坡众包标注结果评估及任务分配方法，通过合理的任务分配，提升平台标注质量，降低审核工作量，加速高质量滑坡标注结果的产出。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于能力评价的滑坡众包标注结果评估及任务分配方法，包括下述步骤：

步骤S1：用户在滑坡众包标注平台注册后，通过回答不同难度的测试问卷，得到用户的初始能力值；

步骤S2：用户接收标注任务，并提交标注曲线；利用共识曲线生成方法融合所有用户的标注曲线，得到初始融合曲线；根据初始融合曲线剔除低质量标注曲线，对剩余标注曲线进行二次融合，得到最终融合曲线；

步骤S3：滑坡众包标注平台对最终融合曲线进行修正，根据修正结果对用户的标注结果评分，并根据评分更新初始能力值，得到用户的能力值；

步骤S4：根据用户的能力值以及待标注任务的紧急度和难度为用户制定任务推荐队列，用户根据任务推荐队列选择待完成的标注任务。

在一个实施例中，上述步骤S1：用户在滑坡众包标注平台注册后，通过回答不同难度的测试问卷，得到用户的初始能力值，具体包括：

步骤S11：用户在滑坡众包标注平台注册后，由标注任务的请求方提供低、中、高三个难度的测试问卷；

步骤S12：对用户的初始能力值进行初始化：滑坡所属区域ability_area＝0.5，滑坡类型ability_type＝0.5，滑坡标注难度ability_difficulty＝0.5，标注速度ability_speed＝1；

步骤S13：根据用户的测试问卷的答题结果，更新滑坡标注难度值ability_difficulty：

用户如果未通过低难度测试，则ability_difficulty＝0，无法接收标注任务；

如果通过中难度测试，ability_difficulty＝0.6；

如果通过高难度测试，ability_difficulty＝0.7。

由于滑坡标注任务难度较高，对用户专业知识存在一定需求，因此新用户在滑坡众包标注平台注册后，接收标注任务前需进行能力测试。用户通过回答不同难度的测试问卷(低、中、高三个难度)确定其初始能力值。测试问卷由滑坡标注任务请求方提供。

滑坡所属区域ability_area与滑坡类型ability_type本质为两个数组，同一用户针对不同地区与不同类型存在不同的能力值，在初始化时，将所有能力值统一定为0.5。

由于滑坡标注需要大量专业数据的解读和处理，且滑坡边界范围模糊不定，不同标注者对同一滑坡的标注规范以及对滑坡的认识可能是不同的，标注轮廓可能是多样的，且没有可供对比的真值数据，因此为了在质量参差不齐的标注数据上选取整合一个较好的标注结果，本发明提供了共识曲线生成方法，融合多个标注者的标注结果得到最终的融合曲线，该融合曲线是比单用户标注更接近真值的标注结果。

在一个实施例中，上述步骤S2：用户接收标注任务，并提交标注曲线；利用共识曲线生成方法融合所有用户的标注曲线，得到初始融合曲线；根据初始融合曲线剔除低质量标注曲线，对剩余标注曲线进行二次融合，得到最终融合曲线，具体包括：

步骤S21：计算出单个用户的综合能力值A，如公式(1)所示：

A＝ability_area*ability_type*ability_difficulty (1)

对同一标注任务，收集所有参与标注的用户的标注结果，计算用户权重w_i，如公式(2)所示：

步骤S22：从所有参与标注任务的用户的标注曲线中任取两条曲线A、B，逐步进行两两融合，得到曲线C，对于曲线A上的点a，利用DTW算法找到曲线B上对应的点b，生成一个新的点c，c点的坐标由ab两点坐标根据所属曲线的用户权重加权平均得到，如公式(3)所示：

c＝w_a*a+w_b*b (3)

其中，a、b、c分别为点a、b、c对应的坐标，w_a为曲线A对应用户权重，w_b为曲线B对应用户权重；

根据公式(4)计算曲线C的权重：

w_c＝w_a+w_b (4)；

如图2所示，展示了曲线A上a点利用DTW算法找到曲线B上对应的b点，然后融合得到点c，最终得到曲线C；

步骤S23：重复步骤S22，将曲线C与下一个用户标注曲线进行融合，直到融合完所有用户标注的曲线，得到初始融合曲线；

步骤S24：将每个用户的标注曲线与初始融合曲线进行对比，计算用户标注评分，去除低于阈值的标注曲线；

步骤S25：将剩余的标注曲线重复步骤S22～S23，进行二次融合，得到最终融合曲线。

由于DTW算法是用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的对应关系，求解两模板匹配时累计距离最小所对应的规整函数。大部分情况下，两个序列整体上具有非常相似的形状，但是这些形状在x轴上并不是对齐的。DTW的思想是把两个序列进行延伸和缩短，来得到两个序列性距离最短也就是最相似的那一个warping，这个最短的距离也就是这两个序列的最后的距离度量，因此本发实施例采用DTW算法寻找两个用户标注曲线之间点的对应关系。

在一个实施例中，上述步骤S22中DTW算法，具体包括：

步骤S221：设两条曲线Q和C，长度分别是n和m，Q和C上的每个点的值为其特征值；构造一个n*m的矩阵，矩阵格点(i,j)表示Q上点i和C上点j的欧式距离d(i,j)；寻找warping路径从i出发经过矩阵到达j，令warping路径的第k个元素为W_k＝(i，j)_k，目标是寻找距离最短的warping路径，如公式(5)所示：

其中，K为warping路径上元素个数；

步骤S222：令每个矩阵格点(i，j)前进方向只有三种：(i+1，j)、(i，j+1)或(i+1，j+1)，从(0，0)点开始匹配Q和C，每到一个点，之前所有的经过的点的距离会根据公式(6)进行累加：

γ(i，j)＝d(i，j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1) (6)

其中，γ(i，j)表示从矩阵(0，0)到(i，j)的累积距离。

在一个实施例中，上述步骤S24中计算用户标注评分，具体包括：

令初始融合曲线为Q和用户标注曲线为C，则用户标注曲线C的评分为f(Q，C)，其计算公式(7)如下所示：

其中，f(Q，C)∈(0，1]；l(Q)为曲线Q的长度；Γ(Q，C)＝γ(n-1，m-1)，为曲线Q到C的最小累积距离，n和m分别是曲线Q和C的长度。

由于用户能力参差不齐，为了去除低质量的曲线，以及可能是胡乱标注的曲线，对用户标注曲线进行评分，去除低于阈值的用户标注曲线。再将剩余的高质量的标注曲线再次进行两两融合，得到最终融合曲线就具有较高的可信度。

在一个实施例中，上述步骤S3：滑坡众包标注平台对最终融合曲线进行修正，计算用户的标注结果评分，并根据评分更新初始能力值，得到用户的能力值，具体包括：

步骤S31：滑坡众包标注平台对最终融合曲线进行修正后，并根据公式(7)更新用户标注评分f(Q，C)；

步骤S32：根据下述公式(8)，更新用户能力值：

其中，u∈(0，1)为预设的超参数，T用于表示该次任务用户是否及时提交，如果及时提交T＝1，反之T＝-1。

滑坡众包标注平台的审核人员对最终融合曲线进行修正，作为真值数据。由于最终融合曲线具有较高的可信度，可大大降低审核人员的工作量。利用修订后的融合曲线，利用公式(7)，再次对用户标注曲线进行评分计算，得到最终的用户标注曲线的评分f(Q,C)。

最后利用公式(8)，更新用户能力值。

在一个实施例中，上述步骤S4：根据用户的能力值以及待标注任务的紧急度和难度为用户制定任务推荐队列，用户根据任务推荐队列选择待完成的标注任务，具体包括：

步骤S41：根据公式(9)，基于用户能力值，计算待标注任务推荐指数R：

其中，E∈[0，1]为待标注任务的紧急度,D∈[0，1]为待标注任务的难度；

滑坡众包标注平台在发布滑坡众包标注任务时，需要根据待标注任务内容设定参数：任务紧急程度E(0≤T≤1)，任务难度D(0≤D≤1)，以及滑坡所在地区与类型，根据公式(9)可计算得到该任务对某用户的推荐指数R；

步骤S42：计算所有标注任务的推荐指数，并从大到小排序，为每一位用户生成任务推荐队列，用户可根据任务推荐队列选择标注任务。

根据标注任务推荐指数R并从大到小排序，为每一位用户生成任务推荐队列，让用户优先接取符合自身能力水平的任务，且任务紧急程度越高，优先度越高。

实施例二

如图3所示，本发明实施例提供了一种基于能力评价的滑坡众包标注结果任务分配系统，包括下述模块：

评估初始能力值模块51，用于用户在滑坡众包标注平台注册后，通过回答不同难度的测试问卷，得到用户的初始能力值；

获取最终融合曲线模块52，用于用户接收标注任务，并提交标注曲线；利用共识曲线生成方法融合所有用户的标注曲线，得到初始融合曲线；根据初始融合曲线剔除低质量标注曲线，对剩余标注曲线进行二次融合，得到最终融合曲线；

计算用户的能力值模块53，用于滑坡众包标注平台对最终融合曲线进行修正，根据修正结果对用户的标注结果评分，并根据评分更新初始能力值，得到用户的能力值；

任务推荐模块54，用于根据用户的能力值以及待标注任务的紧急度和难度为用户制定任务推荐队列，用户根据任务推荐队列选择待完成的标注任务。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于能力评价的滑坡众包标注结果评估及任务分配方法，其特征在于，包括：

步骤S1：用户在滑坡众包标注平台注册后，通过回答不同难度的测试问卷，得到所述用户的初始能力值，具体包括：

步骤S12：对所述用户的初始能力值进行初始化：滑坡所属区域ability_area＝0.5，滑坡类型ability_type＝0.5，滑坡标注难度ability_difficulty＝0.5，标注速度ability_speed＝1；

步骤S13：根据所述用户的测试问卷的答题结果，更新所述滑坡标注难度值ability_difficulty：

所述用户如果未通过低难度测试，则ability_difficulty＝0，无法接收标注任务；

如果通过中难度测试，ability_difficulty＝0.6；

如果通过高难度测试，ability_difficulty＝0.7；

步骤S2：所述用户接收标注任务，并提交标注曲线；利用共识曲线生成方法融合所有用户的标注曲线，得到初始融合曲线；根据所述初始融合曲线剔除低质量标注曲线，对剩余所述标注曲线进行二次融合，得到最终融合曲线，具体包括：

步骤S21：计算出单个用户的综合能力值A，如公式(1)所示：

A＝ability_area*ability_type*ability_difficulty (1)

对同一标注任务，收集所有参与标注的用户的标注结果，计算用户权重w_i，如公式(2)所示，其中A_i表示第i个用户的综合能力值：

步骤S22：从所有参与所述标注任务的用户的标注曲线中任取两条曲线A、B，逐步进行两两融合，得到曲线Z，对于曲线A上的点a，利用DTW算法找到曲线B上对应的点b，生成一个新的点z，z点的坐标由ab两点坐标根据所属曲线的用户权重加权平均得到，如公式(3)所示：

P_z＝w_a*P_a+w_b*P_b (3)

其中，P_a、P_b、P_z分别为点a、b、z对应的坐标，w_a为曲线A对应用户权重，w_b为曲线B对应用户权重；

根据公式(4)计算曲线Z的权重：

w_z＝w_a+w_b (4)

其中，DTW算法包括下述步骤：

步骤S221：设两条曲线A和B长度分别是n和m，A和B上的每个点的值为其特征值；构造一个n*m的矩阵，矩阵格点(i,j)表示A上点i和B上点j的欧式距离d(i,j)；寻找warping路径从i出发经过所述矩阵到达j，令warping路径的第k个元素为W_k＝(i,j)_k，目标是寻找距离最短的warping路径，如公式(5)所示：