CN117196734B

CN117196734B - 一种众包任务的价值评估方法、系统、设备及存储介质

Info

Publication number: CN117196734B
Application number: CN202311189425.7A
Authority: CN
Inventors: 尹波; 王田旭; 陈翊; 唐赛
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-03-22
Anticipated expiration: 2043-09-14
Also published as: CN117196734A

Abstract

本申请公开了一种众包任务的价值评估方法、系统、设备及存储介质，本方法首先将目标众包任务的评分区间进行梯度划分为多个子区间，提供了对文化产品指标值的定性和定量评价的基础；然后将众包工人的评分作为样本，通过样本的统计值来估计整体均值的置信区间，当置信区间落入其中一个子区间时，即可认为指标值以一定的置信度属于子区间对应的任务答案，从而实现对文化产品指标值的可靠的定性评价，而求取的均值也可以用来对文化产品指标值进行定量评价。本方法通过结合梯度划分和滑动评分实现对文化产品指标值定性和定量的评价，通过基于区间估计的评估方法来保证评估结果的置信度。

Description

一种众包任务的价值评估方法、系统、设备及存储介质

技术领域

本申请涉及众包任务评估技术领域，尤其是涉及一种众包任务的价值评估方法、系统、设备及存储介质。

背景技术

近几十年来，经济和文化全球化促进了文化产业的快速发展和文化产品交易的繁荣，文化产业对经济增长的贡献率不断上升，已成为许多国经济增长的重要推动力。文化产品作为特定文化的有形或无形创造，以商品或者服务的形式存在，例如艺术品、书籍、多媒体产品、电影和时尚。对文化产品进行价值评估是文化产品交易的前提，但是文化产品的价值无法进行有效评估是当前文化产业的一个瓶颈问题。

众包(Crowdsourcing)作为一种新的问题解决模式，已经在图像标注、产品评价、语言处理、医学诊断等多个领域展现出巨大的潜力。众包是将不适合用计算机解决的任务分发给大量在线参与者，利用集体智慧和分布式劳动力来解决问题。众包适合于解决依赖人的经验和专业知识的问题，例如上述提到的电影和书画指标评估，就需要理解电影/书画内容、具有专业知识，并且进行美的感受。

目前已有利用众包对文化产品在抽象指标上的表现进行评估，但目前的基于众包对文化产品在抽象指标上的表现进行评估的可解释性较差，无法保证评估结果的置信度。

发明内容

本申请旨在至少解决现有技术中存在的技术问题。为此，本申请提出一种众包任务的价值评估方法、系统、设备及存储介质，通过基于区间估计的评估方法保证评估结果的置信度，实现对众包任务的定性和定量的评价。

根据本申请的第一方面实施例的一种众包任务的价值评估方法，所述众包任务的价值评估方法包括如下步骤：

确定目标众包任务的评分区间，对所述评分区间进行梯度划分为多个子区间，并确定每一个所述子区间对应的任务答案；所述目标众包任务为文化产品的评估任务；

获取众包工人集合中每一个众包工人对所述目标文化产品的评分，并计算评分均值；

确定所述目标众包任务的置信度，根据所述评分均值和所述置信度计算所述目标众包任务的置信区间，判断所述置信区间所属的所述子区间，若所述评分均值和所述置信区间均完全落入目标子区间之内，将所述目标子区间对应的任务答案作为所述目标众包任务的任务答案。

根据本申请实施例的众包任务的价值评估方法，至少具有如下有益效果：

本方法首先将目标众包任务的评分区间进行梯度划分为多个子区间，提供了对文化产品指标值的定性和定量评价的基础；然后将众包工人的评分作为样本，通过样本的统计值来估计整体均值的置信区间，当置信区间落入其中一个子区间时，即可认为指标值以一定的置信度属于子区间对应的任务答案，从而实现对文化产品指标值的可靠的定性评价，而求取的均值也可以用来对文化产品指标值进行定量评价。本方法通过结合梯度划分和滑动评分实现对文化产品指标值定性和定量的评价，通过基于区间估计的评估方法来保证评估结果的置信度。

根据本申请的一些实施例，所述众包任务的价值评估方法，还包括：

若所述置信区间不能完全落入所述评分区间的其中一个所述子区间时，增加对所述目标众包任务进行评分的所述众包工人集合中的众包工人的数量。

根据本申请的一些实施例，所述根据所述评分均值和所述置信度计算所述目标众包任务的置信区间，包括：

根据所述评分均值计算方差：其中，S²为方差，n为众包工人集合中的众包工人的总数，X_i为第i位众包工人的评分，/>为评分均值，

根据所述方差和所述置信度计算精度值：其中，L为精度值，所述置信度为1-α，/>为根据Student统计分布得到的数值；

根据所述评分均值和所述精度值生成置信区间：

所述若所述置信区间完全落入目标子区间之内，将所述目标子区间对应的任务答案作为所述目标众包任务的任务答案，包括：

当且/>将所述目标子区间/>对应的任务答案作为所述目标众包任务的任务答案；其中，M为评分区间的最大值，m为多个子区间的总数，k为整数且取值范围包括1≤k≤m-1，γ为预设的误差，B为进行梯度划分的预设值。

根据所述评分均值计算方差值：其中，S²为方差，n为众包工人集合中的众包工人的总数，X_i为第i位众包工人的评分，/>为评分均值，

计算生成置信区间：其中，当/>则当/>则/>L为精度值，M为评分区间的最大值，m为多个子区间的总数，k为整数且取值范围包括1≤k≤m-1，γ为预设的误差，B为进行梯度划分的预设值，/>且/>temp为预设参数，所述置信度为1-α，/>为根据Student统计分布得到的数值。

根据EM算法计算众包工人的评估准确率；

根据所述评估准确率选取所述众包工人集合；

所述根据EM算法计算众包工人的评估准确率包括：

获取上一轮迭代求取的众包工人正确回答任务的概率矩阵R_N×m、上一轮迭代求取的众包工人在给定真实标签情况下回答正确的条件概率矩阵以及上一轮迭代求取的任务真实标签的先验概率Q_1×m′；

根据概率矩阵R_N×m计算当前轮的众包工人在给定真实标签情况下回答正确的条件概率矩阵

N为众包任务的总数，R_i,c为概率矩阵R_N×m中的第i行和第c列的元素值，为众包工人对第i个众包任务的任务答案为x的次数，m为众包任务的任务答案的总数，c为正确答案，c∈{1,...,m}；

根据概率矩阵R_N×m和条件概率矩阵计算当前轮的众包工人正确回答众包任务的概率矩阵R_N×m′：

I为待选取的众包工人的总数，为条件概率矩阵/>中的第c行和第x列的元素值，/>为条件概率矩阵/>中的第s行和第x列的元素值，R_i,s为概率矩阵R_N×m中的第i行和第s列的元素值，s∈{1,...,m}；

根据概率矩阵R_N×m′计算当前轮的任务真实标签的先验概率Q_1×m：

R_i，c′为概率矩阵R_N×m′中的第i行和第c列的元素值；

计算先验概率Q_1×m′与先验概率Q_1×m之间的第一变化值、条件概率矩阵与条件概率矩阵/>之间的第二变化值；

当所述第一变化值和所述第二变化值均大于阈值，则计算众包工人的评估准确率

Q_1，c为先验概率Q_1×m中的第c列的元素值，为条件概率矩阵/>中的第c行、第1列的元素值。

根据边际似然估计计算众包工人的评估准确率；

根据所述评估准确率选取所述众包工人集合；

所述根据边际似然估计计算众包工人的评估准确率包括：

计算众包工人w_j的似然函数L_j(p_j)：

p_j为众包工人的真实准确率，为众包工人w_j参与的众包任务集合，/>为参与众包任务t_i的众包工人集合，c∈{1，...，m}为正确答案，m为众包任务对应的任务答案的总数，a_i，j∈{-1，1，2，…，m}为众包工人w_j参与众包任务t_i的任务答案，-1为众包工人w_j未参与众包任务t_i，a_i，j＝c为众包工人w_j参与众包任务t_i的任务答案为c，当a_i，j＝c，/>为1，否则/>为0，当a_i，j≠c，/>为1，否则/>为0，γ为预设的误差，σ_i ²为方差，x∈{1，...，m}为众包工人的任务答案，w_o为除众包工人w_j之外的任意一个众包工人，/>为众包工人w_o的评估准确率，a_i，o∈{-1，1，2，…，m}为众包工人w_o参与众包任务t_i的任务答案，a_i，o＝c为众包工人w_o参与众包任务t_i的任务答案为c，当a_i，o＝c，/>为1，否则/>为0，当a_i，o≠c，为1，否则/>为0；

根据似然函数L_j(p_j)计算众包工人w_j的评估准确率

其中，p_min为预设的最小准确率。

根据本申请的一些实施例，所述众包工人为区块链节点；

在所述获取众包工人集合中每一个众包工人对目标文化产品的评分之后，所述众包任务的价值评估方法还包括：将所述评分存储于区块链上的区块中；

在获得所述目标众包任务的任务答案之后，所述众包任务的价值评估方法还包括：将所述任务答案存储于区块链上的区块中。

根据本申请的第二方面实施例的一种众包任务的价值评估系统，所述众包任务的价值评估系统包括：

区间划分单元，用于确定目标众包任务的评分区间，对所述评分区间进行梯度划分为多个子区间，并确定每一个所述子区间对应的任务答案；所述目标众包任务为文化产品；

均值计算单元，用于获取众包工人集合中每一个众包工人对所述目标文化产品的评分，并计算评分均值；其中，所述评分是位于所述评分区间之内的浮点数；

答案计算单元，用于确定所述目标众包任务的置信度，根据所述评分均值和所述置信度计算所述目标众包任务的置信区间，判断所述置信区间所属的所述子区间，若所述评分均值和所述置信区间均完全落入目标子区间之内，将所述目标子区间对应的任务答案作为所述目标众包任务的任务答案。

根据本申请的第三方面实施例的一种电子设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的众包任务的价值评估方法。

根据本申请的第四方面实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的众包任务的价值评估方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提供的一种众包任务的价值评估方法的流程示意图；

图2是本申请一实施例提供的一种选取众包工人集合的流程示意图；。

图3是本申请另一实施例提供的一种选取众包工人集合的流程示意图；

图4是本申请一实施例提供的基于众包和区块链的文化产品评估系统架构图；

图5是本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释：

(1)文化产品；

近几十年来，经济和文化全球化促进了文化产业的快速发展和文化产品交易的繁荣。文化产业对经济增长的贡献率不断上升，已成为许多国经济增长的重要推动力。据统计，2022年中国文化产业总收入超过16.5万亿元。佳士得在2023年上半年成交总额为32亿美元，单个艺术品最高成交价为67.11百万美元，其中31％的买家为首次参与佳士得拍卖。文化产品作为特定文化的有形或无形创造，以商品或者服务的形式存在，例如艺术品、书籍、多媒体产品、电影和时尚。对文化产品进行价值评估是文化产品交易的前提，但是文化产品的价值无法进行有效评估是当前文化产业的一个瓶颈问题。目前文化产品价值评估主要依赖第三方鉴定机构，难以保证价值评估的公允性和可靠性，并且出现价格操纵行为。根本原因在于文化产品具有较强的精神属性，因此带有主观性和审美性，其价值判断和人的感受密切相关。具体而言，文化产品的价值是综合其在多个指标上的表现计算得到，其中部分指标可以直接获得其数值，但是另外一部分指标具有很大的抽象性，依赖与人的主观感受和评判，很难使用计算机或者AI技术来量化其数值，例如电影作品的专业水平(包括“演员的表演成熟度”、“故事是否引人入胜”、“配乐是否具有感染力”、“画面感”等指标)、绘画作品的创作者技术(包括“构图”、“色彩”、“精细程度”等指标)。

(2)众包；

众包作为一种新的问题解决模式，已经在图像标注、产品评价、语言处理、医学诊断等多个领域展现出巨大的潜力。众包是将不适合用计算机解决的任务分发给大量在线参与者，利用集体智慧和分布式劳动力来解决问题。众包适合于解决依赖人的经验和专业知识的问题，例如上述提到的电影和书画指标评估，就需要理解电影/书画内容、具有专业知识，并且进行美的感受。知名影评网站IMDb使用众包技术来收集和展示来自全球范围内的用户对电影的看法，并使用用户提交的评分数据来编制电影排名和榜单。在智慧医疗领域，虽然部分疾病诊断可以借助图像识别技术，但是一些少见的疾病仍然需要靠众包技术综合多个医生的意见，从而做出可靠的诊断。

实施例部分

参照图1，为了解决上述现有基于众包对文化产品在抽象指标上的表现进行评估的可解释性较差，无法保证评估结果的置信度的问题，本申请的一个实施例，提供了一种众包任务的价值评估方法，本方法通过服务器节点执行，服务器节点具体执行如下步骤S110至S150：

步骤S110、确定目标众包任务的评分区间，对评分区间进行梯度划分为多个子区间，并确定每一个子区间对应的任务答案；目标众包任务为文化产品的评估任务。

步骤S130、获取众包工人集合中每一个众包工人对目标文化产品的评分，并计算评分均值。

步骤S150、确定目标众包任务的置信度，根据评分均值和置信度计算目标众包任务的置信区间，判断置信区间所属的子区间，若评分均值和置信区间均完全落入目标子区间之内，将目标子区间对应的任务答案作为目标众包任务的任务答案。

在步骤S110中，目标众包任务是指需要进行执行的一个众包任务，本申请所指的众包任务或者目标众包任务都是文化产品的评估任务，具体可以是文化产品的指标值评估，文化产品包括但不仅限于：艺术品、书籍、多媒体产品、电影和时尚。例如目标众包任务为：使用众包技术来收集和展示来自全球范围内的用户对电影的看法，并使用用户提交的评分来编制电影排名和榜单，这里的用户为众包工人。

在本实施例中，众包工人的任务答案是指众包工人对于众包任务的任务结果，每一工人针对众包任务均有对应一个任务答案，但众包任务的任务答案需要依据每一个众包工人对于众包任务的任务答案进行综合判定。因为众包工人在收到众包任务之后，会给出评分，评分对应属于一个子区间，那么子区间对应的任务答案就是该工人给出的任务答案。例如：一个电影的分为5档：[1,2]表示“差”；[3,4]表示“较差”；[5,6]表示“中等”；[7,8]表示“较好”；[9,10]表示“优秀”，一个众包工人的评分为6，那么“中等”就为其给出的答案，但并非是整个任务的答案。

在本实施例中，评分区间是指众包工人对任务的答案区间。本实施例将评分区间进行梯度划分为多个子区间，确定每一个子区间对应的任务答案，不同子区间代表不同梯度，众包工人的评分是滑动评分，以通过梯度划分体现众包工人的观点在宏观上的差异，以通过滑动评分准确反映众包工人的观点。

假设：令众包工人的评分区间为[1,M]，将该区间[1,M]划分为m个连续的评估档次令相邻评估档次的分割点为共有m-1个分割点(通常情况下可以设B＝0.5)，根据分割点可以将[1,M]划分为m个子区间/>不同子区间代表不同梯度，用户的评分是滑动评分，即为[1,M]中的浮点数，具体评分用于定量评价，子区间用于定性评价，例如，一位众包工人给出电影的评分为9分，属于[9,10]的子区间，那么该工人对该电影的定量评价为9，定性评价为“优秀”。

当收到了多个众包工人的评分后进行聚合，得到最终分值(即评分均值)和置信区间，该评分均值是位于区间[1,M]的浮点数。要求该最终分值的置信区间完全落入步骤S110中划分多个子区间中的一个，由此表示众包工人对该指标的评估趋于一致(满足置信度要求)。例如：以对电影的评价作为众包任务，则任务对于电影的评估指标为“故事情节”，众包工人的评分为位于区间[1,10]的整数，分为5档：[1,2]表示“差”；[3,4]表示“较差”；[5,6]表示“中等”；[7,8]表示“较好”；[9,10]表示“优秀”。分割点分别为2.5、4.5、6.5、8.5，因此5个子区间为[0,2.5]、[2.5,4.5]、[4.5,6.5]、[4.5,6.5]、[6.5,8.5]、[8.5,10]。这5个子区间用于定性评价，具体评分结论(答案)和以上5档依次对应。

在步骤S130中，首先选取一个众包工人集合，众包工人集合中的众包工人的数量是可以变动的，关于众包工人集合中的众包工人的数量在后文实施例进行详细介绍，这里不作具体的限定。然后众包工人集合中的众包工人在收到众包任务之后，分别执行该任务，得到每一位众包工人对众包任务的评分，最后基于每一个众包工人的评分，计算评分均值。

在步骤S150中，置信度为提前给定，例如0.9，0.95或者0.98，具体不进行限定。置信区间是指由样本统计量所构造的总体参数的估计区间，本实施例利用评分均值和置信度计算目标众包任务的置信区间，本实施例要求评分均值的置信区间完全落入步骤S110划分出的多个子区间中的一个子区间(本实施例称为目标子区间)，目标子区间对应的任务答案就是这一次目标众包任务的任务答案。

本方法首先将目标众包任务的评分区间进行梯度划分为多个子区间，提供了对文化产品指标值的定性和定量评价的基础；然后将众包工人的评分作为样本，通过样本的统计值来估计整体均值的置信区间，当置信区间落入其中一个子区间时，即可认为指标值以一定的置信度属于子区间对应的任务答案，从而实现对文化产品指标值的可靠的定性评价，而求取的均值也可以用来对文化产品指标值进行定量评价。本方法通过结合梯度划分和滑动评分实现对文化产品指标值定性和定量的评价，通过基于区间估计的评估方法来保证评估结果的置信度。提高了可解释性。

在本申请的一些实施例中，众包任务的价值评估方法还包括步骤S170：

步骤S170、若置信区间不能完全落入评分区间的其中一个子区间时，增加对目标众包任务进行评分的众包工人集合中的众包工人的数量。

在本实施例中，众包工人集合内的数量可变动。众包任务的答案的质量和工人人数相关，因为众包工人的评分可能存在偏差，需要聚合多个众包工人的评分并且保证置信度，因此在本实施例中，当众包工人的人数较少时，置信区间不一定完全落入某个子区间，此时可以增加众包工人参与评分，直到能够判断置信区间落入的子区间。

以下介绍进行基于区间估计的众包任务评估聚合的实施例：

第一种实施例，本申请提供了一种基于Student分布的评估聚合方法，即步骤S150中的根据评分均值和置信度计算目标众包任务的置信区间，包括如下步骤S210-S230：

步骤S210、根据评分均值计算方差：

其中，S²为方差，n为众包工人的总数，X_i为第i位众包工人的评分，为评分均值。

步骤S220、根据方差和置信度计算精度值：

其中，L为精度值，置信度为1-α，为根据Student统计分布得到的数值。

步骤S230、根据评分均值和精度值生成置信区间

步骤S150中的若置信区间完全落入目标子区间之内，将目标子区间对应的任务答案作为目标众包任务的任务答案，包括如下步骤S240：

步骤S240、当且将目标子区间/>对应的任务答案作为目标众包任务的任务答案；其中，M为评分区间的最大值，m为多个子区间的总数，k为整数且取值范围包括1≤k≤m-1，γ为预设的误差，B为进行梯度划分的预设值。

在步骤S210中，方差和均值的求取为领域的公知，此处不再具体细述。

在步骤S220和S230中，置信区间为：L为精度值，利用Student分布(t分布)计算精度值，L通过t分布查表可以得知。值得注意的是，众包工人集合中的众包工人的总数n可以变动，通常情况下，参与的众包工人数量越多，可以得到更紧凑的置信区间，那么目标众包任务的任务答案更为准确。

在本实施例中，将众包工人的评分视为样本，根据样本对总体的均值进行区间估计。假设评分值x符合高斯分布N(μ，σ²)，在不知道σ²值的情况下对均值μ进行区间估计。这里采用t分布计算μ的置信区间这里/>为n个众包工人提交的评分的均值，L为精度。如果计算得到的置信区间全部落入某个子区间，则可以认为μ以极大概率1-α位于该区间(置信度为1-α)，因此此时μ值是可信的。如果置信区间落入评分模型的多个子区间，则邀请新的众包工人参与评分，直到聚合结果满足要求。t统计分布的优点在于：能够基于小样本估计均值，并且参与任务的众包工人人数n越大，可以得到更紧凑的置信区间。

在步骤S240中，在子区间内设置了一个γ值，γ值是一个可容忍的误差，设置该值的目的是为了加快收敛。因为当位于区间分割点附近时，容易出现其置信区间横跨两个子区间的现象，横跨两个子区间的现象符合众包工人评分心理，原因在于此时指标的性能确实是介于两个子区间之间，例如针对评估指标“故事情节”，假设多数工人认为评分应该是“6”或者“7”，而这两个评分在进行定性评价时属于不同的两个子区间，对应答案分别是“中等”和“较好”，这样/>就会在分割点6.5附近，此时，如果/>落入某个子区间、并且/>的绝大部分范围也落入该子区间，则表示总体均值很大概率位于该子区间，或者说绝大部分众包工人认为指标性能因该属于子区间的答案。因此，为了更快收敛，设置可容忍的误差γ，当/>落入某个子区间并且置信区间在γ误差内也落入该子区间，则众包任务的答案属于该子区间。

下表1是本实施例提供的基于t分布进行众包任务的评估聚合的伪代码：

表1

在上述伪代码中，第2行用于设置参与目标众包任务计算的众包工人数量，第3至第7行用于计算置信区间，第8至第9行用于判断置信区间落入的子区间。

第二种实施例，本申请提供了一种基于Stein估计的评估聚合方法，即步骤S150中根据评分均值和置信度计算目标众包任务的置信区间，包括如下步骤S310-S320：

步骤S310、根据评分均值计算方差值：

其中，S²为方差，n为众包工人集合中的众包工人的总数，X_i为第i位众包工人的评分，为评分均值，/>

步骤S320、计算生成置信区间L的取值为：

当则/>

L为精度值，M为评分区间的最大值，m为多个子区间的总数，k为整数且取值范围包括1≤k≤m-1，γ为预设的误差，B为进行梯度划分的预设值，且/> temp为预设参数，置信度为1-α，/>为根据t分布得到的数值。

在步骤S310中，方差和均值的求取为领域的公知，此处不再具体细述。

在步骤S320中，本实施例采用Stein估计计算置信区间，详细说明如下：

Stein估计可在动态样本数量的条件下，满足置信度1-α和精度L要求，Stein估计包括两个阶段，第二阶段的样本量根据第一阶段的结果动态调整。给定置信度1-α和精度L，第一阶段将众包任务发送给n个众包工人进行评估，计算评分均值和方差/>令参数此时需要N个众包工人才能满足给定的置信度和精度要求：μ的置信区间为/>(即)，因此，如果N≤n，不用进行第二阶段评分；反之N>n₀，需要增加众包工人参与评分即执行第二阶段评分。因为置信区间/>必须完全落入子区间，才能进行判定，但是对精度L并没有具体的要求，当L取较小值，虽然精度高，但是所需的评分数目也随之平方倍增加，即需要更多的众包工人参与评估，因此将L设置为满足置信度要求、且能够实现区间判断的最大值，这样既满足聚合答案的质量要求、又避免需要招募大量众包工人参与评估，因为判断区间是由均值决定，因此根据均值和判定的子区间确定L的值，即L为使得置信区间落入判定的子区间的最大值，再判断第一阶段的样本是否满足置信度要求。

于是，可以逐步增加n的取值，n每一次取值时，均在n取该值时，计算一次L值，即先计算均值，再计算方差，根据均值和子区间给定一个L值(详见后续伪代码)，然后判断在选择了n值和确定相应L值后，是否满足置信度(详见后续伪代码)的要求。当满足时，证明n取值正确，该L值也正确，无需继续增加n取值；当不能满足，则要增加n的取值，再按照上述再次判断，直至取到一个合适n值。在本实施例中，增加了参数temp，参数的限定条件，增加了限定条件之后的n值是符合置信度和精度要求的取值，所以本实施例中n取值是合适的。

下表2是本实施例基于Stein估计进行众包任务的评估聚合的伪代码：

表2

在上述伪代码中，第2行用于设置参与众包任务计算的工人数量，第3-11行用于计算置信区间，第12-15行用于判断置信区间落入的子区间。

在上述实施例中，通过基于区间估计的评估方法(基于Student分布的评估聚合方法和基于Stein估计的评估聚合方法)保证了评估结果的置信度。

以下介绍选取众包工人的实施例：

现有技术中的众包任务的答案质量和参与众包任务的工人本身质量相关，不同众包工人的专业背景和经验不一致，因此需要尽可能的筛选高质量工人参与评分。为了应对该问题，参照图2，本申请提供了一种选取众包工人集合的实施例，包括步骤S410至步骤S420：

步骤S410、根据EM算法计算众包工人的评估准确率。

步骤S410、根据评估准确率选取众包工人集合。

众包工人准确率用来衡量众包工人在任务中的表现和可靠性，在发放任务时筛选高准确率的众包工人参与任务，可以提高任务答案的质量。因为准确率估计本质上是对参数进行估计，而且本申请的众包工人准确率估计是指：在不知道问题真实答案的前提下，估计众包工人正确回答问题的概率，因此本实施例使用EM算法计算众包工人的评估准确率。

EM算法是一种迭代算法，其核心思想是通过迭代求解潜在变量的后验概率和模型参数的最大似然估计来优化模型。EM算法在每次迭代均包含两个步骤：E步骤和M步骤，分别用来求期望和求最大。具体而言，在E步骤中，根据上一轮众包工人正确回答问题的概率矩阵R_N×m和众包工人在给定真实标签情况下回答正确的条件概率矩阵计算得到当前轮的众包工人正确回答问题的概率矩阵R′_N×m。在M步骤中，利用E步骤得到的后验概率，更新众包工人在给定真实标签情况下回答正确的条件概率矩阵/>具体的，包括如下步骤S4110至S4160：

假设总共有I个众包工人，回答了N个众包任务。每个众包任务是集合{1,2,…,m}的成员，m为众包任务的任务答案的总数，对应上述实施例划分的m个子区间。令i∈{1，...，N}，x∈{1，...，m}表示众包工人的答案，c∈{1，...，m}表示正确答案。

步骤S4110、获取上一轮迭代求取的众包工人正确回答任务的概率矩阵R_N×m、上一轮迭代求取的众包工人在给定真实标签情况下回答正确的条件概率矩阵以及上一轮迭代求取的任务真实标签的先验概率Q′_1×m。详见后续伪代码。

步骤S4120、根据概率矩阵R_N×m计算当前轮的众包工人在给定真实标签情况下回答正确的条件概率矩阵

R_i，c为概率矩阵R_N×m中的第i行和第c列的元素值，为众包工人对第i个众包任务的任务答案为x的次数。其中：

步骤S4130、根据概率矩阵R_N×m和条件概率矩阵计算当前轮的众包工人正确回答众包任务的概率矩阵R_N×m′：

I为待选取的众包工人的总数，为条件概率矩阵/>中的第c行和第x列的元素值，/>为条件概率矩阵/>中的第s行和第x列的元素值，g_c为众包工人的边际概率，其中：/>

R′_i，c为概率矩阵R_N×m′中的第i行和第c列的元素值。

步骤S4140、根据概率矩阵R_N×m′计算当前轮的任务真实标签的先验概率Q_1×m：

步骤S4150、计算先验概率Q_1×m′与先验概率Q_1×m之间的第一变化值、条件概率矩阵与条件概率矩阵/>之间的第二变化值。

步骤S4160、当第一变化值和第二变化值均大于阈值，则计算众包工人的评估准确率

下表3是本实施例基于EM算法计算众包工人的评估准确率的伪代码：

表3

在上述伪代码中，第2行是用于计算众包工人在给定真实标签情况下回答正确的条件概率矩阵，第3行是用于计算众包工人正确回答问题的概率矩阵。后续分别计算和Q_1×m与上一轮迭代的变化值Δ₁、Δ₂。将这些变化值Δ₁、Δ₂与收敛阈值δ进行比较。如果和Q_1×m的变化值都小于阈值δ或达到最大迭代次数num_max，算法结束。否则继续进行E步骤和M步骤的迭代，更新参数，直至满足收敛条件或达到最大迭代次数为止。

根据众包工人参与的历史任务估计众包工人的准确率设计基于EM计算众包工人的评估准确率方法，可以在不知道任务的正确答案的情况下估计准确率。

参照图3，第二种实施例，众包任务的价值评估方法还包括步骤S510至步骤S520：

步骤S510、根据边际似然估计计算众包工人的评估准确率。

步骤S520、根据评估准确率选取众包工人集合。

由于每个任务正确答案的不确定性，EM算法在小样本情况下容易进行过度估计，相比于EM算法，边际似然估计算法不需要假设每个问题的正确答案，而是根据当前观察到的证据进行加权，从而估计每个众包工人准确性的边际似然分布，并通过该分布计算众包工人准确性。边际似然估计(MLE)方法可用于估计众包工人准确性和任务的正确答案，特别对于小数据集具有较好的性能。边际似然估计的基本思想为：在给定一组任务和众包工人标注结果的情况下，通过最大化所有众包工人标注结果的联合概率来进行估计准确率。具体的包括：

令p_j为众包工人w_j的真实准确率、为众包工人w_j的评估准确率。考虑历史任务t_i∈T，令a_i，j表示众包工人w_j针对众包任务t_i的答案。a_i，j属于集合{-1，1，2，…，m}，使用“-1”表示该众包工人没有参与该众包任务。a_i，j＝c表示w_j提供的答案落入第c个子区间。令A_i表示众包任务t_i的答案集合：A_i＝{a_i，j|1≤j≤N}。假设对众包任务t_i，所有众包工人的答案A_i满足高斯分布(令方差为σ_i ²)。假设当前众包任务t_i的正确答案为c，那么A_i是以c为均值、方差为σ_i ²的高斯分布的分布/>令/>表示众包工人w_j参与的众包任务集合，W_i ^T表示参与同一个众包任务t_i的众包工人集合。设置函数/>其具体含义如下：如果a_i，j的值为c，那么函数的值为1；否则值为0。

设置了可容忍的误差γ，当样本均值落入某个子区间并且置信区间在γ误差内也落入该子区间，则判定μ属于该子区间。例如上述的评分范围是[1，10]，众包工人评估准确率是针对五个子区间，子区间的取值是[1，5]，因此第c个子区间实际上的范围是[c-γ/2，c+γ/2]。令x为众包工人的答案。假设众包任务t_i的正确答案为c，那么w_j正确回答t_i的概率con_j为：

这里当a_i，j＝c，众包工人w_j正确回答答案的概率为p_j。而a_ij≠c时，w_j没有提供正确答案的概率的值为：

计算所有其他众包工人w_o正确回答t_i的概率，用来对公式进行加权。因此步骤S5110、计算众包工人w_j的似然函数L_j(p_j)：

步骤S5120、根据似然函数L_j(p_j)计算众包工人w_j的评估准确率

其中，p_min为预设的最小准确率。可以通过发放黄金标准问题来进一步提高模型的准确性。假设工人w_j回答了g_j个黄金标准问题；那么正确回答rg_j个问题的概率为此时新的似然函数为/>

下表4是本实施例基于MLE计算众包工人的评估准确率的伪代码：

表4

在伪代码中，第3-8行用于计算似然函数L_j(p_j)，第9行用于更新准确率第4行用于计算每个任务t_i的每个标签c的后验概率prl，后验概率表示在当前的众包工人准确性估计下c为正确答案的概率。众包工人w_j正确回答任务的概率con_j根据公式计算得到。第5-6行用于计算其他众包工人的正确回答答案的概率。

相较于基于EM计算众包工人的评估准确率方法，基于MLE计算众包工人的评估准确率方法，不仅可以在不知道任务的正确答案的情况下估计准确率，而且在数据不足的情况下仍然为每个答案设定一个正确答案，因此针对小样本数据具有更好的准确性。

如图4，以下提供一个众包任务的价值评估方法简例，本方法通过一种基于众包和区块链的文化产品评估系统架构实现，具体包括：

步骤S610、输入文化产品至区块链中。评估系统构建在区块链平台之上，使用联盟链FISCO BCOS作为底层区块链，使用区块链智能合约来发布文化产品的评估任务以及众包工人评分上链。区块链用户视为众包工人。

步骤S620、通过设置工人准确率评估模型选取高质量的众包工人组成众包工人集合。工人准确率评估模型可以是基于MLE的工人准确率评估模型(详见上述伪代码4的具体评估流程)和基于EM的工人准确率评估模型(详见上述伪代码3的具体评估流程)。

步骤S630、确定文化产品的指标值评估任务的评分区间，对评分区间进行梯度划分为多个子区间，并确定每一个子区间对应的任务答案。

步骤S640、将文化产品分配给众包工人集合中的众包工人。

步骤S650、每一位众包工人均给出对应评分之后，将评分上链。

步骤S660、进行评估聚合。使用基于Stein估计的评估聚合模型(详见上述伪代码2的具体评估聚合流程)以及基于t分布的评估聚合模型(详见上述伪代码1的具体评估聚合流程)。

步骤S670、得到文化产品定性和定量的评价。

本实施例至少具有如下优点：

(1)提出了基于众包和区块链的文化产品评估框架，由于区块链采用去中心化和加密等技术实现了不可篡改、公开透明、可追溯的分布式记账，使用区块链作为底层架构。采用众包方式招募区块链用户参与评估，并且将评估信息记入区块链账本并公开，区块链所有用户对评估行为进行监督。这样促使众包工人公平公正地进行评估，从而提高众包评估的可靠性和公允性，克服了传统评估方式依赖于第三方评估机构难以保证公允性的缺点；

(2)通过结合梯度划分和滑动评分实现定性和定量的评价，通过基于区间估计的评分聚合模型来保证评分结果的置信度，提高了可解释性。

(3)提出了基于EM的工人准确率评估方法和基于MLE的工人准确率评估方法，相较于前者，基于MLE的工人准确率评估方法设计结合梯度划分和滑动评分的工人准确率似然函数，实现小样本情况下的工人准确率估计。众包工人准确率用来衡量众包工人在任务中的表现和可靠性，在发放任务时筛选高准确率的众包工人参与任务，可以提高众包答案的质量。

本申请实施例还提供了一种众包任务的价值评估系统，众包任务的价值评估系统包括：

区间划分单元，用于确定目标众包任务的评分区间，对评分区间进行梯度划分为多个子区间，并确定每一个子区间对应的任务答案；目标众包任务为文化产品；

均值计算单元，用于获取众包工人集合中每一个众包工人对目标文化产品的评分，并计算评分均值；其中，评分是位于评分区间之内的浮点数；

答案计算单元，用于确定目标众包任务的置信度，根据评分均值和置信度计算目标众包任务的置信区间，判断置信区间所属的子区间，若评分均值和置信区间均完全落入目标子区间之内，将目标子区间对应的任务答案作为目标众包任务的任务答案。

本实施例与上述方法实施例是基于相同的发明构思，此处不再赘述。

参见图5，本申请实施例还提供了一种电子设备，本电子设备包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

程序被存储在存储器中，处理器执行至少一个程序以实现本公开实施上述的众包任务的价值评估方法。

该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、车载电脑等任意智能终端。

下面对本申请实施例的电子设备进行详细介绍。

处理器1600，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器1700，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1700可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1700中，并由处理器1600来调用执行本公开实施例的众包任务的价值评估方法。

输入/输出接口1800，用于实现信息输入及输出；

通信接口1900，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线2000，在设备的各个组件(例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900)之间传输信息；

其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。

本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述众包任务的价值评估方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质。

上面结合附图对本申请实施例作了详细说明，但本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下作出各种变化。

Claims

1.一种众包任务的价值评估方法，其特征在于，所述众包任务的价值评估方法包括如下步骤：

获取众包工人集合中每一个众包工人对目标文化产品的评分，并计算评分均值；

2.根据权利要求1所述的众包任务的价值评估方法，其特征在于，所述众包任务的价值评估方法，还包括：

3.根据权利要求2所述的众包任务的价值评估方法，其特征在于，所述根据所述评分均值和所述置信度计算所述目标众包任务的置信区间，包括：

根据所述评分均值计算方差：其中，S²为方差，n为众包工人集合中的众包工人的总数，X_i为第i位众包工人的评分，/>为评分均值，/>

根据所述评分均值和所述精度值生成置信区间：

4.根据权利要求2所述的众包任务的价值评估方法，其特征在于，所述根据所述评分均值和所述置信度计算所述目标众包任务的置信区间，包括：

根据所述评分均值计算方差值：其中，S²为方差，n为众包工人集合中的众包工人的总数，X_i为第i位众包工人的评分，/>为评分均值，/>

5.根据权利要求1所述的众包任务的价值评估方法，其特征在于，所述众包任务的价值评估方法，还包括：

根据EM算法计算众包工人的评估准确率；

根据所述评估准确率选取所述众包工人集合；

所述根据EM算法计算众包工人的评估准确率包括：

I为待选取的众包工人的总数，为条件概率矩阵/>中的第c行和第x列的元素值，为条件概率矩阵/>中的第s行和第x列的元素值，R_i,s为概率矩阵R_N×m中的第i行和第s列的元素值，s∈{1,...,m}；

R_i,c′为概率矩阵R_N×m′中的第i行和第c列的元素值；

Q_1,c为先验概率Q_1×n中的第c列的元素值，为条件概率矩阵/>中的第c行、第1列的元素值。

6.根据权利要求1所述的众包任务的价值评估方法，其特征在于，所述众包任务的价值评估方法，还包括：

根据边际似然估计计算众包工人的评估准确率；

根据所述评估准确率选取所述众包工人集合；

所述根据边际似然估计计算众包工人的评估准确率包括：

计算众包工人w_j的似然函数L_j(p_j)：

p_j为众包工人的真实准确率，T_j ^W为众包工人w_j参与的众包任务集合，W_i ^T为参与众包任务t_i的众包工人集合，c∈{1,...,m}为正确答案，m为众包任务对应的任务答案的总数，a_u,j∈{-1,1,2,...,m}为众包工人w_j参与众包任务t_u的任务答案，-1为众包工人w_j未参与众包任务t_i，a_i,j＝c为众包工人w_j参与众包任务t_i的任务答案为c，当a_i,j＝c，为1，否则为0，当a_i,j≠c，/>为1，否则/>为0，γ为预设的误差，σ_i ²为方差，x∈{1,...,m}为众包工人的任务答案，w_o为除众包工人w_j之外的任意一个众包工人，/>为众包工人w_o的评估准确率，a_i,o∈{-1,1,2,…,m}为众包工人w_o参与众包任务t_i的任务答案，a_i,o＝c为众包工人w_o参与众包任务t_i的任务答案为c，当a_i,o＝c，/>为1，否则/>为0，当a_i,o≠c，/>为1，否则/>为0；

根据似然函数L_j(p_j)计算众包工人w_j的评估准确率

其中，p_min为预设的最小准确率。

7.根据权利要求1所述的众包任务的价值评估方法，其特征在于，所述众包工人为区块链节点；

8.一种众包任务的价值评估系统，其特征在于，所述众包任务的价值评估系统包括：

均值计算单元，用于获取众包工人集合中每一个众包工人对目标文化产品的评分，并计算评分均值；其中，所述评分是位于所述评分区间之内的浮点数；

9.一种电子设备，其特征在于：包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行权利要求1至7任一项所述的众包任务的价值评估方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至7任一项所述的众包任务的价值评估方法。