CN110443292A - 多影响因素的众包答案决策方法 - Google Patents
多影响因素的众包答案决策方法 Download PDFInfo
- Publication number
- CN110443292A CN110443292A CN201910672137.4A CN201910672137A CN110443292A CN 110443292 A CN110443292 A CN 110443292A CN 201910672137 A CN201910672137 A CN 201910672137A CN 110443292 A CN110443292 A CN 110443292A
- Authority
- CN
- China
- Prior art keywords
- task
- user
- answer
- difficulty
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 23
- 239000006185 dispersion Substances 0.000 claims description 6
- 238000011002 quantification Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 abstract 3
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000002585 base Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种多影响因素的众包答案决策方法,对分配的任务进行难度量化;根据用户对不同领域的擅长程度、任务难度和用户提交的答案集合建立用户质量模型;根据量化的任务难度和用户质量模型确定用户正确回答问题的概率;将量化的任务难度、用户质量模型和用户正确回答问题的概率作为贝叶斯决策算法的输入,计算每个候选答案的后验概率;选取后验概率最大值对应的候选答案作为众包答案。本方法综合考虑多个因素,可以获得较高的答案准确度和执行效率。
Description
技术领域
本发明涉及众包答案决策领域,尤其涉及一种多影响因素的众包答案决策方法。
背景技术
对于众包平台来说,用户的质量控制和答案决策是两个关键技术。由于众包平台的开放性,用户可能会产生低质量的答案甚至是干扰答案,因此,现有平台普遍采用基于冗余的方法,首先将每个任务分配给多个用户,然后聚合多个用户的答案进行答案决策。
近年来,国内外学者对答案决策算法进行了大量的研究。少数服从多数(MajorityVoting,MV)方法是最基本的答案决策方法,它考虑每个候选答案的用户个数,主要决策思想是少数服从多数。由于众包平台上不同用户的经验水平是不同的,MV方法没有考虑用户质量,因此它决策出来的答案可靠性比较低。由此,研究者们又提出两种基于概率的方法,即迭代的答案决策方法和非迭代的答案决策方法。非迭代的答案决策方法将用户的准确性考虑到答案决策过程中,根据用户回答问题的准确性以及答案,计算每个候选答案的后验概率分布,后验概率最大的答案作为决策答案。非迭代的方法认为用户质量是固定的,实质上用户的质量会随着用户回答问题的难度和个数而动态改变;迭代的答案决策方法利用期望最大化(Expectation Maximization,EM)算法不断迭代更新用户质量和答案后验概率分布,直至后验概率分布收敛为止,得到最终决策的答案。由于EM算法需要大量的迭代,运行时间较长。为了更好地进行答案决策,研究者们不仅考虑用户质量的变化,而且挖掘出了多个影响答案决策的因素。Jacob Whitehill等人于2010年提出了难度敏感的答案决策方法,该方法认为每个任务的难度是不同的,每个用户对不同难度任务的表现也是不一样的,提出了一种概率模型,并利用该模型同时推断出图像的标签、用户的质量以及每幅图像的标注难度。该方法得出的任务难度依赖于用户的表现,即多数用户回答正确,任务难度就低,否则任务难度就高。Yudian Zheng等人于2017年提出了领域敏感的答案决策方法,该方法认为任务涉及多个领域,且用户在不同领域的擅长程度不同。该方法使用知识库,例如Wikipedia和Freebase来检测任务和用户的领域向量,利用领域敏感的用户模型来精确地推断任务的真实答案。Yili Fang等人于2017年提出了选项相似度敏感的方法,该方法将使用欧拉距离计算的候选答案的相似度带入答案决策,并进行了两轮答案决策以提高答案决策的准确率。
但是,上述现有技术中的众包任务分配算法存在如下问题:
(1)未能合理地量化任务难度。任务难度完全依靠用户的表现决定,实际上,每个任务的难度是客观的,不随用户表现变化而变化。
(2)未考虑任务选项的语义相似性。选项相似性仅仅依靠传统的距离计算方法,无法客观表现选项间的相似度。
(3)答案决策方法并未综合考虑多种影响因素。现有答案决策算法往往从单个影响因素出发,未能对多种影响因素进行综合考虑。
发明内容
本发明提供了一种多影响因素的众包答案决策方法,以解决现有技术中的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
本发明提供了一种多影响因素的众包答案决策方法,其特征在于,包括:
对分配的任务进行难度量化;
根据用户对不同领域的擅长程度、任务难度和用户的答案集合建立用户质量模型;
根据量化的任务的难度和用户质量模型确定用户正确回答问题的概率;
将任务量化的难度、用户质量模型和用户正确回答问题的概率作为贝叶斯决策算法的输入,计算每个候选答案的后验概率;
选取后验概率最大值对应的候选答案作为众包答案。
优选地,对分配的任务进行难度量化,包括:根据所述分配的任务的领域和候选答案确定任务领域的离散程度和任务候选答案的整体相似度,进而利用熵权法计算任务领域的离散程度和任务候选答案的整体相似度的权重,从而得到所述分配任务的难度。
优选地,根据所述分配的任务的领域和候选答案确定任务领域的离散程度和任务候选答案的整体相似度,包括:根据下式(1)通过信息熵计算的领域熵表示任务领域的离散程度:
根据下式(2)的欧拉距离计算各个候选答案之间的相似度,利用下式(3)的中位数法则得到任务候选答案的整体相似度:
其中,ei表示任务ti的领域熵,表示任务ti与领域g的关联程度,vig越大,则任务ti与领域g越相关,vig∈[0,1],且有sim(aix,aiy)为任意两个候选答案aix和aiy的相似度,它们的词向量表示为word(aix)=[wx1,wx2,...,wxh],word(aiy)=[wy1,wy2,...,wyh],为任务候选答案的整体相似度,候选答案集 为任务ti的候选答案相似度向量,z为候选答案个数,中任意sig∈[0,1]。
优选地,用户质量模型包括:用户集合W={w1,w2,...,wm},每个用户有一个用户质量向量,记为 表示用户wj对领域k的擅长程度以及对涉及该领域的不同难度的历史任务的胜任程度,qjk越大,则表明用户wj对领域k越擅长,且能胜任难度较高的任务,反之,则不擅长该领域且难以胜任难度高的任务,其中,wj∈W且qjk∈[0,1],用户答案集合为
优选地,根据量化的任务的难度和用户质量模型确定用户正确回答问题的概率,包括:根据下式(4)计算用户正确回答问题的概率:
其中,ri=aic表示任务ti的候选答案aic为ti的真值,θi=π表示任务ti的当前领域为π; 为用户wj在领域π上回答ti正确的概率,δ(·)表示狄利克雷函数,当输入的判定为真,δ(·)的输出为1;反之,输出为0;δ(uij=aic)和δ(uij≠aic)分别表示当用户wj针对任务ti的答案uij与真值aic一致或者不一致的情况,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5,即用户可能在不确定的情况下随机地给出答案,z为候选答案的个数。
优选地,将量化的任务难度、用户质量模型和用户正确回答问题的概率作为贝叶斯决策算法的输入,计算每个候选答案的后验概率,包括:所述的每个候选答案的后验概率如下式(5)所示:
其中,ρic表示候选答案aic为真值的后验概率, 为用户wj在领域π上回答ti正确的概率,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5,δ(·)表示狄利克雷函数,当输入的判定为真,δ(·)的输出为1;反之,输出为0;δ(uij=aic)和δ(uij≠aic)分别表示当用户wj针对任务ti的答案uij与真值aic一致或者不一致的情况;viπ表示任务ti与领域π的关联程度,z为候选答案的个数。
优选地,该方法还包括:根据众包结果对用户质量模型进行实时更新,具体的更新内容如下式(6)所示:
其中,qjπ为用户wj在领域π上的质量,di为任务ti的难度,viπ为任务ti与领域π相关程度,为用户wj给出的答案uij对应的候选答案的后验概率,δ(θi=π)判断任务ti当前涉及的领域是否为π,δ(ri=uij)判断用户wj的答案uij是否与真值一致。
由上述本发明的多影响因素的众包答案决策方法提供的技术方案可以看出,本发明方法通过考虑用户质量、任务难度、任务领域以及候选答案的相似度,根据任务提供的信息(任务描述、候选答案)计算任务的领域向量以及候选答案的相似度,由此量化任务难度;然后根据用户历史提交答案的数据对用户质量建模;根据任务难度和用户质量建模综合计算用户回答问题正确的概率,进而综合影响因素确定每个候选答案的后验概率,最终将后验概率最大的候选答案作为众包任务答案,本方法综合考虑多个因素,可以获得较高的答案准确度和执行效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例的多影响因素的众包答案决策方法流程示意图;
图2为实施例的多影响因素的众包答案决策方法原理示意图;
图3为对分配的任务进行难度量化流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的意思。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明。
实施例
图1为本实施例的多影响因素的众包答案决策方法流程示意图,图2为本实施例的多影响因素的众包答案决策方法原理示意图,参照图1和图2,该方法包括:
S1对分配的任务进行难度量化。
根据分配的任务的领域和候选答案确定任务领域的离散程度和任务候选答案的整体相似度,进而利用熵权法计算任务领域的离散程度和任务候选答案的整体相似度的权重,从而得到所述分配任务的难度。具体流程如图3所示。
由于每个任务的难度是不同的,而且任务难度是客观的,不会随着用户行为的变化而变化,因此,可以利用任务的原始信息对任务难度进行量化。本实施例主要从两个影响因素来考虑对难度的量化:1)领域的离散程度。如果一个任务与多个领域关联,也就是说,该任务涉及多个领域,需要用户具备多样的领域知识,那么该任务是比较难的;2)候选答案的相似度。如果一个任务的候选答案的相似程度高,即选项的区分度低,难以选择,该任务的难度也比较高。因此,本实施例通过对这两个影响因素进行量化,进而得到任务难度。
给定一个任务集合T={t1,t2,...,tn}。对于每一个任务ti∈T,都有一个任务的文本描述以及一个候选答案集根据实体发现技术,对每个任务ti进行建模,可以得到一个领域向量其中,表示任务ti与领域g的关联程度,vig越大,则任务ti与领域g越相关,vig∈[0,1],且有
给定一个任务ti以及它的领域向量任务ti的领域熵用于反映任务领域的离散程度,记为ei,ei∈[0,+∞]。任务的领域熵越大,则该任务涉及的领域越广泛;反之,涉及的领域少,领域集中度高。
根据下式(1)通过信息熵计算的领域熵表示任务领域的离散程度:
给定任务ti以及它的候选答案集利用Word2Vec进行词向量的划分,通过词向量计算两个候选答案的语义相似度,可以得到任务tj的候选答案相似度向量,记为其中,z为候选答案个数,中任意sig∈[0,1]。
根据下式(2)的欧拉距离计算各个候选答案之间的相似度:
利用下式(3)的中位数法则得到任务候选答案的整体相似度:
其中,ei表示任务ti的领域熵,sim(aix,aiy)为任意两个候选答案aix和aiy的相似度,它们的词向量表示为word(aix)=[wx1,wx2,...,wxh],word(aiy)=[wy1,wy2,...,wyh],为任务候选答案的整体相似度,候选答案集为任务ti的候选答案相似度向量。
根据任务ti以及它的领域熵ei和选项整体相似度通过熵权法分别得到ei和对任务难度的权重,得到任务ti的难度记为di,计算如下:
其中,di∈[0,1],w1、w2分别表示领域熵和选项整体相似度的权重,di越大,表明任务ti的难度越大。
S2根据用户对不同领域的擅长程度、任务难度和用户的答案集合建立用户质量模型。
用户质量模型包括:用户集合W={w1,w2,...,wm},每个用户有一个用户质量向量,记为由于用户质量受到多因素的影响,因此用户质量向量不仅需要反映用户对不同领域的擅长程度,同时也需要反映用户对难度不同的任务的胜任程度。表示用户wj对领域k的擅长程度以及对涉及该领域的不同难度的历史任务的胜任程度,qjk越大,则表明用户wj对领域k越擅长,且能胜任难度较高的任务。反之,则不擅长该领域且难以胜任难度高的任务。其中,wj∈W且qjk∈[0,1],用户答案集合为
通过与不同领域相关的资格测试来初始化每个用户的质量向量
需要说明的是,本实施例的方法还包括:在得到任务ti∈T所有候选答案的后验概率后,需要更新用户的质量向量。每个用户的质量代表他们对不同领域的擅长程度。为了准确地更新用户的质量向量,本实施例同时考虑了与用户所回答的任务相关的领域以及这些任务的难度。直观地说,如果一个用户正确地回答了一个困难的任务,他应该被给予比正确地回答相对容易的任务更高的质量。反之,如果一个用户对一项任务的回答是错误的,则不应直接降低该用户的质量。也就是说,用户质量的更新需考虑任务的难度和任务的领域。
根据众包结果对用户质量模型进行实时更新,具体的更新内容如下式(5)所示:
qjπ为用户wj在领域π上的质量,di为任务ti的难度,viπ为任务ti与领域π相关程度,为用户wj答案uij对应的候选答案的后验概率,δ(θi=π)判断任务ti当前涉及的领域是否为π,δ(ri=uij)判断用户wj的答案uij是否与真值一致。
其中,qjπ的更新是基于:领域π与任务ti的关联程度viπ;任务的难度di;用户答案对应的候选答案的后验概率
S3根据量化的任务的难度和用户质量模型确定用户正确回答问题的概率。
用户回答一个任务ti∈T时,他回答正确的概率主要受以下三个因素的影响:任务ti的难易程度di;用户的质量向量任务的领域相关程度任务真值ri。随着任务ti的难度di的增加,即使是最能干的用户也只有50%的机会把任务做好,即随机地回答问题。也就是说,用户wj回答正确的概率不仅受到任务ti的领域相关程度影响,而且受到难易程度di的影响。将用户wj在领域π上正确回答ti的概率记为计算公式如下:
在该模型下,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5,说明用户wj只是通过猜测随机选择答案。
相反,如果用户wj的答案uij是错误的,不考虑候选答案的先验概率,则z-1个错误选项被误判为正确答案的概率相等,那么uij被误认为是正确答案的概率计算如下:
根据下式(8)计算用户正确回答问题的概率:
其中,ri=aic表示任务ti的候选答案aic为ti的真值。由于一个任务可能涉及多个领域,θi=π表示任务ti的当前领域为π。 为用户wj在领域π上正确回答ti的概率。δ(·)表示狄利克雷函数,即判定函数。当输入的判定为真,δ(·)的输出为1;反之,输出为0。δ(uij=aic)和δ(uij≠aic)分别表示当用户wj针对任务ti的答案uij与真值aic一致或者不一致的情况。由(6)式可知,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5,即用户可能在不确定的情况下随机地给出答案,z为候选答案的个数。
S4将量化的任务难度、用户质量模型和用户正确回答问题的概率作为贝叶斯决策算法的输入,计算每个候选答案的后验概率。
贝叶斯决策理论将在事件B发生的情况下事件A发生的概率表示为: 表示在用户给出的答案集合的条件下,任务ti的真值ri为候选答案aic的概率。其中,候选答案先验知识P(aic)未知,设所有候选答案先验知识相等,根据贝叶斯决策理论得到
本实施例将多个影响众包答案决策的因素考虑在内。多个因素的相互影响关系总结如下:
(1)对于任务的难度而言,任务的领域熵越大或者任务的候选答案的相似度越大,则该任务越难。反之,任务简单。
(2)对于任务而言,接受任务的用户越熟悉该任务相关领域,即对该领域任务的完成质量越高,则推断得到的答案越可靠。反之,如果接受任务的用户不熟悉该任务相关领域,即对该领域任务的完成质量低,则推断答案不可信。
(3)对于用户而言,影响其质量向量的除了他对每个领域的擅长程度,还有他回答任务的难度。如果任务难度高,即使是最能干的用户也容易在回答中出错。与此同时,用户在某个领域的表现越好,即用户在某领域相关的任务上得到正确答案的次数越多,用户在该领域的质量就越高。
给定一组任务,每个任务有一段文字描述及一组候选答案,每个任务可以分配给多个用户回答,每个用户可以回答多个任务。答案决策的目标是推断出每个任务的真值,且动态更新用户质量。给定任务ti、它的候选答案集以及候选答案的后验概率集合任务的真值即是后验概率集合中的最大值所对应的候选答案,记任务ti的真值为ri。
计算每个候选答案是否为真值的后验概率,将任务难度di和ti的领域向量考虑在内,计算如下:
候选答案的后验概率即为候选答案在每个领域上为真值的概率之和,其中表示候选答案aic在领域π上为任务ti真值的概率。假设候选答案的先验概率未知,则有每个选项的先验概率为则有:
最终得到每个候选答案的后验概率如下式(11)所示:
ρic表示候选答案aic为真值的后验概率, 为用户wj在领域π上回答ti正确的概率,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5。δ(·)表示狄利克雷函数,即判断函数。当输入的判定为真,δ(·)的输出为1;反之,输出为0。δ(uij=aic)和δ(uij≠aic)分别表示当用户wj针对任务ti的答案uij与真值aic一致或者不一致的情况。viπ表示任务ti与领域π的关联程度,z为候选答案的个数。
S5选取后验概率最大值对应的候选答案作为众包答案。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种多影响因素的众包答案决策方法,其特征在于,包括:
对分配的任务进行难度量化;
根据用户对不同领域的擅长程度、任务难度和用户的答案集合建立用户质量模型;
根据量化的任务的难度和用户质量模型确定用户正确回答问题的概率;
将任务量化的难度、用户质量模型和用户正确回答问题的概率作为贝叶斯决策算法的输入,计算每个候选答案的后验概率;
选取后验概率最大值对应的候选答案作为众包答案。
2.根据权利要求1所述的方法,其特征在于,所述的对分配的任务进行难度量化,包括:根据所述分配的任务的领域和候选答案确定任务领域的离散程度和任务候选答案的整体相似度,进而利用熵权法计算任务领域的离散程度和任务候选答案的整体相似度的权重,从而得到所述分配任务的难度。
3.根据权利要求2所述的方法,其特征在于,所述的根据所述分配的任务的领域和候选答案确定任务领域的离散程度和任务候选答案的整体相似度,包括:根据下式(1)通过信息熵计算的领域熵表示任务领域的离散程度:
根据下式(2)的欧拉距离计算各个候选答案之间的相似度,利用下式(3)的中位数法则得到任务候选答案的整体相似度:
其中,ei表示任务ti的领域熵,表示任务ti与领域g的关联程度,vig越大,则任务ti与领域g越相关,vig∈[0,1],且有sim(aix,aiy)为任意两个候选答案aix和aiy的相似度,aix,它们的词向量表示为word(aix)=[wx1,wx2,...,wxh],word(aiy)=[wy1,wy2,...,wyh],为任务候选答案的整体相似度,候选答案集 为任务ti的候选答案相似度向量,z为候选答案个数,中任意sig∈[0,1]。
4.根据权利要求1所述的方法,其特征在于,所述的用户质量模型包括:用户集合W={w1,w2,...,wm},每个用户有一个用户质量向量,记为 表示用户wj对领域k的擅长程度以及对涉及该领域的不同难度的历史任务的胜任程度,qjk越大,则表明用户wj对领域k越擅长,且能胜任难度较高的任务,反之,则不擅长该领域且难以胜任难度高的任务,其中,wj∈W且qjk∈[0,1],用户答案集合为
5.根据权利要求1所述的方法,其特征在于,所述的根据量化的任务的难度和用户质量模型确定用户正确回答问题的概率,包括:根据下式(4)计算用户正确回答问题的概率:
其中,ri=aic表示任务ti的候选答案aic为ti的真值,θi=π表示任务ti的当前领域为π; 为用户wj在领域π上回答ti正确的概率,δ(·)表示狄利克雷函数,当输入的判定为真,δ(·)的输出为1;反之,输出为0;δ(uij=aic)和δ(uij≠aic)分别表示当用户wj针对任务ti的答案uij与真值aic一致或者不一致的情况,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5,即用户可能在不确定的情况下随机地给出答案,z为候选答案的个数。
6.根据权利要求1所述的方法,其特征在于,所述的将量化的任务难度、用户质量模型和用户正确回答问题的概率作为贝叶斯决策算法的输入,计算每个候选答案的后验概率,包括:所述的每个候选答案的后验概率如下式(5)所示:
其中,ρic表示候选答案aic为真值的后验概率, 为用户wj在领域π上回答ti正确的概率,随着任务ti的难度di的增加,或者用户在领域π上的质量qjπ的下降,用户wj回答正确的概率趋于0.5,δ(·)表示狄利克雷函数,当输入的判定为真,δ(·)的输出为1;反之,输出为0;δ(uij=aic)和δ(uij≠aic)分别表示当用户wj针对任务ti的答案uij与真值aic一致或者不一致的情况;viπ表示任务ti与领域π的关联程度,z为候选答案的个数。
7.根据权利要求1所述的方法,其特征在于,所述的方法还包括:根据众包结果对用户质量模型进行实时更新,具体的更新内容如下式(6)所示:
其中,qjπ为用户wj在领域π上的质量,di为任务ti的难度,viπ为任务ti与领域π相关程度,为用户wj给出的答案uij对应的候选答案的后验概率,δ(θi=π)判断任务ti当前涉及的领域是否为π,δ(ri=uij)判断用户wj的答案uij是否与真值一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910672137.4A CN110443292B (zh) | 2019-07-24 | 2019-07-24 | 多影响因素的众包答案决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910672137.4A CN110443292B (zh) | 2019-07-24 | 2019-07-24 | 多影响因素的众包答案决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443292A true CN110443292A (zh) | 2019-11-12 |
CN110443292B CN110443292B (zh) | 2021-12-07 |
Family
ID=68431364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910672137.4A Active CN110443292B (zh) | 2019-07-24 | 2019-07-24 | 多影响因素的众包答案决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443292B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101776A (zh) * | 2020-09-11 | 2020-12-18 | 河北冀联人力资源服务集团有限公司 | 一种众包任务工作组确定方法 |
CN112712282A (zh) * | 2021-01-13 | 2021-04-27 | 东华大学 | 一种面向众包市场的基于适应度的任务分配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150178134A1 (en) * | 2012-03-13 | 2015-06-25 | Google Inc. | Hybrid Crowdsourcing Platform |
CN107103408A (zh) * | 2017-03-24 | 2017-08-29 | 扬州大学 | 一种众包环境下复杂任务分配方法 |
US20170270455A1 (en) * | 2013-09-13 | 2017-09-21 | Google Inc. | Managing A Workflow Of Human Intelligence Tasks Based On Task Performance |
CN108596800A (zh) * | 2018-04-13 | 2018-09-28 | 北京交通大学 | 一种基于贝叶斯的开放性答案决策方法 |
CN109902756A (zh) * | 2019-03-07 | 2019-06-18 | 重庆恢恢信息技术有限公司 | 一种基于主动学习的众包机制辅助排序方法和系统 |
-
2019
- 2019-07-24 CN CN201910672137.4A patent/CN110443292B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150178134A1 (en) * | 2012-03-13 | 2015-06-25 | Google Inc. | Hybrid Crowdsourcing Platform |
US20170270455A1 (en) * | 2013-09-13 | 2017-09-21 | Google Inc. | Managing A Workflow Of Human Intelligence Tasks Based On Task Performance |
CN107103408A (zh) * | 2017-03-24 | 2017-08-29 | 扬州大学 | 一种众包环境下复杂任务分配方法 |
CN108596800A (zh) * | 2018-04-13 | 2018-09-28 | 北京交通大学 | 一种基于贝叶斯的开放性答案决策方法 |
CN109902756A (zh) * | 2019-03-07 | 2019-06-18 | 重庆恢恢信息技术有限公司 | 一种基于主动学习的众包机制辅助排序方法和系统 |
Non-Patent Citations (3)
Title |
---|
ADITYA KURVE ET AL.: "Multicategory Crowdsourcing Accounting for Variable Task Difficulty, Worker Skill, and Worker Intention", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
YUDIAN ZHENG ET AL.: "DOCS:a domain-aware crowdsourcing system using knowledge bases", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 * |
暴雨晴: "众包技术中开放性答案的决策算法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101776A (zh) * | 2020-09-11 | 2020-12-18 | 河北冀联人力资源服务集团有限公司 | 一种众包任务工作组确定方法 |
CN112712282A (zh) * | 2021-01-13 | 2021-04-27 | 东华大学 | 一种面向众包市场的基于适应度的任务分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110443292B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3711000B1 (en) | Regularized neural network architecture search | |
US20200104687A1 (en) | Hybrid neural architecture search | |
CN111461226A (zh) | 对抗样本生成方法、装置、终端及可读存储介质 | |
US9189750B1 (en) | Methods and systems for sequential feature selection based on significance testing | |
CN110852447A (zh) | 元学习方法和装置、初始化方法、计算设备和存储介质 | |
CN109635206B (zh) | 融合隐式反馈和用户社会地位的个性化推荐方法及系统 | |
CN110443292B (zh) | 多影响因素的众包答案决策方法 | |
WO2017197330A1 (en) | Two-stage training of a spoken dialogue system | |
CN112269817A (zh) | 基于大数据的深度学习样本标注方法 | |
CN113987196A (zh) | 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法 | |
Ruan et al. | How valuable is your data? optimizing client recruitment in federated learning | |
US20080306891A1 (en) | Method for machine learning with state information | |
CN111737439A (zh) | 一种问题生成方法及装置 | |
CN111626827A (zh) | 基于序列推荐模型的物品推荐方法、装置、设备及介质 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN114330090A (zh) | 一种缺陷检测方法、装置、计算机设备和存储介质 | |
CN112528109B (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN111582595B (zh) | 用于自然灾害的应急决策方法、装置及电子设备 | |
CN114861917B (zh) | 贝叶斯小样本学习的知识图谱推理模型、系统及推理方法 | |
Qi et al. | Meta-learning with neural bandit scheduler | |
Cui et al. | The Data Value based Asynchronous Federated Learning for UAV Swarm under Unstable Communication Scenarios | |
CN115577797A (zh) | 一种基于本地噪声感知的联邦学习优化方法及系统 | |
CN113987280B (zh) | 针对动态图训练图模型的方法及装置 | |
US20230088146A1 (en) | Systems and methods for automated design | |
CN117829274B (zh) | 模型融合方法、装置、设备、联邦学习系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |