CN116703108A - 一种基于top-k结构洞的众包问题选择方法和系统 - Google Patents
一种基于top-k结构洞的众包问题选择方法和系统 Download PDFInfo
- Publication number
- CN116703108A CN116703108A CN202310740495.0A CN202310740495A CN116703108A CN 116703108 A CN116703108 A CN 116703108A CN 202310740495 A CN202310740495 A CN 202310740495A CN 116703108 A CN116703108 A CN 116703108A
- Authority
- CN
- China
- Prior art keywords
- crowdsourcing
- graph
- gain
- node
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 28
- 238000012358 sourcing Methods 0.000 title description 11
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000008901 benefit Effects 0.000 claims abstract description 47
- 230000000903 blocking effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 claims 2
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于top‑k结构洞的众包问题选择方法和系统,方法包括:获取众包问题集合并设置对应的初始收益;根据问题集合构造概率传播图;根据概率传播图计算图中的top‑k结构洞,获得top‑k结构洞集合;在问题集合中随机选择一个众包问题,遍历top‑k结构洞集合,若所选的众包问题为top‑k结构洞集合中的问题,则对所选的众包问题附加定量权重;计算每个所选问题的收益增量;将每个收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将对应问题加入结果集合;重复上述步骤,将迭代更新后的结果集合作为最终的众包问题选择结果;本发明能够降低评估成本和提高准确度,同时提高众包效率,显著改善众包工作者的工作体验。
Description
技术领域
本发明涉及计算机众包技术领域,更具体地,涉及一种基于top-k结构洞的众包问题选择方法和系统。
背景技术
众包指的是企业或组织将以往由雇员承担的工作,转而交给没有具体规定并且通常是大规模的大众工作者。近年来,以语言翻译为主要领域,越来越多的企业和机构开始借助众包来完成和解决传统计算机难以单独处理的问题。伴随着Web2.0、物联网和智能互联等技术的迅速发展,众包技术逐渐从“特定工作群体”转化为“大众工作群体”,为解决众包问题带来了全新的思路与方法,一系列研究工作通过众包使用人类知识来提高众包准确性。
众包问题是指需要通过众包方式来解决的任务或问题。这些任务和问题通常需要人类智能和判断力,例如翻译、图像标注、实体解析等。通过将这些任务分配给大众工作者,企业或组织可以更快速地完成这些任务,同时降低成本。众包问题数量是指需要通过众包方式来解决的任务或问题的数量。通常情况下,众包问题数量越多,需要的众包资源和时间就越多。众包问题收益是指通过众包解决某个问题后,进一步推出其他待解决问题所能获得的效益。这些收益可能包括任务完成速度的提高、成本的降低、质量的提高、准确性的增加等。企业或组织需要考虑众包问题收益与成本之间的平衡,以确定是否使用众包解决问题。同时,他们也需要优化众包流程和设计合适的激励机制,以最大化众包问题收益。
为了进一步减少所需的问题数量,同时最大化所选择的众包问题收益。例如在实体解析的众包场景中应用传递关系,即如果一对待解析匹配对可以通过传递关系推导出来,则不需要进行众包。例如,给定三条记录a、b、c,一种传递关系是,如果a匹配b,b匹配c,则a匹配c。另一种传递关系是,如果a匹配b,b不匹配c,则a不匹配c。通过众包或传递关系进一步确定所有记录对后,可以对初始结果进行全局分析。其基本思想是,如果根据众包获得的匹配结果可以推断出一个记录对,那么就没有必要进行众包,如果存在传递关系,则可以直接推导出记录对。在众包平台上,选择最优的众包问题是一个非常重要的任务,最优问题选择的目标是选择一组能使收益最大化的问题。
结构洞是社会网络分析中的基本概念,用于解释社会中资源的差异来源,处于结构洞节点的个体,在不同社区之间起到了桥接作用,可以进一步控制关键的信息传播路径,从而获得更多的资源和机会。这种类型的个体被称为结构洞跨越者,它们对于理解社会网络的结构和用户行为非常重要。个体在其邻居之间没有直接联系或联系很弱的情况下,该个体可以在不同邻居之间传递信息或资源,而不受其他人干扰或竞争,反映了一个个体在网络中的独立性和多样性。个体与其邻居之间有越多的结构洞,就有越多的资源,这是因为该个体可以利用不同邻居之间信息或资源上的差异,从而获得更大的收益和影响力。其次,个体在其邻居之间有更少的冗余联系(即相互重叠或相似度高的联系),就有更多的资源,这是由于该个体可以避免与其他人分享信息或资源,从而保持自己独特和稀缺性。结构洞理论的基础定理是桥接定理,该定理认为,那些连接不同子群的人在网络中处于重要地位,因为他们可以控制信息的流动。这些桥接者拥有许多不同子群之间的联系,能够将信息在不同的子群之间传递,从而在网络中发挥重要作用;而如果只与自己的子群联系,那么在整个网络中的影响力可能相对较小。
top-k结构洞是一种在网络或图结构中寻找最重要的、最具有代表性的结构(例如子图或节点)的方法。它的基本思想是在整个网络或图结构中寻找最能代表整个结构的前k个子图或节点,这些子图或节点可以被认为是整个结构的核心部分。具体来说,使用top-k结构洞算法时,首先通过一个指标(例如子图密度、连通性等)来评估每个子图或节点的重要性。然后,根据这个指标对整个结构中的所有子图或节点进行排名,并选择排名前k的子图或节点作为最终的结构洞。
因此,基于top-k结构洞的众包问题选择方法的优势在于,在众包问题选择中,top-k结构洞可以用来快速筛选出最有代表性的问题,从而降低评估成本和提高准确度。通过选取最具有代表性的问题,可以确保选中的问题能够最大程度地代表整个问题空间,从而提高解决方案的可靠性和准确性。同时,这种方法还可以提高众包效率,降低成本,并改善工作者的工作体验,因为只有最有价值的问题会被选中,从而减少了工作者需要评估的问题数量,提高了他们的工作效率和满意度,在众包领域中具有重要的应用价值。
现有技术中公开了一种众包中任务最优分配方法及其系统,根据用户的投标情况,统计选择每个任务的用户数量;之后通过判断每个任务众包所设定的所需用户的数量是否小于选择对应任务的用户数量,以决定是否调整交易价格以实现选择每个任务的用户数量的变化,整个过程在基于众包所设定的交易价格及用户的投标情况,满足每个任务对于完成任务的人数的要求,使得众包中多个任务高效有序的完成,使得众包中任务的分配达到优化;现有技术中的众包最优问题选择方法容易受到工作者的评分和任务的数量等因素的影响,导致结果不够准确;另外,众包平台上有大量的待解决问题任务,该众包最优问题选择方法需要对所有问题进行评估或是随机选择问题,这需要大量的时间和人力成本且效果不佳,还可能会导致某些收益较高的问题被忽略。
发明内容
本发明为克服上述现有技术在选择收益最大的众包问题时存在效率和准确性低、成本高的缺陷,提供一种基于top-k结构洞的众包问题选择方法和系统,能够降低评估成本和提高准确度,同时提高众包效率,降低成本,显著改善众包工作者的工作体验。
为解决上述技术问题,本发明的技术方案如下:
一种基于top-k结构洞的众包问题选择方法,包括以下步骤:
S1:获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
S2:根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
S3:在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益,执行步骤S4;否则令其附加定量权重后的收益等于其初始收益,执行步骤S4;
S4:对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
S5:将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合,执行步骤S6;否则直接执行步骤S6;
S6:重复若干次步骤S3~S5,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果。
优选地,所述步骤S1中,根据问题集合构造概率传播图的具体方法为:
根据问题集合U构造概率传播图G,记为G=(V,E),其中,V为概率传播图G中的问题节点,E为与问题节点V相连的带权边;
在所述概率传播图G中,一个问题节点V表示一个问题集合U中的问题;带权边E表示与其相连的两个问题节点V之间的关联概率。
优选地,所述步骤S1中,每个众包问题对应的初始收益具体为:
每个众包问题q对应的初始收益benefit(q)具体为:
其中,U为问题集合,solve(q)表示问题q被众包解决后可以被随之解决的问题集合。
优选地,所述步骤S2中,根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合的具体方法为:
S2.1:基于概率传播图G,设置根节点r,利用预设的活边图模型构造辅助图G',记为G'=(V,E'),其中,E'为辅助图G'中与问题节点V相连的带权边;
S2.2:根据辅助图G'获取辅助图子图G”;
S2.3:根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom,支配树Tdom中的节点u满足u∈V;
S2.4:计算每个节点u的整体平均阻塞数BX();
S2.5:将所有的节点u根据其对应的整体平均阻塞数BX()进行降序排序,取前k个节点u作为top-k结构洞集合。
优选地,所述步骤S2.2中根据辅助图G'获取辅助图子图G”的具体方法为:
在辅助图G'中删除对于根节点r不可达的节点,获取辅助图子图G”;
所述辅助图子图G”满足图中所有其他问题节点V对于根节点r均可达。
优选地,所述步骤S2.3中根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom的具体方法为:
利用深度优先算法,遍历获取辅助图子图G”中所有节点u的直接支配者,构造一棵以根节点r为根的支配树Tdom。
优选地,所述步骤S2.4中,计算每个节点u的整体平均阻塞数BX()的具体方法为:
根据以下公式计算计算每个节点u的整体平均阻塞数BX():
BX()=bu/
其中,bu为整体阻塞数,X为迭代次数。
本发明还提供一种基于top-k结构洞的众包问题选择系统,应用上述的一种基于top-k结构洞的众包问题选择方法,包括:
初始化单元:用于获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
结构洞构造单元:用于根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
问题选择单元:用于在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益;否则令其附加定量权重后的收益等于其初始收益,执行下一步;
收益增量计算单元:用于对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
比较单元:用于将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合;否则直接执行下一步;
结果输出单元:用于重复若干次上述步骤,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果。
本发明还提供一种计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法中的步骤。
本发明还提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行上述方法中的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供一种基于top-k结构洞的众包问题选择方法和系统,该方法首先获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益,否则直接执行下一步;对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;将收益增量大于最大初始收益众包问题的收益增量的问题加入结果集合;重复上述步骤,将结果集合作为最终的众包问题选择结果;
本发明具有如下有益效果:
1)提高选择准确性:传统的众包最优问题选择方法容易受到工作者的评分和任务的数量等因素的影响,导致结果不够准确,而本发明中基于top-k结构洞的方法通过计算问题收益,提高了众包最优问题选择的准确性;
2)降低成本:众包平台上有大量的待解决问题任务,如何快速而准确地选择最佳的问题成为了一个重要的挑战,传统的众包最优问题选择方法需要对所有问题进行评估或是随机选择问题,这需要大量的时间和人力成本且效果不佳;而本发明中基于top-k结构洞的方法可以减少评估的数量,提高解决问题带来的整体收益,从而降低成本;
3)改善众包平台和任务发布者的合作效能:传统的众包最优问题选择方法可能会让某些收益较高的问题被忽略,而本发明中基于top-k结构洞的方法可以更好地构造任务发布者的用户画像,对应增加其任务被解决的可能性,从而改善任务发布者的使用体验,增强他们的参与度和忠诚度,从而更好地组织任务分配,并使众包任务完成更加高效,提高任务完成效率。
附图说明
图1为实施例1所提供的一种基于top-k结构洞的众包问题选择方法流程图。
图2为实施例2所提供的一种基于top-k结构洞的众包问题选择方法具体流程图。
图3为实施例2所提供的概率传播图G示意图。
图4为实施例2所提供的辅助图G'示意图。
图5为实施例2所提供的辅助图子图G”示意图。
图6为实施例2所提供的支配树Tdom示意图。
图7为实施例3所提供的一种基于top-k结构洞的众包问题选择系统结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,本实施例提供一种基于top-k结构洞的众包问题选择方法,包括以下步骤:
S1:获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
S2:根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
S3:在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益,执行步骤S4;否则令其附加定量权重后的收益等于其初始收益,执行步骤S4;
S4:对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
S5:将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合,执行步骤S6;否则直接执行步骤S6;
S6:重复若干次步骤S3~S5,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果。
在具体实施过程中,首先获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益,否则直接执行下一步;
对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;将收益增量大于最大初始收益的众包问题的收益增量的问题加入结果集合;重复上述步骤,将结果集合作为最终的众包问题选择结果;
本方法基于top-k结构洞进行众包问题的选择,可以在众包实体解析问题中发挥作用,该方法利用结构洞和问题的收益增量,可以帮助平台侧更好地选择解决方案,从而提高解析结果的质量和效率,并进一步降低平台众包成本。
实施例2
本实施例提供一种基于top-k结构洞的众包问题选择方法,包括以下步骤:
S1:获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
S2:根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
S3:在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益,执行步骤S4;否则令其附加定量权重后的收益等于其初始收益,执行步骤S4;
S4:对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
S5:将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合,执行步骤S6;否则直接执行步骤S6;
S6:重复若干次步骤S3~S5,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果;
所述步骤S1中,根据问题集合构造概率传播图的具体方法为:
根据问题集合U构造概率传播图G,记为G=(V,E),其中,V为概率传播图G中的问题节点,E为与问题节点V相连的带权边;
在所述概率传播图G中,一个问题节点V表示一个问题集合U中的问题;带权边E表示与其相连的两个问题节点V之间的关联概率;
所述步骤S1中,每个众包问题对应的初始收益具体为:
每个众包问题q对应的初始收益benefit(q)具体为:
其中,U为问题集合,solve(q)表示问题q被众包解决后可以被随之解决的问题集合;
所述步骤S2中,根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合的具体方法为:
S2.1:基于概率传播图G,设置根节点r,利用预设的活边图模型构造辅助图G',记为G'=(V,E'),其中,E'为辅助图G'中与问题节点V相连的带权边;
S2.2:根据辅助图G'获取辅助图子图G”;
S2.3:根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom,支配树Tdom中的节点u满足u∈V;
S2.4:计算每个节点u的整体平均阻塞数BX();
S2.5:将所有的节点u根据其对应的整体平均阻塞数BX()进行降序排序,取前k个节点u作为top-k结构洞集合;
所述步骤S2.2中根据辅助图G'获取辅助图子图G”的具体方法为:
在辅助图G'中删除对于根节点r不可达的节点,获取辅助图子图G”;
所述辅助图子图G”满足图中所有其他问题节点V对于根节点r均可达;
所述步骤S2.3中根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom的具体方法为:
利用深度优先算法,遍历获取辅助图子图G”中所有节点u的直接支配者,构造一棵以根节点r为根的支配树Tdom;
所述步骤S2.4中,计算每个节点u的整体平均阻塞数BX()的具体方法为:
根据以下公式计算计算每个节点u的整体平均阻塞数BX():
BX()=bu/
其中,bu为整体阻塞数,X为迭代次数。
在具体实施过程中,伴随着Web2.0、物联网和智能互联等技术的迅速发展,众包技术逐渐从“特定工作群体”转化为“大众工作群体”,为解决实体解析问题带来了全新的思路与方法,一系列研究工作通过众包使用人类知识来提高实体解析的准确性;众包实体解析平台,旨在解析大量文本数据中的实体信息,例如人名、地名、组织机构等,确定数据集中哪些记录引用相同的现实世界实体;为了提高解析的准确性和效率,在问题选择阶段,本实施例采用基于top-k结构洞的众包问题选择方法;
如图2所示,首先获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;
每个众包问题q对应的初始收益benefit(q)具体为:
其中,U为问题集合,solve(q)表示问题q被众包解决后可以被随之解决的问题集合;
根据问题集合构造概率传播图,具体为:
首先收集需要解析的文本数据,并根据对应的实体和关系构建一个概率传播图G,图中的节点代表一个问题(待解析的实体对),边表示问题之间的关联性或依赖性(推导为真的概率值);同时,初始化优先队列PQ、结果输出变量result,用于记录问题选择的结果;
如图3所示,根据问题集合U构造概率传播图G,记为G=(V,E),其中,V为概率传播图G中的问题节点,E为与问题节点V相连的带权边;
在所述概率传播图G中,一个问题节点V表示一个问题集合U中的问题;带权边E表示与其相连的两个问题节点V之间的关联概率;
根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合,具体方法为:
S2.1:基于概率传播图G,设置根节点r,利用预设的活边图模型构造辅助图G',记为G'=(V,E'),如图4所示,其中,E'为辅助图G'中与问题节点V相连的带权边;
活边图模型是一种用于分析社交网络中信息传播的模型,活边指的是在信息传播过程中活跃的边,活边图模型通过对网络中的边进行建模来表示网络的拓扑结构;具体而言,每次随机选取一个节点作为根节点r,G′的作用在于多次迭代中,可以覆盖大部分信息传播网络;
S2.2:如图5所示,根据辅助图G'获取辅助图子图G”,具体为:
在辅助图G'中删除对于根节点r不可达的节点,获取辅助图子图G”;
所述辅助图子图G”满足图中所有其他问题节点V对于根节点r均可达;
S2.3:如图6所示,根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom,支配树Tdom中的节点u满足u∈V,具体为:
利用深度优先算法,遍历获取辅助图子图G”中所有节点u的直接支配者,构造一棵以根节点r为根的支配树Tdom;
S2.4:计算每个节点u的整体平均阻塞数BX(),具体为:
根据以下公式计算计算每个节点u的整体平均阻塞数BX():
BX()=bu/
其中,bu为整体阻塞数,X为迭代次数;
S2.5:将所有的节点u根据其对应的整体平均阻塞数BX()进行降序排序,取前k个节点u作为top-k结构洞集合,记为{X(1),BX(2),…,BX(k)};
在问题集合中随机选择一个众包问题q,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若不是,则重新选择众包问题q;否则,对所选的众包问题q附加定量权重,并获取附加定量权重后的收益,对于每个所选的众包问题q,根据附加定量权重后的收益和初始收益计算对应的收益增量Δq;
将收益增量Δq大于最大初始收益的众包问题q’的收益增量Δq′的问题加入结果集合;重复若干次上述步骤,将更新后的结果集合作为最终的众包问题选择结果;
本方法基于top-k结构洞进行众包问题的选择,可以在众包实体解析问题中发挥作用,该方法利用结构洞和问题的收益增量,可以帮助平台侧更好地选择解决方案,从而提高解析结果的质量和效率,并进一步降低平台众包成本。
实施例3
如图7所示,本实施例提供一种基于top-k结构洞的众包问题选择系统,应用实施例1或2中所述的一种基于top-k结构洞的众包问题选择方法,包括:
初始化单元301:用于获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
结构洞构造单元302:用于根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
问题选择单元303:用于在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益;否则令其附加定量权重后的收益等于其初始收益,执行下一步;
收益增量计算单元304:用于对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
比较单元305:用于将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合;否则直接执行下一步;
结果输出单元306:用于重复若干次上述步骤,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果。
在具体实施过程中,首先初始化单元301获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;结构洞构造单元302根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;问题选择单元303在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益;否则直接执行下一步,收益增量计算单元304对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;比较单元305将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合;否则直接执行下一步;结果输出单元306重复若干次上述步骤,对结果集合中的问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果;
本系统基于top-k结构洞进行众包问题的选择,可以在众包实体解析问题中发挥作用,该方法利用结构洞和问题的收益增量,可以帮助平台侧更好地选择解决方案,从而提高解析结果的质量和效率,并进一步降低平台众包成本。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于top-k结构洞的众包问题选择方法,其特征在于,包括以下步骤:
S1:获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
S2:根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
S3:在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益,执行步骤S4;否则令其附加定量权重后的收益等于其初始收益,执行步骤S4;
S4:对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
S5:将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合,执行步骤S6;否则直接执行步骤S6;
S6:重复若干次步骤S3~S5,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果。
2.根据权利要求1所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,所述步骤S1中,根据问题集合构造概率传播图的具体方法为:
根据问题集合U构造概率传播图G,记为G=(V,E),其中,V为概率传播图G中的问题节点,E为与问题节点V相连的带权边;
在所述概率传播图G中,一个问题节点V表示一个问题集合U中的问题;带权边E表示与其相连的两个问题节点V之间的关联概率。
3.根据权利要求2所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,所述步骤S1中,每个众包问题对应的初始收益具体为:
每个众包问题q对应的初始收益benefit(q)具体为:
其中,U为问题集合,solve(q)表示问题q被众包解决后可以被随之解决的问题集合。
4.根据权利要求3所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,所述步骤S2中,根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合的具体方法为:
S2.1:基于概率传播图G,设置根节点r,利用预设的活边图模型构造辅助图G',记为G'=(V,E'),其中,E'为辅助图G'中与问题节点V相连的带权边;
S2.2:根据辅助图G'获取辅助图子图G”;
S2.3:根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom,支配树Tdom中的节点u满足u∈V;
S2.4:计算每个节点u的整体平均阻塞数BX();
S2.5:将所有的节点u根据其对应的整体平均阻塞数BX()进行降序排序,取前k个节点u作为top-k结构洞集合。
5.根据权利要求4所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,所述步骤S2.2中根据辅助图G'获取辅助图子图G”的具体方法为:
在辅助图G'中删除对于根节点r不可达的节点,获取辅助图子图G”;
所述辅助图子图G”满足图中所有其他问题节点V对于根节点r均可达。
6.根据权利要求4所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,所述步骤S2.3中根据辅助图子图G”构造一棵以根节点r为根的支配树Tdom的具体方法为:
利用深度优先算法,遍历获取辅助图子图G”中所有节点u的直接支配者,构造一棵以根节点r为根的支配树Tdom。
7.根据权利要求6所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,所述步骤S2.4中,计算每个节点u的整体平均阻塞数BX()的具体方法为:
根据以下公式计算计算每个节点u的整体平均阻塞数BX():
BX()=bu/
其中,bu为整体阻塞数,X为迭代次数。
8.一种基于top-k结构洞的众包问题选择系统,应用权利要求1~7任一项中所述的一种基于top-k结构洞的众包问题选择方法,其特征在于,包括:
初始化单元:用于获取包括若干个众包问题的问题集合,设置每个所述众包问题对应的初始收益;根据问题集合构造概率传播图;
结构洞构造单元:用于根据概率传播图计算图中的top-k结构洞,获得top-k结构洞集合;
问题选择单元:用于在问题集合中随机选择一个众包问题,遍历top-k结构洞集合,判断所选的众包问题是否为top-k结构洞集合中的问题,若是,则对所选的众包问题附加定量权重,并获取附加定量权重后的收益;否则令其附加定量权重后的收益等于其初始收益,执行下一步;
收益增量计算单元:用于对于每个所选的众包问题,根据附加定量权重后的收益和初始收益计算对应的收益增量;
比较单元:用于将每个所选众包问题的收益增量与初始收益最大的众包问题的收益增量进行比较,若大于,则将所选众包问题加入结果集合;否则直接执行下一步;
结果输出单元:用于重复若干次上述步骤,对结果集合中的众包问题数量进行迭代更新,将更新后的结果集合作为最终的众包问题选择结果。
9.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7任意一项所述方法中的步骤。
10.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1~7任意一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310740495.0A CN116703108B (zh) | 2023-06-20 | 2023-06-20 | 一种基于top-k结构洞的众包问题选择方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310740495.0A CN116703108B (zh) | 2023-06-20 | 2023-06-20 | 一种基于top-k结构洞的众包问题选择方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116703108A true CN116703108A (zh) | 2023-09-05 |
CN116703108B CN116703108B (zh) | 2024-03-08 |
Family
ID=87835553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310740495.0A Active CN116703108B (zh) | 2023-06-20 | 2023-06-20 | 一种基于top-k结构洞的众包问题选择方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116703108B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259824A1 (en) * | 2015-03-02 | 2016-09-08 | Microsoft Technology Licensing, Llc | Optimizing efficiency and cost of crowd-sourced polling |
CN108549909A (zh) * | 2018-04-17 | 2018-09-18 | 清华大学 | 基于众包的对象分类方法及对象分类系统 |
CN108596335A (zh) * | 2018-04-20 | 2018-09-28 | 浙江大学 | 一种基于深度强化学习的自适应众包方法 |
CN109254983A (zh) * | 2018-09-19 | 2019-01-22 | 九江学院 | 一种众包TOP-k查询中的降低成本方法 |
CN112148986A (zh) * | 2020-10-09 | 2020-12-29 | 安徽大学 | 一种基于众包的top-N服务再推荐方法及系统 |
CN113407716A (zh) * | 2021-05-14 | 2021-09-17 | 桂林电子科技大学 | 一种基于众包的人类行为文本数据集的构造以及处理方法 |
-
2023
- 2023-06-20 CN CN202310740495.0A patent/CN116703108B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259824A1 (en) * | 2015-03-02 | 2016-09-08 | Microsoft Technology Licensing, Llc | Optimizing efficiency and cost of crowd-sourced polling |
CN108549909A (zh) * | 2018-04-17 | 2018-09-18 | 清华大学 | 基于众包的对象分类方法及对象分类系统 |
CN108596335A (zh) * | 2018-04-20 | 2018-09-28 | 浙江大学 | 一种基于深度强化学习的自适应众包方法 |
CN109254983A (zh) * | 2018-09-19 | 2019-01-22 | 九江学院 | 一种众包TOP-k查询中的降低成本方法 |
CN112148986A (zh) * | 2020-10-09 | 2020-12-29 | 安徽大学 | 一种基于众包的top-N服务再推荐方法及系统 |
CN113407716A (zh) * | 2021-05-14 | 2021-09-17 | 桂林电子科技大学 | 一种基于众包的人类行为文本数据集的构造以及处理方法 |
Non-Patent Citations (5)
Title |
---|
LIANGYONG YANG ET AL.: ""Authenticating q-Gram-Based Similarity Search Results for Outsourced String Databases"", 《MATHEMATICS》, 1 May 2023 (2023-05-01), pages 1 - 25 * |
于旭等: ""一种考虑兴趣偏好的Top-k众包开发者推荐方法"", 《山东科技大学学报(自然科学版)》, 30 June 2021 (2021-06-30), pages 58 - 70 * |
李凡等: ""基于加权中介中心性的结构洞占据者方法获取"", 《南京大学学报(自然科学)》, 31 July 2017 (2017-07-31), pages 756 - 763 * |
蒙韧等: ""数据挖掘中的增量式关联规则更新算法"", 《广西科学院学报》, 31 May 2006 (2006-05-31), pages 125 - 128 * |
陈咏晖等: ""移动众包平台的任务定价模型优化策略研究"", 《科技管理研究》, 31 December 2022 (2022-12-31), pages 149 - 155 * |
Also Published As
Publication number | Publication date |
---|---|
CN116703108B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eiben et al. | Parameter tuning for configuring and analyzing evolutionary algorithms | |
McKenzie et al. | Distributions of cherries for two models of trees | |
Srivastava et al. | Software test effort estimation: a model based on cuckoo search | |
Ji et al. | Ant colony clustering with fitness perception and pheromone diffusion for community detection in complex networks | |
Xu et al. | Density-based modularity for evaluating community structure in bipartite networks | |
Gong | Estimating participants for knowledge-intensive tasks in a network of crowdsourcing marketplaces | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及系统 | |
Yu et al. | Software crowdsourcing task allocation algorithm based on dynamic utility | |
CN104035987A (zh) | 一种微博网络用户影响力排名方法 | |
Xu et al. | Predicting advertiser bidding behaviors in sponsored search by rationality modeling | |
Chen et al. | Incorporating geographical location for team formation in social coding sites | |
Czajkowski et al. | Steering the interpretability of decision trees using lasso regression-an evolutionary perspective | |
Wu et al. | Task assignment for social-oriented crowdsourcing | |
Malhotra | Community detection in complex networks using link strength-based hybrid genetic algorithm | |
Manolopoulou et al. | BPEC: An R package for Bayesian phylogeographic and ecological clustering | |
Coscia et al. | Benchmarking api costs of network sampling strategies | |
Sadeghiram et al. | Multi-objective distributed Web service composition—a link-dominance driven evolutionary approach | |
Huang et al. | An online inference-aided incentive framework for information elicitation without verification | |
CN116703108B (zh) | 一种基于top-k结构洞的众包问题选择方法和系统 | |
Li et al. | A community merger of optimization algorithm to extract overlapping communities in networks | |
Hu et al. | IMNE: Maximizing influence through deep learning-based node embedding in social network | |
Alzaghal et al. | Moderating effect of information and communication technology tools on the relationship between networking services and incubator success | |
De Boer et al. | Efficiently identifying a well-performing crowd process for a given problem | |
Khatri et al. | Influence maximization in social networks using discretized harris hawks optimization algorithm and neighbour scout strategy | |
Das et al. | Efficient sampling of information in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |