CN112101419A - 基于众包的高效分类系统及其创建、使用方法 - Google Patents

基于众包的高效分类系统及其创建、使用方法 Download PDF

Info

Publication number
CN112101419A
CN112101419A CN202010824572.7A CN202010824572A CN112101419A CN 112101419 A CN112101419 A CN 112101419A CN 202010824572 A CN202010824572 A CN 202010824572A CN 112101419 A CN112101419 A CN 112101419A
Authority
CN
China
Prior art keywords
crowdsourcing
node
module
nodes
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010824572.7A
Other languages
English (en)
Inventor
李国良
李元丙
李建
冯建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010824572.7A priority Critical patent/CN112101419A/zh
Publication of CN112101419A publication Critical patent/CN112101419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于众包的高效分类系统及其创建、使用方法,其中,该系统包括:学习模块,用于通过在线学习方法以及在在线学习方法中加入记忆窗口的拓展方法来学习类别权重分布;优化模块,用于根据已有或学习模块学习到的学习类别权重,运用贪心算法逐层构建决策树,作为询问策略;众包模块,用于生成优化模块中选择出的问题节点对应的众包问题,将众包问题发布到众包平台以收集聚合答案,实施询问策略。

Description

基于众包的高效分类系统及其创建、使用方法
技术领域
本发明涉及群智计算技术领域,特别涉及一种基于众包的高效分类系统及其创建、使用方法。
背景技术
近年来,众包技术在对机器较难而对人类较容易的问题中得到了广泛的应用,这样的问题包括图片和视频的理解,自然语言处理等;包括实体解析、路径选择、噪声数据过滤在内的越来越多的场景中也有了人类智力的参与。在分类问题中,也可运用此技术。具体来说就是在给定一系列类别和一系列待分类的对象的情况下,通过众包的方式来确定每个对象的类别。在众包的过程中,每个问题都需要一定的花销。在类别数量较多时(如一万个),将所有类别都列为选项往往是不现实的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于众包的高效分类系统,该系统可减少问题数量,减少众包过程中的交互次数。
本发明的另一个目的在于提出一种基于众包的高效分类系统的创建方法。
本发明的再一个目的在于提出一种基于众包的高效分类系统的使用方法。
为达到上述目的,本发明一方面实施例提出了一种基于众包的高效分类系统,包括:
学习模块,用于通过在线学习方法以及在在线学习方法中加入记忆窗口的拓展方法来学习类别权重分布;
优化模块,用于根据已有或所述学习模块学习到的所述学习类别权重,运用贪心算法逐层构建决策树,作为询问策略;
众包模块,用于生成所述优化模块中选择出的问题节点对应的众包问题,将所述众包问题发布到众包平台以收集聚合答案,实施所述询问策略。
为达到上述目的,本发明另一方面实施例提出了一种基于众包的高效分类系统的创建方法,包括:
S11,定义分类成本和分类延迟;
S12,实现优化模块,对于给定的树形类别结构,基于类别权重分布以贪心算法构建决策树进而得到询问策略;
S13,实现众包模块,生成众包问题、与众包平台交互并收集聚合答案,实施询问策略;
S14,实现学习模块,通过在线学习方法学习类别权重分布。
为达到上述目的,本发明再一方面实施例提出了一种基于众包的高效分类系统的使用方法,包括:
S21,接受给定的树形类别结构和待分类的对象集,初始化并按照需要配置学习模块、优化模块和众包模块;
S22,所述优化模块构建初始状态下的决策树和询问策略;
S23,所述众包模块根据所述决策树生成众包问题并发布到众包平台上,待众包工作者完成后收集并聚合答案,实施所述询问策略;
S24,所述学习模块根据当前已完成对象的类别信息更新类别权重分布;
S25,所述优化模块根据更新后的类别权重分布构建新的决策树和询问策略;
S26,反复执行步骤S23-S25,直至确定所有待分类对象的类别。
本发明的基于众包的高效分类系统及其创建、使用方法,使用众包技术对一系列对象进行分类,具有丰富的现实应用场景。提供一种基于众包的高效分类系统,在给定了树形的类别结构的情况下,对于待分类的对象集,可通过在线地学习其类别的权重信息并不断更新,进而在该权重信息的基础上运用贪心思想构建出高效的询问策略并利用众包技术完成分类任务。可减少问题数量(降低成本),减少众包过程中的交互次数(降低延迟)。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于众包的高效分类系统结构示意图;
图2为根据本发明一个实施例的基于众包的高效分类系统的整体框架示意图;
图3为根据本发明一个实施例的所用到的给定的类别树形结构示例图;
图4为根据本发明一个实施例的基于众包的高效分类系统的创建方法流程图;
图5为根据本发明一个实施例的所采用的多选一的问题的示例图;
图6为根据本发明又一个实施例的所采用的多选一的问题的示例图;
图7为根据本发明又一个实施例的优化模块构建的决策树示例图;
图8为根据本发明又一个实施例的众包模块中众包问题的生成过程示意图;
图9为根据本发明又一个实施例的基于众包的高效分类系统的使用方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于众包的高效分类系统及其创建、使用方法。
首先将参照附图描述根据本发明实施例提出的基于众包的高效分类系统。
图1为根据本发明一个实施例的基于众包的高效分类系统结构示意图。
图2为根据本发明一个实施例的基于众包的高效分类系统的整体框架示意图
如图1和图2所示,该基于众包的高效分类系统包括:学习模块100、优化模块200和众包模块300。
其中,学习模块100,用于通过在线学习方法以及在在线学习方法中加入记忆窗口的拓展方法来学习类别权重分布。
优化模块200,用于根据已有或学习模块学习到的学习类别权重,运用贪心算法逐层构建决策树,作为询问策略。
众包模块300,用于生成优化模块中选择出的问题节点对应的众包问题,将众包问题发布到众包平台以收集聚合答案,实施询问策略。
具体地,众包(群智计算)是数据管理中的术语,也是一种商业模式,是指利用大量的网络用户来获取所需的服务和想法的过程。
高效分类系统的功能是对于给定的树形类别结构,通过学习未知的类别权重分布来构建高效的询问策略,并利用众包技术低成本地完成一系列对象的分类任务。
在本发明的实施例中,学习模块采用在线学习中的following-the-perturbed-leader(FPL)方法以及对其加入记忆窗口的拓展方法(FPL with a window,FPLW)来学习类别权重分布,类别权重分布为各类别的权重为其成为待分类的对象的最终类别的可能性大小。
FPL方法是在线学习中的现有技术,记录已完成对象的类别信息并融入指数分布的随机信息进而得到类别权重分布。FPLW方法是在FPL的基础上,增加一个记忆窗口。在该方法中,只有最近的在记忆窗口内的已完成对象的类别信息被保留。
在本发明的一个实施例中,优化模块是基于已有或学习到的类别权重分布,运用贪心算法逐层构建一颗决策树,作为询问策略。此处贪心算法的运用模式为:针对当前的树形结构,选择出一个(一批)问题节点,以使得移除问题节点相关联的边后,形成的若干个新的树形结构中具有最大权重的结构的权重在所有可能的选择中是最小的。选择出的问题节点整体作为决策树的节点,对应一个(多个)众包问题,问题的选项作为分支导向形成的各个新的树形结构。
具体地,在本发明的实施例中,根据众包问题的不同在选择问题节点时有所不同。对于多选一的众包问题,问题节点需在树形结构的内部节点中选取;而对于是非判断问题,则无此限制。
同样的,在移除相关联的边中,由于众包问题的类型不同,移除相关联的边具有不同的指代。其中,对于多选一的众包问题,指的是连接问题节点与其父节点的边以及所有连接问题节点与其子节点的边;而对于是非判断的众包问题,指的是连接问题节点与其父节点的边。
进一步地,树形结构的权重为树形结构中所有节点的权重之和。
众包问题的选项由上述移除操作形成的若干个新的树形结构对应构成:对于多选一的众包问题,由问题节点的各个子节点所在树形结构、问题节点自身、问题节点的父节点所在树形结构构成;对于是非判断的众包题,由问题节点自身所在树形结构、问题节点的父节点所在树形结构构成。
优化模块中使用的贪心算法指的是运用贪心思想的算法,即在每一步中都采取当前状态下最优的选择从而期望获得结果最优的算法。询问策略是在构建的决策树中,按照众包问题的答案自根节点从上到下最终到达叶节点即可得到分类结果的策略。
可以理解的是,众包模块300可以根据优化模块选择的问题节点生成对应的众包问题,将众包问题发布到众包平台,由众包工作者完成并收集聚合得到答案,逐步推进询问策略的实施。
在分类问题中,如果类别数量较多时(如一万个),将所有类别都列为选项往往是不现实的。因此,本发明的基于众包的高效分类系统目的在于找到最佳的询问策略,以期最小化整体成本。根据现实场景,本系统假定给定的类别构成了一个已知的树形层次结构,这样的树形结构中的节点则可对应成为一个众包问题。
列举该分类问题的两个现实应用:
(1)商品分类:商品的类别大多都自然地形成了一个树形结构。为了让顾客更加便捷地找到所需商品,商家会不断优化其商品类别结构,可通过众包将新的商品按照其现有结构标定类别。
(2)图像标注:随着机器学习的普及,图像识别等任务的准确度有了较大的提升。但在这些任务的训练和测试阶段都需要大量已标注的图像,而想要降低标注的成本,就需要针对其分类的流程进行优化。
图3展示了一个树形的类别结构示例,其中包含了一些亚洲范围内的类别节点,从大区域逐层细化到城市。若现有大量亚洲各城市的风景照,要找出每一张对应的拍摄地,可采用众包的方法来完成该任务:依次挑选某个节点来发布问题(多选一,如图5),根据得到的答案来确定下一个要挑选的节点继续询问,直到最终找到一个最恰当的类别。一种直观的思路是从上到下依次询问各个节点,如“亚洲—东亚—中国”,最后得到答案“北京”。但若已知绝大部分的照片都是在中国拍摄的,便可一开始直接询问“中国”节点(如图6),可明显减少问题数量(即成本),这便是利用待分类对象的类别权重信息来构建最佳询问策略带来的好处。
根据本发明实施例的基于众包的高效分类系统,在给定了树形的类别结构的情况下,对于待分类的对象集,可通过在线地学习其类别的权重信息并不断更新,进而在该权重信息的基础上运用贪心思想构建出高效的询问策略并利用众包技术完成分类任务。本系统可减少问题数量(降低成本),减少众包过程中的交互次数(降低延迟)。
其次参照附图描述根据本发明实施例提出的基于众包的高效分类系统及创建方法。
图4为根据本发明一个实施例的基于众包的高效分类系统的创建方法流程图。
如图4所示,该基于众包的高效分类系统的创建方法包括:
S11,定义分类成本和分类延迟。
定义本发明实施例中的重要概念,包括分类成本和分类延迟。对于一个待分类的对象来说,其分类成本即从系统运行开始到确定其最终类别时该对象使用的众包问题的数量。在实际中,针对一个对象运用众包技术进行分类时,一次可发布一个或多个众包问题(多个问题可提升效率、节约时间),这里在众包平台上“发布问题—用户作答—收集答案”的过程为一次完整的交互,分类延迟即为确定该对象最终类别所需的交互次数。对于待分类的对象集来说,其分类成本/分类延迟为其中所有对象的分类成本/分类延迟的平均值。本发明实施例的目的在于降低对象集的分类成本以及分类延迟。
S12,实现优化模块,对于给定的树形类别结构,基于类别权重分布以贪心算法构建决策树进而得到询问策略。
优化模块为本发明实施例中的核心模块,其负责设计一个较好的询问策略进而降低待分类对象集的分类成本。类别权重分布,即各目标类别成为待分类对象的最终类别的可能性大小构成的分布。此处用一个示例来说明此概念:假设图3表示给定的类别树形结构,现有10张待分类的照片,其中拍摄地为“北京”、“上海”、“首尔”的照片分别有7张、2张、1张,用W表示类别的权重则此时类别权重分布为:
W(北京)=0.7,W(上海)=0.2,W(首尔)=0.1
通常,会按照从上到下的模式来询问(即第一个问题针对“亚洲”节点,再针对“东亚”或“南亚”)。而若该权重分布已知,则直观上首先针对“中国”节点询问可降低整个对象集的分类成本。此处,针对某一节点的问题即为一个众包问题,问题类型可为多选一的问题或是非判断题。图6是针对图3中的“中国”节点的多选一的示例问题。该问题有4个选项,分别对应了该节点的两个子节点所在的树形结构(“北京”、“上海”为前两个选项)、该节点自身(“中国”为第三个选项)和该节点父节点所在的树形结构(“以上均不是”为最后一个选项)。针对“中国”节点的是非判断题将询问“该照片的拍摄地是否在中国?”并给出“是”和“否”两个选项,该类型问题较为简单故略去图示。根据所得到的答案,可前往所对应的树形结构中寻找下一个节点来询问。由此可见,如何利用类别权重分布来选择较优的问题节点是优化模块最大的挑战。
系统地来说该模块解决的问题是:给定了类别的树形结构T,以及类别权重分布W,构造一颗可得到低分类成本的决策树D。此处的决策树D(对一个待分类对象一次问一个众包问题)满足下列要求:
1)D中的每个叶节点为T中的一个类别(可能的目标类别);
2)D中的每个内部节点(选择出的问题节点,例:v)对应于T中的一个内部节点(例:u)。通过移除u相关联的边T被分割为若干个新的树形结构(用ΦT(u)表示这些结构,包含u的每个子节点所在的树形结构(类型A)、u自身(类型B)和u的父节点所在的树形结构(类型C))。这样,v就有|ΦT(u)|个子节点,每个子节点与ΦT(u)中的一个树形结构相对应。
需要说明的是,以上要求在适用于是非判断题时,第二项要求中的v所对应的T中的节点u不必限定为内部节点,且“相关联的边”的具体指代为连接问题节点与其父节点的边。
给定了如图3所示的类别的树形结构后,图7展示了一颗满足要求的决策树。
为便于理解,决策树中矩形的节点表示所有可能的目标类别,其下标注了类别的权重;椭圆形的节点表示所有选择出的问题节点。同时,问题节点最右边的分支指向目标节点为其自身(类型B)的情况,最左边的分支指向“以上均不是”(类型C)的情况,中间的分支则指向各个子节点(类型A)。就图7这颗决策树而言,优化模块给出的询问策略是:从决策树的根节点(“中国”)开始询问(对应的众包问题如图6),根据回答的情况逐层向下询问。若该题的回答为“北京”,则目标类别就确定了,询问终止;若回答为“以上均不是”,则走向最左边的分支,询问“印度”节点,再根据回答情况继续询问或停止。可以看出,对一个待分类的对象,确定其最终类别的众包问题数量即分类成本等于其最终类别所在决策树的深度,例如:最终类别为“北京”的照片只需一个问题(即图6)即可停止,而类别“北京”在决策树中的深度为1。
因此,构建好一颗决策树,即确定了所要实施的询问策略。如何构建一颗决策树来降低分类成本,其关键在于如何选择问题节点。直观地看,若某个节点具有较大的权重,则说明较多的对象的最终类别都为该节点,可首先询问选项中包含该节点的问题来节约成本。这样,一种思路是选择一个节点u0,使得ΦT(u)中具有最大权重的结构(简称为“最重树”)的权重在所有可能的选择中是最小的。如前文所述,树形结构的权重为其结构中所有节点权重之和,用W来表示。则上述选择节点的标准可用如下公式表示:
u0=arg minu∈Int(T)max{W(T′)|T′∈ΦT(u)}} (1)
其中,Int(T)表示T中所有的内部节点。
反复运用上述的选择节点方法,实际上把给定的类别树形结构T不断分割为更小的树形结构,直到每个可能的目标节点都已成为决策树中的一个叶节点。本发明设计了Greedy算法用广度优先的方式和上述贪心策略来构建决策树,具体步骤如下:
Figure BDA0002635709110000071
Figure BDA0002635709110000081
Greedy算法中,在第2行初始化了队列S,第3-19行的主循环一直运行到队列为空才停止。每次主循环中,从队列S中取出待分割的树形结构T0,按照公式(1)从中选择出问题节点v,将对应的问题query(v)加入到决策树D中,将不需再分割的v的子节点(在T中为叶节点)放到query(v)节点的叶子子节点中,将需要分割的子树加入到队列S中,并将T0-Tv(T0去掉以v为根的子树,即分割T0后v的父节点所在的树形结构)也添加到队列S中。
若T共有n个节点,则Greedy算法的时间复杂度为O(n2),空间复杂度为O(n)。
下面讨论“选择多个问题节点”的情况,其目标仍是使得分割T后形成若干新的树形结构中最重树的权重在所有可能的选择中是最小的。设
Figure BDA0002635709110000082
为所选择的k个节点。公式描述如下:
Figure BDA0002635709110000083
然而,这样的k个节点不易得到。直接遍历所有的组合则至少需要
Figure BDA0002635709110000084
的时间复杂度。为了解决该问题,可先解决一个与之紧密相关的问题(称为“分割问题”):给定一个阈值z∈(0,1],找出满足分割类别树形结构得到的最重树的权重不超过z最少需要的问题节点?。用于分割的问题节点越多,形成的最重树的权重就趋向于越小。在解决了该问题的基础上,运用二分搜索的思想(即找到限定问题节点数量不超过k时可满足条件的最小的z)来解决原问题。
本发明设计并使用如下的Partition算法来解决分割问题:
Figure BDA0002635709110000085
Partition算法也运用了贪心的策略,从最深层次的节点开始逐层向上到根节点(第2行)。对每个节点u,检查以其为根的子树的权重是否超过阈值z,若超过则将该节点u加入问题节点集、从T中去掉Tu并调整相关节点的权重(第4-7行)。
若T共有n个节点,则Partition算法的时间复杂度为O(n),空间复杂度为O(n)。
在Partition算法的基础上,本发明通过如下算法(称为MultiGreedy)来找出满足公式(2)的k个节点:
Figure BDA0002635709110000091
MultiGreedy算法同样使用广度优先的方式,对当前的树形结构T0,检查其内部节点的数量,若不超过k,则将其中所有内部节点均设为问题节点(第5-8行);否则,通过二分搜索并调用Partition算法来找出满足公式(2)的k个节点作为问题节点(第9-20行)。最后,将由V分割T0形成的新的需后续处理的树形结构加入队列S。
若T共有n个节点,则MultiGreedy算法的时间复杂度为O(n2log n),空间复杂度为O(n)。
这样,通过设计并运用Partition算法和MultiGreedy算法本发明可在构建决策树时一次选择原树形结构中的多个节点并均设为问题节点,其整体作为决策树的一个内部节点。运用此方法可提升效率,减少交互次数即降低分类延迟。
可以理解的是,上述所叙述的步骤S12内容均围绕“众包问题为多选一的问题,运用贪心算法构建决策树时每次选择一个问题节点”的情况。下面就“众包问题为是非判断题”及“对一个待分类选择多个问题节点”的情况进行描述。
实际上,在给定的树形结构中,可能某些节点具有的子节点较多(例如超过30个),其生成的众包问题包含选项也较多。这时,让众包工作者从如此多的选项中挑选出一个最恰当的是比较困难和麻烦的。针对这种情况,可分批显示选项(例如10个一批):当整批的选项都被众包工作者排除后,再接着显示下一批。另一种解决办法就是使用前述贪心算法的二分版本,即采用是非判断题的问题形式。在该场景下,基本思路仍然是挑选出一个/一批问题节点以使得分割后形成的最重树的权重在所有可能的选择中是最小的,且此时问题节点不再限定为原树形结构中的内部节点(叶节点也可)。对一个问题节点来说,只移除连接该问题节点与其父节点的边,这个操作就把原来的树形结构分割成为两部分:以问题节点为根的子树(对应选项“是”),问题节点的父节点所在的树形结构(对应选项“否”)。
对Greedy和MultiGreedy算法按照前文所述做相应的微调即可完成在“众包问题为是非判断题”的情况下选择一个/一批问题节点构建决策树的功能。
S13,实现众包模块,生成众包问题、与众包平台交互并收集聚合答案,实施询问策略。
如步骤S12所述,优化模块可根据给定的树形结构和类别权重分布构建决策树作为询问策略。众包模块将利用该决策树并实施询问策略,具体步骤如下:
S131,在得到决策树后,对于每个待分类的对象,众包模块将对决策树中的节点(第一次为根节点)生成相应的众包问题,一个问题节点对应一个众包问题。若构建决策树时一次选择了多个问题节点整体作为决策树的一个节点,则众包模块会生成与问题节点数量相同的且一一对应的众包问题。问题节点分割形成的新的树形结构对应成为众包问题的选项。图6中的众包问题是决策树图6中“中国”结点生成的,可参见图8理解生成过程:图中虚线的边是移除的相关联的边,形成的4个新的树形结构对应4个选项((a)、(b)、(c)、(d))。
S132,将生成的众包问题按照众包平台的要求上传,设计任务界面并完成相应的配置(包括任务价格、回答次数等)后,便可发布任务。
S133,等待众包工作者完成任务后,收集平台上的回答结果,按照一定的方法(本发明使用Majority Voting即多数投票制)聚合得到答案。注意,在众包的过程中,也可采用其他的质量控制技术。
S134,聚合后的答案对应的分支将导向决策树中下一层的节点。若导向的节点为一目标类别(决策树中的叶节点,图7中矩形的节点)则询问策略停止,该类别作为本次待分类对象的最终类别;否则,对导向的节点重复上述4个步骤直至停止。
由此可见,众包模块起到了连接优化模块和众包平台的作用,其所实施的询问策略由优化模块构建的决策树确定。
S14,实现学习模块,通过在线学习方法学习类别权重分布。
在步骤S12中已提到,优化模块构建决策树时,除了需要给定的类别树形结构,还需要类别权重分布。但类别权重分布往往是未知的。而学习模块的功能就是在类别权重分布未知的情况下,根据已完成对象的类别信息来估计待分类对象整体的类别权重分布以供提供给优化模块使用,并不断更新、力求逐渐精确。
学习模块的实现要点在于采用在线学习中的following-the-perturbed-leader(FPL)方法以及对其加入记忆窗口的拓展方法(FPL with a window,FPLW)。估计类别权重分布的一般做法是在当前已完成的对象的最终类别中,将每个类别出现的比例作为其权重,构成分布。
FPL算法则在此基础上融入指数分布的随机信息以增加学习的稳定性,以便更好地应对输入的各种对象序列,具体如下(其中O为待分类的对象集,λ为指数分布的参数):
Figure BDA0002635709110000111
Figure BDA0002635709110000121
结合步骤S12、S13,FPL算法的运行流程为:每次从待分类的对象集中取出一个待分类的对象o,将已完成对象的最终类别信息与指数分布的随机信息融合形成类别权重分布(第3-6行),由优化模块根据此时的类别权重分布生成决策树D,再由众包模块根据D对o实施询问策略并得到o的最终类别l(o),最后在记录已完成对象的最终类别的计数器中更新c(l(o))的值。
在实际中,待分类的对象集以序列的形式输入时,其类别权重分布还可能发生变化。例如:现有1000张在亚洲区域内拍摄的照片,其中前600张在中国,后400张在印度。如果能感知这种序列变化并适时调整,学习到的类别权重分布就能更好地跟进实际情况,直观上可降低分类成本。由此,本发明对FPL进行了拓展,在其基础上加入了一个记忆窗口,称为FPLW(FPL with a window)。FPLW算法中,只有最近的在记忆窗口内的已完成对象的最终类别记录被保留,这样就能只关注于较近时期内的信息来学习权重,具体算法如下(假设待分类的对象序列为:o1,o2,…,on,记忆窗口大小为α):
Figure BDA0002635709110000122
可以看出FPLW与FPL的流程大体是相同的,只是在更新计数器时去掉了当前在记忆窗口外的记录。
在现实场景中使用本发明还可采用批量的模式。上述FPL和FPLW的算法描述中,每个主循环只处理一个待分类对象。而若一次处理多个待分类的对象,可进一步减少交互次数即降低分类延迟(步骤S12中已描述通过一次选择多个问题节点的方法来降低分类延迟)。将这两种方式结合起来的过程(称为“批量模式”,一次处理m个待分类的对象,优化模块构建决策树时一次选择k个节点)如下:
Figure BDA0002635709110000131
这样,可根据需求调整m,k的具体大小来权衡效率和成本。m越大,则类别权重分布和决策树的更新频率越低,将可能增加分类成本;k越大,处理一批待分类对象的交互轮次越少,但实际的问题数量可能因有冗余而增多。
根据本发明实施例提出的基于众包的高效分类系统的创建方法,通过定义分类成本和分类延迟;实现优化模块,对于给定的树形类别结构,基于类别权重分布以贪心算法构建决策树进而得到询问策略;实现众包模块,生成众包问题、与众包平台交互并收集聚合答案,实施询问策略;实现学习模块,通过在线学习方法学习类别权重分布。由此,创建的基于众包的高效分类系统,通过学习未知的类别权重分布,构建询问策略并利用众包技术高效低成本地完成了一系列对象的分类任务。
参照附图描述根据本发明实施例提出的基于众包的高效分类系统的使用方法。
图9为根据本发明又一个实施例的基于众包的高效分类系统的使用方法流程图。
如图9所示,该基于众包的高效分类系统的使用方法包括以下步骤:
S21,接受给定的树形类别结构和待分类的对象集,初始化并按照需要配置学习模块、优化模块和众包模块;
S22,优化模块构建初始状态下的决策树和询问策略;
S23,众包模块根据决策树生成众包问题并发布到众包平台上,待众包工作者完成后收集并聚合答案,实施询问策略;
S24,学习模块根据当前已完成对象的类别信息更新类别权重分布;
S25,优化模块根据更新后的类别权重分布构建新的决策树和询问策略;
S26,反复执行步骤S23-S25,直至确定所有待分类对象的类别。
需要说明的是,前述对系统实施例的解释说明也适用于该实施例的方法,此处不再赘述。
根据本发明实施例提出的基于众包的高效分类系统的使用方法,通过该使用方法利用搭建好的基于众包的高效分类系统,通过学习未知的类别权重分布,构建询问策略并利用众包技术高效低成本地完成一系列对象的分类任务。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于众包的高效分类系统,其特征在于,包括:
学习模块,用于通过在线学习方法以及在在线学习方法中加入记忆窗口的拓展方法来学习类别权重分布;
优化模块,用于根据已有或所述学习模块学习到的所述学习类别权重,运用贪心算法逐层构建决策树,作为询问策略;
众包模块,用于生成所述优化模块中选择出的问题节点对应的众包问题,将所述众包问题发布到众包平台以收集聚合答案,实施所述询问策略。
2.根据权利要求1所述的基于众包的高效分类系统,其特征在于,
所述在线学习方法包括following-the-perturbed-leader方法,通过记录已完成对象的类别信息并融入指数分布的随机信息得到所述类别权重分布。
3.根据权利要求2所述的基于众包的高效分类系统,其特征在于,
在所述following-the-perturbed-leader方法中,增加一个记忆窗口,只有最近的在所述记忆窗口中完成的已完成对象的类别信息被保留。
4.根据权利要求1所述的基于众包的高效分类系统,其特征在于,
所述贪心算法针对当前的树形结构,选择出一个或多个问题节点,使得移除问题节点相关联的边后,形成的多个新的树形结构中具有最大权重的结构的权重在所有可能的选择中是最小的,选择出的所述问题节点整体作为决策树的节点,对应一个或多个众包问题,所述众包问题的选项作为分支导向形成各个新的树形结构。
5.根据权利要求4所述的基于众包的高效分类系统,其特征在于,所述众包问题为多选一问题,则所述问题节点在所述树形结构的内部节点中选取。
6.根据权利要求4所述的基于众包的高效分类系统,其特征在于,所述众包问题为多选一问题,移除所述问题节点相关联的边中,所述相关联的边为连接问题节点与其父节点的边以及所有连接问题节点与其子节点的边;
所述众包问题为是非判断问题,移除所述问题节点相关联的边中,所述相关联的边为连接问题节点与其父节点的边。
7.根据权利要求4所述的基于众包的高效分类系统,其特征在于,
所述众包问题的选项由移除操作后形成的多个新的树形结构对应构成;
所述众包问题为多选一问题,所述众包问题的选项由所述问题节点的各个子节点所在树形结构、问题节点自身、问题节点的父节点所在树形结构构成;
所述众包问题为是非判断问题,所述众包问题的选项由问题节点自身所在树形结构、问题节点的父节点所在树形结构构成。
8.根据权利要求1所述的基于众包的高效分类系统,其特征在于,
所述询问策略为在构建的所述决策树中,按照所述众包问题的答案自根节点从上到下最终到达叶节点即可得到分类结果的策略。
9.一种基于众包的高效分类系统的创建方法,其特征在于,包括以下步骤:
S11,定义分类成本和分类延迟;
S12,实现优化模块,对于给定的树形类别结构,基于类别权重分布以贪心算法构建决策树进而得到询问策略;
S13,实现众包模块,生成众包问题、与众包平台交互并收集聚合答案,实施询问策略;
S14,实现学习模块,通过在线学习方法学习类别权重分布。
10.一种基于众包的高效分类系统的使用方法,其特征在于,包括以下步骤:
S21,接受给定的树形类别结构和待分类的对象集,初始化并按照需要配置学习模块、优化模块和众包模块;
S22,所述优化模块构建初始状态下的决策树和询问策略;
S23,所述众包模块根据所述决策树生成众包问题并发布到众包平台上,待众包工作者完成后收集并聚合答案,实施所述询问策略;
S24,所述学习模块根据当前已完成对象的类别信息更新类别权重分布;
S25,所述优化模块根据更新后的类别权重分布构建新的决策树和询问策略;
S26,反复执行步骤S23-S25,直至确定所有待分类对象的类别。
CN202010824572.7A 2020-08-17 2020-08-17 基于众包的高效分类系统及其创建、使用方法 Pending CN112101419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824572.7A CN112101419A (zh) 2020-08-17 2020-08-17 基于众包的高效分类系统及其创建、使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824572.7A CN112101419A (zh) 2020-08-17 2020-08-17 基于众包的高效分类系统及其创建、使用方法

Publications (1)

Publication Number Publication Date
CN112101419A true CN112101419A (zh) 2020-12-18

Family

ID=73753825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824572.7A Pending CN112101419A (zh) 2020-08-17 2020-08-17 基于众包的高效分类系统及其创建、使用方法

Country Status (1)

Country Link
CN (1) CN112101419A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948608A (zh) * 2021-02-01 2021-06-11 北京百度网讯科技有限公司 图片查找方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446287A (zh) * 2016-11-08 2017-02-22 北京邮电大学 面向众包场景问答系统答案聚合方法和系统
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN108549909A (zh) * 2018-04-17 2018-09-18 清华大学 基于众包的对象分类方法及对象分类系统
US20190236478A1 (en) * 2018-01-29 2019-08-01 Slice Technologies, Inc. Quality of labeled training data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446287A (zh) * 2016-11-08 2017-02-22 北京邮电大学 面向众包场景问答系统答案聚合方法和系统
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
US20190236478A1 (en) * 2018-01-29 2019-08-01 Slice Technologies, Inc. Quality of labeled training data
CN108549909A (zh) * 2018-04-17 2018-09-18 清华大学 基于众包的对象分类方法及对象分类系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUSSI KUJALA等: "Following the Perturbed Leader to Gamble at Multi-armed Bandits", 《18TH INTERNATIONAL CONFERENCE ON ALGORITHMIC LEARNING THEORY》 *
YILI FANG等: "Context-aware result inference in crowdsourcing", 《INFORMATION SCIENCES》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948608A (zh) * 2021-02-01 2021-06-11 北京百度网讯科技有限公司 图片查找方法、装置、电子设备及计算机可读存储介质
CN112948608B (zh) * 2021-02-01 2023-08-22 北京百度网讯科技有限公司 图片查找方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109471900B (zh) 图表类数据自定义动作数据交互方法及系统
CN113254670A (zh) 基于力导向的知识图谱可视化方法
JP2018147261A (ja) モデル統合装置、モデル統合システム、方法およびプログラム
KR20210030063A (ko) 준지도 학습을 기반으로 한 이미지 분류를 위한 적대적 이미지 생성 모델 구축 시스템 및 방법
CN113011529B (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN110263236B (zh) 基于动态多视图学习模型的社交网络用户多标签分类方法
CN113961267B (zh) 一种业务处理方法、装置及设备
WO2022252694A1 (zh) 神经网络优化方法及其装置
JP2022020070A (ja) 情報処理、情報推薦の方法および装置、電子デバイス及び記憶媒体
CN110428046A (zh) 神经网络结构的获取方法及装置、存储介质
CN110738577A (zh) 社区发现方法、装置、计算机设备和存储介质
CN110119399B (zh) 基于机器学习的业务流程优化方法
CN110909173A (zh) 一种基于标签传播的非重叠社区发现方法
CN112988275B (zh) 一种基于任务感知的移动边缘计算多用户计算卸载方法
CN111414863B (zh) 一种增强型集成遥感影像分类方法
CN114610677B (zh) 一种转换模型的确定方法和相关装置
CN112101419A (zh) 基于众包的高效分类系统及其创建、使用方法
CN117311801B (zh) 一种基于网络化结构特征的微服务拆分方法
US20240119266A1 (en) Method for Constructing AI Integrated Model, and AI Integrated Model Inference Method and Apparatus
CN114239237A (zh) 一种支持数字孪生的配电网仿真场景生成系统与方法
CN110119268B (zh) 基于人工智能的工作流优化方法
CN112541556A (zh) 模型构建优化方法、设备、介质及计算机程序产品
CN108875760A (zh) 聚类方法和装置
CN117009674A (zh) 融合数据增强和对比学习的云原生api推荐方法
CN116974249A (zh) 柔性作业车间调度方法和柔性作业车间调度装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201218

RJ01 Rejection of invention patent application after publication