CN111723930A - 一种应用群智监督学习方法的系统 - Google Patents

一种应用群智监督学习方法的系统 Download PDF

Info

Publication number
CN111723930A
CN111723930A CN202010475504.4A CN202010475504A CN111723930A CN 111723930 A CN111723930 A CN 111723930A CN 202010475504 A CN202010475504 A CN 202010475504A CN 111723930 A CN111723930 A CN 111723930A
Authority
CN
China
Prior art keywords
model
crowdsourcing
data
worker
speelfc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010475504.4A
Other languages
English (en)
Inventor
孙海龙
陈志珺
陈鹏鹏
王惠民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010475504.4A priority Critical patent/CN111723930A/zh
Publication of CN111723930A publication Critical patent/CN111723930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种群智监督学习方法的系统,包括:数据输入、众包标注学习、数据输出三个结构。在众包标注学习过程中分别构建了结构化概率模型SpeeLFC和SpeeLFC‑D,两者以不同的手段刻画了工人转移矩阵以刻画工人表现模型,但都保证了“真值分布”,“工人能力”与“工人标注分布”这三个关键因素之间的概率依存关系,进而在工人标注质量不变以及只利用基于梯度优化算法来进行端对端神经网络学习的基础上,得到更为稳定和可解释的分类器输出。

Description

一种应用群智监督学习方法的系统
技术领域
本发明涉及机器学习领域,尤其涉及群智监督学习方法的系统。
背景技术
用户群体是支撑互联网应用与服务的重要资源——群智资源,即由多个人类个体所构成的群体智力资源。群智协同计算作为一种基于互联网的重要计算模式,也在此背景下应运而生。其目标是通过大规模群智资源的高效协同来汇聚实现群体智能。
群体智能的一个重要应用就是互联网用户群体以低廉的方式为机器学习特别是深度学习研究提供大量的标注数据(例如:ImageNet数据)。人们利用众包平台(例如:Amazon Mechanical Turk)以较低的成本并高效地获得了大量的众包标注,然而众包标注者并非专家,因而使得标注结果不准确,带有噪声信息。不同于传统“带噪声标注学习”的问题,众包场景下每个样例带有多份嘈杂冗余的标注,而这些标注又来自具有不同表现模式的众包标注者。如何从带噪声的众包标注中训练有效的机器学习模型成为一个重要问题,该问题本质上也是一类新型的弱监督学习问题。我们称这种从群智标注中学习的弱监督学习问题为群智监督学习问题。
面对这个问题,传统的“真值推理算法”(也称结果汇聚算法)可以先推理出当前具有众包标注的样例的真值,然后再进行机器学习模型的有监督训练。然而近几年出现了一些直接从带噪声的众包标注中学习的算法(Learning From Crowds,LFC),而不需前序的真值推理过程。相对于传统需要先“推理样例真值”后“学习”的方式,这类算法往往有其自身的便捷性与更高的准确率,并在近几年获得了更多的关注和研究。这类LFC算法往往都是基于概率图模型与Expectaion-Maximization(EM)算法来对样例真值和模型参数进行迭代学习。最近所提出来的Crowd-Layer算法在深度神经网络(即分类器)后添加了一个特殊的crowd层,使得所构造出来的网络可以直接从带噪声的众包标注数据中利用标准的基于梯度的优化算法来进行端对端学习。
现有的LFC方法主要问题为:
(1)现存的主流LFC算法往往都基于迭代型Expectaion-Maximization(EM)算法来进行模型求解,需要复杂的计算,并且存在算法难启动的问题。
(2)Crowd-Layer算法尽管并不存在基于EM的LFC算法的弊端,并且它可以像当前许多主流的深度学习模型一样,利用标准的基于梯度的优化算法来进行端对端学习。然而Crowd-Layer的crowd层并非采用结构化概率模型(即概率图模型)的构建方式,crowd层不具备概率意义,并且其中没有保证“真值分布”,“工人能力”与“工人标注分布”这三个关键因素之间的概率依存关系。这种缺乏概率意义的crowd层构建一方面不能给我们带来具备原则性的解与足够的可解释性,另一方面也限制了在构建crowd层时可以考虑更多关键因素的可能,比如“样例难度”。
发明内容
为解决现有LFC方法所存在的问题,本发明采取如下技术方案:
一种群智监督学习方法的系统,包括:数据输入、众包标注学习、数据输出三个结构,其特征在于:
所述数据输入结构包括众包数据收集和众包数据预处理这两个过程,具体的:首先通过众包网页上的数据接口收集众包标注数据,所述众包网页为Amazon MechanicalTurk,所述标注数据包括各个样本点的特征信息和众包工人标注;所述众包数据预处理为对收集到的数据进行整理处理,使其能以一定的格式来输入后续的工作结构;
所述众包标注学习结构包括数据输入端口、模型SpeeLFC训练模块,具体的:所述数据输入端口获取前个步骤中所输出的数据,并将数据以符合模型SpeeLFC训练模块的格式输入;所述模型SpeeLFC训练模块利用所输入的数据进行模型训练,并在训练完成后输出模型参数,其中包括所需要的分类器的参数。所述模型SpeeLFC训练模块中采用结构化概率模型,并且将最大化关于众包标注的对数条件似然函数作为优化目标,最终采用标准的基于梯度的优化算法ADAM来进行优化,即模型训练;所述模型SpeeLFC训练模块中结构化概率模型的主要构造为:首先样本点特征经过一个分类器并生成样本真值的分布,然后这个真值分布经过我们所构造的“工人转移矩阵”的线性映射而得到众包工人标注的分布;
所述数据输出结构将经过训练后的所有模型参数值输出,并将分类器的参数值单独输出。
模型SpeeLFC训练模块中的模型SpeeLFC的构造为:对于每一个样例
Figure BDA0002515751110000031
Figure BDA0002515751110000032
其真值来自于一个条件类别分布:
Figure BDA0002515751110000033
Figure BDA0002515751110000034
是一个被θNN参数化的神经网络函数,即所述分类器,其中输入数据为x(i),输出为K个数值,即代表随机变量t(i)取不同类别的概率;
然后,随机变量l(ij)取值来自于:
Figure BDA0002515751110000035
Figure BDA0002515751110000036
其中函数ind(·)代表取出所输入的独热向量中数值1的位置索引(位置索引从1开始计算),并且ind(·)∈{1,...K};π(j)'代表标注者jth的转移矩阵,
Figure BDA0002515751110000037
代表当真值为n时,jth标注者标注m的概率,且所述转移矩阵中元素满足如下限制条件:
Figure BDA0002515751110000038
Figure BDA0002515751110000039
所述最大化关于众包标注的对数条件似然函数构建为:
Figure BDA00025157511100000310
所述标准的基于梯度的优化方法为SGD或者Adam方法。
或者,
一种群智监督学习方法的系统,包括:数据输入、众包标注学习、数据输出三个结构,其特征在于:
所述数据输入结构包括众包数据收集和众包数据预处理,具体的:首先通过众包网页上的数据接口收集众包标注数据,所述众包网页为Amazon Mechanical Turk,所述标注数据包括各个样本点的特征信息和众包工人标注;所述众包数据预处理为对收集到的数据进行整理与准备,使其能以一定的格式来输入后续的工作结构;
所述众包标注学习结构包括数据输入端口、模型SpeeLFC-D训练模块,具体的:所述数据输入端口获取前个步骤中所输出的数据,并将数据以符合模型SpeeLFC-D训练模块的格式输入;所述模型SpeeLFC-D训练模块利用所输入的数据进行模型训练,并在训练完成后输出模型参数,其中包括所需要的分类器的参数;所述模型SpeeLFC-D训练模块中采用结构化概率模型,并且将最大化关于众包标注的对数条件似然函数作为优化目标,最终采用标准的基于梯度的优化算法ADAM来进行优化,即模型训练;所述模型SpeeLFC-D训练模块中结构化概率模型的主要构造为:首先样本点特征经过分类器并生成样本真值的分布,然后这个真值分布经过我们所构造的“工人转移矩阵”的线性映射而得到众包工人标注的分布,其中为每个工人在他所标注的每个任务下都单独刻画一个转移矩阵π(i,j),并在其中同时考虑任务难度与工人能力,所述任务即为样例;
所述数据输出结构将经过训练后的所有模型参数值输出,并将分类器的参数值单独输出。
模型SpeeLFC-D训练模块中的模型SpeeLFC-D的构造为:对于每一个样例
Figure BDA0002515751110000041
Figure BDA0002515751110000042
即真值t(i)来自于一个条件类别分布
Figure BDA0002515751110000043
其中
Figure BDA0002515751110000044
是一个神经网络函数,即所述分类器。样例标注难度因子β(i)′∈(λ112)定义为:
β(i)′=λ12·sigmoid(β(i)),
Figure BDA0002515751110000045
其中
Figure BDA0002515751110000046
是一个神经网络函数,λ1和λ2是超参数。工人能力被定义为α(j),并且-∞≤α(j)≤+∞。面对一个特定样例,一个特定工人标注正确的概率为:
p(ind(l(ij))=k|ind(t(i))=k;β(i)′,α(j))=σ(β(i)′,α(j)),
其中,k∈{1,2,...,K},k′∈{1,2,...,K},并且k≠k′;函数ind(·)代表取出所输入的独热向量中数值1的位置索引,并且ind(·)∈{1,...K}。相对应的,具有能力α(j)的工人在标注具有难度因子β(i)′的样例时,可能标注错误的概率为:
Figure BDA0002515751110000051
所述最大化关于众包标注的对数条件似然函数则构建为:
Figure BDA0002515751110000052
Figure BDA0002515751110000053
Figure BDA0002515751110000054
所述标准的基于梯度的优化方法为SGD或者Adam方法。
本发明相对于现有技术的优点在于:
面对从带噪声的众包标注中学习这一问题,在只利用基于梯度优化算法来进行端对端神经网络学习的基础上,构建结构化概率模型SpeeLFC和SpeeLFC-D,其中用SpeeLFC模型的工人转移矩阵的形式来刻画工人表现模式(相当于Crowd-Layer算法中的crowd层)并使其有概率意义和可解释性,用SpeeLFC-D模型的进一步改进的工人转移矩阵的形式来刻画工人表现模式并使其有概率意义和可解释性,并且在SpeeLFC-D模型构造转移矩阵过程中考虑样例难度与工人能力,并利用标准的基于梯度的优化算法来进行优化,从而保证了“真值分布”,“工人能力”与“工人标注分布”这三个关键因素之间的概率依存关系,进而在人工标注质量不变的前提下得到更为稳定和可解释的分类器输出。
附图说明
图1模型SpeeLFC的图形表示;
图2模型SpeeLFC-D的图形表示
具体实施方式
实施例1:
一种群智监督学习方法的系统,包括:数据输入、众包标注学习、数据输出三个结构,其特征在于:
所述数据输入结构包括众包数据收集和众包数据预处理这两个过程,具体的:首先通过众包网页上的数据接口收集众包标注数据,所述众包网页为Amazon MechanicalTurk,所述标注数据包括各个样本点的特征信息和众包工人标注;所述众包数据预处理为对收集到的数据进行整理处理,使其能以一定的格式来输入后续的工作结构;
所述众包标注学习结构包括数据输入端口、模型SpeeLFC训练模块,具体的:所述数据输入端口获取前个步骤中所输出的数据,并将数据以符合模型SpeeLFC训练模块的格式输入;所述模型SpeeLFC训练模块利用所输入的数据进行模型训练,并在训练完成后输出模型参数,其中包括所需要的分类器的参数。所述模型SpeeLFC训练模块中采用结构化概率模型,并且将最大化关于众包标注的对数条件似然函数作为优化目标,最终采用标准的基于梯度的优化算法ADAM来进行优化,即模型训练;所述模型SpeeLFC训练模块中结构化概率模型的主要构造为:首先样本点特征经过一个分类器并生成样本真值的分布,然后这个真值分布经过我们所构造的“工人转移矩阵”的线性映射而得到众包工人标注的分布;
所述数据输出结构将经过训练后的所有模型参数值输出,并将分类器的参数值单独输出。
模型SpeeLFC的构建分为三个步骤:
步骤一:“模型”的确定
我们构建的结构化概率模型SpeeLFC(Structured Probabilistic end-to-endLearning FromCrowds)的图形表示如图1所示。本质上,在我们所面对的场景下,概率图模型的构建主要是从样例特征到众包标注的概率生成过程的构建。SpeeLFC的模型构建过程如下所示。首先,对于每一个样例
Figure BDA0002515751110000061
其真值来自于一个条件类别分布:
Figure BDA0002515751110000071
Figure BDA0002515751110000072
是一个被θNN参数化的神经网络函数,即所述分类器,其中输入数据为x(i),输出为K个数值,即代表随机变量t(i)取不同类别的概率;
然后,随机变量l(ij)取值来自于:
Figure BDA0002515751110000073
Figure BDA0002515751110000074
其中函数ind(·)代表取出所输入的独热向量中数值1的位置索引(位置索引从1开始计算),并且ind(·)∈{1,...K};π(j)'代表标注者jth的转移矩阵,
Figure BDA0002515751110000075
代表当真值为n时,jth标注者标注m的概率,且所述转移矩阵中元素满足如下限制条件:
Figure BDA0002515751110000076
Figure BDA0002515751110000077
我们使用了“重参数化”技术使得模型中关于工人的这部分参数被
Figure BDA0002515751110000078
所参数化,以使得我们可以直接使用基于梯度的优化算法对模型参数进行优化。
步骤二:“策略”的确定
在我们所构建的模型SpeeLFC中,所有待优化的参数为
Figure BDA0002515751110000079
我们的“策略”(即优化目标函数)为最大化关于众包标注的对数条件似然函数:
Figure BDA00025157511100000710
实际上,对应于上式,我们只需要用π(j)′t(i)来得到l(ij)的分布(一个K维向量),然后把最大化关于众包标注的对数似然(也等同于最小化关于众包标注的交叉熵实际上,对应于上式,我们只需要用π(j)′t(i)来得到得到l(ij)的分布(一个K维向量),然后把最大化关于众包标注的对数似然(也相当于最小化关于众包标注的交叉熵损失)当作优化目标。
步骤三:“优化算法”的确定
在概率模型构造与优化函数确定后,就需要对优化目标函数进行优化。而这个优化问题就可以用标准的基于梯度的优化方法来解决,比如SGD或者Adam。这里我们使用Adam。
实施例2:
一种群智监督学习方法的系统,包括:数据输入、众包标注学习、数据输出三个结构,其特征在于:
所述数据输入结构包括众包数据收集和众包数据预处理,具体的:首先通过众包网页上的数据接口收集众包标注数据,所述众包网页为Amazon Mechanical Turk,所述标注数据包括各个样本点的特征信息和众包工人标注;所述众包数据预处理为对收集到的数据进行整理与准备,使其能以一定的格式来输入后续的工作结构;
所述众包标注学习结构包括数据输入端口、模型SpeeLFC-D训练模块,具体的:所述数据输入端口获取前个步骤中所输出的数据,并将数据以符合模型SpeeLFC-D训练模块的格式输入;所述模型SpeeLFC-D训练模块利用所输入的数据进行模型训练,并在训练完成后输出模型参数,其中包括所需要的分类器的参数;所述模型SpeeLFC-D训练模块中采用结构化概率模型,并且将最大化关于众包标注的对数条件似然函数作为优化目标,最终采用标准的基于梯度的优化算法ADAM来进行优化,即模型训练;所述模型SpeeLFC-D训练模块中结构化概率模型的主要构造为:首先样本点特征经过分类器并生成样本真值的分布,然后这个真值分布经过我们所构造的“工人转移矩阵”的线性映射而得到众包工人标注的分布,其中为每个工人在他所标注的每个任务下都单独刻画一个转移矩阵π(i,j),并在其中同时考虑任务难度与工人能力,所述任务即为样例。所述数据输出结构将经过训练后的所有模型参数值输出,并将分类器的参数值单独输出。
所述数据输出结构将经过训练后的所有模型参数值输出,并将分类器的参数值单独输出。
模型SpeeLFC-D的构建分为三个步骤:
步骤一:“模型”的确定
模型SpeeLFC-D(Structured Probabilistic end-to-end Learning FromCrowds-D)的图形表示如图2所示。SpeeLFC-D的模型构建过程如下所述。首先,对于每一个样例
Figure BDA0002515751110000091
Figure BDA0002515751110000092
即真值t(i)来自于一个条件类别分布
Figure BDA0002515751110000093
其中
Figure BDA0002515751110000094
是一个神经网络函数,即所述分类器。样例标注难度因子β(i)′∈(λ112)定义为:
β(i)′=λ12·sigmoid(β(i)),
Figure BDA0002515751110000095
其中
Figure BDA0002515751110000096
是一个神经网络函数,λ1和λ2是超参数。工人能力被定义为α(j),并且-∞≤α(j)≤+∞。面对一个特定样例,一个特定工人标注正确的概率为:
p(ind(l(ij))=k|ind(t(i))=k;β(i)(j))=σ(β(i)(j)),
其中,k∈{1,2,...,K},k′∈{1,2,...,K},并且k≠k′;函数ind(·)代表取出所输入的独热向量中数值1的位置索引,并且ind(·)∈{1,...K}。相对应的,具有能力α(j)的工人在标注具有难度因子β(i)′的样例时,可能标注错误的概率为:
Figure BDA0002515751110000097
实际上,对于每一个工人,以上构建会为这个工人在每个样例下的表现模式都单独构建一个转移矩阵π(i,j)。其中,π(i,j)的对角线元素由标注正确的概率得到,其他元素由标注错误的概率得到。
步骤二:“策略”的确定
我们的“策略”(即优化目标函数)为最大化关于众包标注的对数条件似然函数:
Figure BDA0002515751110000101
Figure BDA0002515751110000102
Figure BDA0002515751110000103
实际上,对应于上式,我们只需要用π(i,j)t(i)来得到l(ij)的分布(一个K维向量),然后把最大化关于众包标注的对数似然(也等同于最小化关于众包标注的交叉熵损失)当作优化目标。
步骤三:“优化算法”的确定
同样的,这个优化问题可以用标准的基于梯度的优化方法来解决,比如SGD或者Adam。这里我们使用Adam。

Claims (8)

1.一种应用群智监督学习方法的系统,包括:数据输入、众包标注学习、数据输出三个结构,其特征在于:
所述数据输入结构包括众包数据收集和众包数据预处理这两个过程,具体的:首先通过众包网页上的数据接口收集众包标注数据,所述众包网页为Amazon Mechanical Turk,所述标注数据包括各个样本点的特征信息和众包工人标注;所述众包数据预处理为对收集到的数据进行整理处理,使其能以一定的格式来输入后续的工作结构;
所述众包标注学习结构包括数据输入端口、模型SpeeLFC训练模块,具体的:所述数据输入端口获取前个步骤中所输出的数据,并将数据以符合模型SpeeLFC训练模块的格式输入;所述模型SpeeLFC训练模块利用所输入的数据进行模型训练,并在训练完成后输出模型参数,其中包括所需要的分类器的参数。所述模型SpeeLFC训练模块中采用结构化概率模型,并且将最大化关于众包标注的对数条件似然函数作为优化目标,最终采用标准的基于梯度的优化算法Adam来进行优化,即模型训练;所述模型SpeeLFC训练模块中结构化概率模型的主要构造为:首先样本点特征经过一个分类器并生成样本真值的分布,然后这个真值分布经过我们所构造的“工人转移矩阵”的线性映射而得到众包工人标注的分布;
所述数据输出结构将经过训练后的所有模型参数值输出,并将分类器的参数值单独输出。
2.如权利要求1所述一种应用群智监督学习方法的系统,其特征在于模型SpeeLFC训练模块中的模型SpeeLFC的构造为:对于每一个样例
Figure FDA0002515751100000011
其真值来自于一个条件类别分布:
Figure FDA0002515751100000012
Figure FDA0002515751100000013
是一个被θNN参数化的神经网络函数,即所述分类器,其中输入数据为x(i),输出为K个数值,即代表随机变量t(i)取不同类别的概率;
然后,随机变量l(ij)取值来自于:
Figure FDA0002515751100000014
Figure FDA0002515751100000015
其中函数ind(·)代表取出所输入的独热向量中数值1的位置索引(位置索引从1开始计算),并且ind(·)∈{1,…K};π(j)′代表标注者jth的转移矩阵,
Figure FDA0002515751100000021
代表当真值为n时,tth标注者标注m的概率,且所述转移矩阵中元素满足如下限制条件:
Figure FDA0002515751100000022
Figure FDA0002515751100000023
3.如权利要求2所述一种应用群智监督学习方法的系统,其特征在于:所述最大化关于众包标注的对数条件似然函数构建为:
Figure FDA0002515751100000024
Figure FDA0002515751100000025
4.如权利要求3所述一种应用群智监督学习方法的系统,其特征在于:所述标准的基于梯度的优化方法为SGD或者Adam方法。
5.如权利要求1所述一种应用群智监督学习方法的系统,其特征在于:所述模型SpeeLFC训练模块修改为模型SpeeLFC-D训练模块,具体的:所述数据输入端口获取前个步骤中所输出的数据,并将数据以符合模型SpeeLFC-D训练模块的格式输入;所述模型SpeeLFC-D训练模块利用所输入的数据进行模型训练,并在训练完成后输出模型参数,其中包括所需要的分类器的参数;所述模型SpeeLFC-D训练模块中采用结构化概率模型,并且将最大化关于众包标注的对数条件似然函数作为优化目标,最终采用标准的基于梯度的优化算法ADAM来进行优化,即模型训练;所述模型SpeeLFC-D训练模块中结构化概率模型的主要构造为:首先样本点特征经过分类器并生成样本真值的分布,然后这个真值分布经过我们所构造的“工人转移矩阵”的线性映射而得到众包工人标注的分布,其中为每个工人在他所标注的每个任务下都单独刻画一个转移矩阵π(i,j),并在其中同时考虑任务难度与工人能力,所述任务即为样例。
6.如权利要求5所述一种应用群智监督学习方法的系统,其特征在于模型SpeeLFC-D训练模块中的模型SpeeLFC-D的构造为:对于每一个样例
Figure FDA0002515751100000031
Figure FDA0002515751100000032
即真值t(i)来自于一个条件类别分布
Figure FDA0002515751100000033
其中
Figure FDA0002515751100000034
是一个神经网络函数,即所述分类器。样例标注难度因子β(i)′∈(λ112)定义为:
β(i)′=λ12·sigmoid(β(i)),
Figure FDA0002515751100000035
其中
Figure FDA0002515751100000036
是一个神经网络函数,λ1和λ2是超参数。工人能力被定义为α(j),并且-∞≤α(j)≤+∞。面对一个特定样例,一个特定工人标注正确的概率为:
p(ind(l(ij))=k|ind(t(i))=k;β(i)′(j))=σ(β(i)′(j)),
其中,k∈{1,2,…,K},k′∈{1,2,…,K},并且k≠k′;函数ind(·)代表取出所输入的独热向量中数值1的位置索引,并且ind(·)∈{1,…K}。相对应的,具有能力α(j)的工人在标注具有难度因子β(i)′的样例时,可能标注错误的概率为:
Figure FDA0002515751100000037
7.如权利要求6所述一种应用群智监督学习方法的系统,其特征在于:所述最大化关于众包标注的对数条件似然函数则构建为:
Figure FDA0002515751100000038
Figure FDA0002515751100000041
8.如权利要求7所述一种应用群智监督学习方法的系统,其特征在于:所述标准的基于梯度的优化方法为SGD或者Adam方法。
CN202010475504.4A 2020-05-29 2020-05-29 一种应用群智监督学习方法的系统 Pending CN111723930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010475504.4A CN111723930A (zh) 2020-05-29 2020-05-29 一种应用群智监督学习方法的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010475504.4A CN111723930A (zh) 2020-05-29 2020-05-29 一种应用群智监督学习方法的系统

Publications (1)

Publication Number Publication Date
CN111723930A true CN111723930A (zh) 2020-09-29

Family

ID=72565442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010475504.4A Pending CN111723930A (zh) 2020-05-29 2020-05-29 一种应用群智监督学习方法的系统

Country Status (1)

Country Link
CN (1) CN111723930A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386299B2 (en) 2018-11-16 2022-07-12 Yandex Europe Ag Method of completing a task
US11416773B2 (en) 2019-05-27 2022-08-16 Yandex Europe Ag Method and system for determining result for task executed in crowd-sourced environment
US11475387B2 (en) 2019-09-09 2022-10-18 Yandex Europe Ag Method and system for determining productivity rate of user in computer-implemented crowd-sourced environment
US11481650B2 (en) 2019-11-05 2022-10-25 Yandex Europe Ag Method and system for selecting label from plurality of labels for task in crowd-sourced environment
US11727329B2 (en) 2020-02-14 2023-08-15 Yandex Europe Ag Method and system for receiving label for digital task executed within crowd-sourced environment
US11727336B2 (en) 2019-04-15 2023-08-15 Yandex Europe Ag Method and system for determining result for task executed in crowd-sourced environment

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386299B2 (en) 2018-11-16 2022-07-12 Yandex Europe Ag Method of completing a task
US11727336B2 (en) 2019-04-15 2023-08-15 Yandex Europe Ag Method and system for determining result for task executed in crowd-sourced environment
US11416773B2 (en) 2019-05-27 2022-08-16 Yandex Europe Ag Method and system for determining result for task executed in crowd-sourced environment
US11475387B2 (en) 2019-09-09 2022-10-18 Yandex Europe Ag Method and system for determining productivity rate of user in computer-implemented crowd-sourced environment
US11481650B2 (en) 2019-11-05 2022-10-25 Yandex Europe Ag Method and system for selecting label from plurality of labels for task in crowd-sourced environment
US11727329B2 (en) 2020-02-14 2023-08-15 Yandex Europe Ag Method and system for receiving label for digital task executed within crowd-sourced environment

Similar Documents

Publication Publication Date Title
CN111723930A (zh) 一种应用群智监督学习方法的系统
Shen et al. Wind speed prediction of unmanned sailboat based on CNN and LSTM hybrid neural network
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
CN114418954A (zh) 一种基于互学习的半监督医学图像分割方法及其系统
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112765896A (zh) 一种基于lstm的水处理时序数据异常检测方法
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112015868A (zh) 基于知识图谱补全的问答方法
CN113298191B (zh) 基于个性化半监督在线联邦学习的用户行为识别方法
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
CN114969367B (zh) 基于多方面子任务交互的跨语言实体对齐方法
CN115952424A (zh) 一种基于多视图结构的图卷积神经网络聚类方法
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
Lee et al. Improved recurrent generative adversarial networks with regularization techniques and a controllable framework
CN117034100A (zh) 基于分层池化架构自适应图分类方法、系统、设备和介质
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Deng et al. Evolutionary neural architecture search for facial expression recognition
Lu et al. Soft-orthogonal constrained dual-stream encoder with self-supervised clustering network for brain functional connectivity data
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
Yin et al. Nodetrans: A graph transfer learning approach for traffic prediction
CN114943277A (zh) 一种综合能源系统运行工况识别与运行性能预测方法
CN116486127A (zh) 一种融合结构信息的图自编码器聚类方法
CN103077404A (zh) 基于马尔科夫随机场的局部增量式可视化聚类方法
CN115730631A (zh) 联邦学习的方法和装置
Li et al. Learning from multiple annotators by incorporating instance features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929

RJ01 Rejection of invention patent application after publication