CN111382144A - 信息处理方法及装置、存储介质及处理器 - Google Patents

信息处理方法及装置、存储介质及处理器 Download PDF

Info

Publication number
CN111382144A
CN111382144A CN201811613726.7A CN201811613726A CN111382144A CN 111382144 A CN111382144 A CN 111382144A CN 201811613726 A CN201811613726 A CN 201811613726A CN 111382144 A CN111382144 A CN 111382144A
Authority
CN
China
Prior art keywords
information
answer
questions
question
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811613726.7A
Other languages
English (en)
Other versions
CN111382144B (zh
Inventor
周康
赵振财
林鹏
薛研歆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811613726.7A priority Critical patent/CN111382144B/zh
Publication of CN111382144A publication Critical patent/CN111382144A/zh
Application granted granted Critical
Publication of CN111382144B publication Critical patent/CN111382144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信息处理方法及装置、存储介质及处理器。其中,该方法包括:从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括众包项目发出的问题和用户回答问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定众包项目发出的问题的答案信息。本发明解决了从众包项目回收到的众包数据的正确率较低,导致众包质量较低的技术问题。

Description

信息处理方法及装置、存储介质及处理器
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种信息处理方法及装置、存储介质及处理器。
背景技术
近些年来,随着科技水平的不断发展,人民生活水平的提升,移动智能设备也得到了快速增长,如智能手机,平板电脑,智能手表等。今天,大多数人在日常生活中至少携带一个这样的设备,以便他们可以不断地连接到互联网。智能设备拥有独特的功能,是收集公众和环境数据的绝佳媒介。这些都给众包普及和发展提供了丰富的场景和客观前提。众包可以利用智能设备的力量及其无处不在的特性,鼓励更多的人参与其中,提供信息,而无需昂贵的基础设施。随着智能设备和人群基数的增长,众包正在成为一种日益成熟的解决方案,可以用来进行人工计算和收集人工标签,尤其是在大规模数据和复杂的标签任务中。众包具有获得高质量标签的能力,但是其中不乏大量不称职的参与人员,被众包奖励所吸引,或者个人能力,认知水平不够,造成了大量错误标签,从而回收数据的正确率较低,导致众包质量较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息处理方法及装置、存储介质及处理器,以至少解决从众包项目回收到的众包数据的正确率较低,导致众包质量较低的技术问题。
根据本发明实施例的一个方面,提供了一种信息处理方法,包括:从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
进一步地,根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案包括:判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;若目标用户回答的问题中存在样本标签的问题,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
进一步地,采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息包括:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
进一步地,基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息包括:基于所述目标用户调整后的权重值和所述目标用户回答除存在样本标签的问题之外问题的答案信息、回答所述除存在样本标签的问题之外问题的其它用户的权重值和所述其它用户回答所述除存在样本标签的问题之外问题的答案信息,确定所述问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;基于所述第一预估答案信息调整所述目标用户的权重值和其它用户的权重值,继续计算所述目标用户和所述其它用户回答所述除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整所述目标用户和所述其它用户的权重值,并将后一预估答案信息作为所述问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
进一步地,在确定出所述问答样本信息中问题的答案信息之后,所述方法还包括:获取在确定出所述问答样本信息中问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,基于所述目标用户对应的权重值和其它用户对应的权重值创建权重模型。
进一步地,基于采样到的问答样本信息中问题的答案信息和所述未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息包括:若所述众包项目存在未被回答的问题,基于所述权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;基于采样到的问答样本信息中问题的答案信息、所述未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定所述众包项目发出的问题的答案信息。
进一步地,在采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息之后,所述方法还包括:获取在确定出所述众包项目发出的问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,并更新所述历史信息库中存储的用户的权重值。
根据本发明实施例的另一方面,还提供了一种信息处理装置,包括:第一获取单元,用于从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;第二获取单元,用于从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;确定单元,用于根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
进一步地,所述确定单元包括:判断子单元,用于判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;调整子单元,用于在目标用户回答的问题中存在样本标签的问题的情况下,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;确定子单元,用于采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
进一步地,所述确定子单元包括:第一确定模块,用于基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;第二确定模块,用于基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;第三确定模块,用于基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的信息处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的信息处理方法。
在本发明实施例中,通过从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息,达到了改善众包项目发出的问题的答案信息的质量,提升众包数据的正确率的目的,从而实现了提升众包质量的技术效果,进而解决了从众包项目回收到的众包数据的正确率较低,导致众包质量较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种信息处理方法的流程图;
图3是根据本发明实施例的一种可选的信息处理方法的示意图;
图4是根据本发明实施例的一种信息处理装置的示意图;以及
图5是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
众包质量:众包项目回收到的众包数据的正确率。
客观单选题:单选或者判断题。
可依赖度:参与人员答案的可信度,可信度越高其答案越可能是正确答案。
最大期望算法(Expectation-Maximization algorithm,EM),是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation,MLE)的优化算法,通常作为牛顿迭代法(Newton-Raphson method)的替代用于对包含隐变量(latent variable)或缺失数据(incomplete-data)的概率模型进行参数估计。EM算法的标准计算框架由E步(Expectation-step)和M步(Maximization step)交替组成,算法的收敛性可以确保迭代至少逼近局部极大值。EM算法是MM算法(Minorize-Maximization algorithm)的特例之一,拥有多个改进版本,包括EM梯度算法、广义EM算法等。由于迭代规则容易实现并可以灵活考虑隐变量,EM算法被广泛应用于处理数据的缺测值,以及很多机器学习(machine learning)算法,包括高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(HiddenMarkov Model,HMM)的参数估计。
实施例1
根据本发明实施例,还提供了一种信息处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现信息处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图1中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的信息处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的信息处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在上述运行环境下,本申请提供了如图2所示的信息处理方法。图2是根据本发明实施例一的信息处理方法的流程图。
步骤S201,从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括众包项目发出的问题和用户回答问题的答案信息。
例如,众包项目下发了N个客观单选题的问题,在用户对客观单选题进行回答后,对其进行随机采样。例如采样其中10个问题的所有答案信息,将10个问题中每个问题的所有答案信息作为一组问答样本信息,对于每组问答样本信息包括问题及用户回答问题的答案信息。假设,10个问题中有一个问题为:请问你会选择节假日出国旅游吗?对采样到的样本信息中就包括这个问题以及用户回答该问题的答案(会或者不会)。
步骤S202,从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值。
例如,回答:问你会选择节假日出国旅游吗?这个问题的用户包括用户A,用户B,用户C。其中,从历史信息库中获取用户A,用户B,用户C的权重值,得到用户A的权重值为0.8,用户B的权重值为0.9,用户A的权重值为1.2。
需要说明的是,基于历史众包项目中获取到的用户回答问题的信息,确定用户的对应的权重值,例如,用户A在历史回答的问题中正确率越高,判定用户A的可依赖度越高,用户A对应的权重值越大。将用户A的信息及用户A对应的权重值存储在历史信息库。
步骤S203,根据每个用户对应的权重值和每个用户回答问题的答案信息确定众包项目发出的问题的答案信息。
基于采样出的问答样本信息中的用户回答问题的答案信息及用户的权重值,确定出众包项目发出的所有问题的答案信息。
可选地,在本申请实施例提供的信息处理方法中,根据每个用户对应的权重值和每个用户回答问题的答案信息确定众包项目发出的问题的答案包括:判断用户回答的问题中是否存在样本标签的问题,其中,样本标签的问题存在预期答案;若目标用户回答的问题中存在样本标签的问题,基于目标用户回答样本标签的问题的答案信息调整目标用户的权重值;采用期望最大化算法基于目标用户调整后的权重值和问答样本信息中除目标用户之外的其它回答问题的用户对应的权重值,确定众包项目发出的问题的答案信息。
需要说明的是,上述的存在样本标签的问题可以理解为存在预期答案的问题,例如,对于问题:1岁以下的婴儿的辅食中可以加盐吗?预期答案为不可以。这个问题即为存在样本标签的问题。
众包项目发出的问题中存在样本标签的问题,目的是引入半监督的方法,通过混入带标签样本,对回答正确的人员,一定程度加大其可信赖度,对回答错误的人员,降低其可信赖度,可以提升系统鲁棒性和准确度。
可选地,在本申请实施例提供的信息处理方法中,采用期望最大化算法基于目标用户调整后的权重值和问答样本信息中除目标用户之外的其它回答问题的用户对应的权重值,确定众包项目发出的问题的答案信息包括:基于目标用户调整后的权重值、目标用户回答问答样本信息中除存在样本标签的问题之外问题的答案信息、问答样本信息中除目标用户之外的其它用户回答问题的答案信息和其它用户中各个用户对应的权重值确定出问答样本信息中问题的答案信息;基于目标用户调整后的权重值和其它用户中各个用户对应的权重值确定众包项目回收到的信息中未被采样到的信息中问题的答案信息;基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定众包项目发出的问题的答案信息。
例如,用户A回答的问题中存在样本标签的问题,且用户A回答的该样本标签的问题的答案为预期答案,则将用户A的可信赖度调高,例如,将用户A的可信赖度调整为1.2。例如,采集到的问答样本信息中一共有10个问题,用户A回答了其中3个问题。3个问题中2个问题存在样本标签。基于用户A回答那2个问题的答案调整用户A的权重值之后,基于调整后的用户A的权重值获取用户A回答的3个问题中另1个问题的答案信息。再基于用户A回答的答案信息和调整后的用户A的权重值,10个问题中除用户A回答问题之外的其它问题别的用户回答的答案,别的用户对应的权重值,确定问答样本信息中的答案信息。基于问答样本信息中的答案信息确定众包项目发出的问题的答案信息。
可选地,在本申请实施例提供的信息处理方法中,基于目标用户调整后的权重值、目标用户回答问答样本信息中除存在样本标签的问题之外问题的答案信息、问答样本信息中除目标用户之外的其它用户回答问题的答案信息和其它用户中各个用户对应的权重值确定出问答样本信息中问题的答案信息包括:基于目标用户调整后的权重值和目标用户回答除存在样本标签的问题之外问题的答案信息、回答除存在样本标签的问题之外问题的其它用户的权重值和其它用户回答除存在样本标签的问题之外问题的答案信息,确定问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;基于第一预估答案信息调整目标用户的权重值和其它用户的权重值,继续计算目标用户和其它用户回答除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整目标用户和其它用户的权重值,并将后一预估答案信息作为问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
在确定出问答样本信息中问题的答案信息之后,该方法还包括:获取在确定出问答样本信息中问题的答案信息时目标用户对应的权重值和其它用户对应的权重值,基于目标用户对应的权重值和其它用户对应的权重值创建权重模型。
在上述方案中,利用期望最大化(EM)算法,并结合随机采样,有经验初始化的方式提升系统速度和降低成本,结合半监督的方法提升系统稳定性和有效性,并适应足够的测试样本评估生成权重模型的准确度。而且利用生成的权重模型可以回答低量级数据的回答和选择正确答案,大大降低了成本。
可选地,在本申请实施例提供的信息处理方法中,基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定众包项目发出的问题的答案信息包括:若众包项目存在未被回答的问题,基于权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;基于采样到的问答样本信息中问题的答案信息、未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定众包项目发出的问题的答案信息。
如图3所示,例如,众包项目中的问题有1000个,其中有100个问题为未被回答的问题,未被回答的问题中没有存在样本标签的问题,采用权重模型和权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息,如图3中,各人员对选择各选项的概率为P(A),P(B),P(C),P(D),基于各人员对选择各选项的概率预估出未被回答的问题的答案信息。然后再基于采样到的问答样本信息中问题的答案信息、未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定众包项目发出的所有问题的正确答案。
为了保证历史信息库中信息的准确性,提升对在众包数据处理的效率,在本申请实施例提供的信息处理方法中,在采用期望最大化算法基于目标用户调整后的权重值和问答样本信息中除目标用户之外的其它回答问题的用户对应的权重值,确定众包项目发出的问题的答案信息之后,该方法还包括:获取在确定出众包项目发出的问题的答案信息时目标用户对应的权重值和其它用户对应的权重值,并更新历史信息库中存储的用户的权重值。
通过上述方案在确定众包项目发出的所有问题的正确答案之后,基于调整后的目标用户对应的权重值和其它用户对应的权重值更新历史信息库中存储的用户的权重值。从而保证了历史信息库中信息的准确性,在对众包数据进行处理时,直接从历史信息库中提取用户对应的最新的权重值,提升了对众包数据处理的效率。
综上所述,本申请实施例提供的方案就众包回收数据质量提升系统做了整体的设计,目的是针对回收的众包数据,改善数据的质量,提高正确率。本方案设计了完成的数据质量提升系统,利用EM算法,并结合随机采样,有经验初始化的方式提升系统速度和降低成本,结合半监督的方法提升系统稳定性和有效性,并适应足够的测试样本评估生成模型的准确度。而且利用生成参数模型可以回答低量级数据的回答和选择正确答案,大大降低了成本。首先,在数据层,基于EM算法的分布式方法,加速运行速度,不再对全部数据使用传统的EM算法,这样耗时而且成本高。在本申请中随机选择足够的样本进行学习,并参有少量的带标签的样本,以便实现半监督学习,提升系统准确度。在初始化层,不再是简单的随机初始化,而是有经验的从历史的人员数据中选择其可信赖度,同时这次得到的人员回答正确率也将维护人员自身的可信赖度。这样可大大降低EM算法的迭代次数,加快系统的速度和准确度。在E层,本方案加入了半监督步骤,通过混入带标签样本,对回答正确的人员,一定程度加大其可信赖度,对回答错误的人员,降低其可信赖度。可以提升系统鲁棒性和准确度。最后,通过足够样本学习的生成权重模型,可以对其他已回答的数据,进行正确答案判别。同时,对少量未回答的问题,可以进行答案预测,为了保证预测准确,进行多次预测,选择距离整体人员可信赖度误差最小的答案,同时可以选择少量数据,进行人工验证。
在本申请实施例中,采用足够的样本进行统计学习,而且选择可信赖度较高的人员,同时较低可信赖度的人员对最终答案的影响力度相应降低。同时在本申请实施例中引入了可信赖度,这个数据体现了参与人员的各类表现,包括历史回答准确度,认真程度,知识水平等等。这些信息在决定最终答案时是非常重要的,而在以前的方法中很少被重视。在本申请实施例中会注重收集和整理这方法的信息。为了降低系统的复杂度,防止过拟合现象,在本申请实施例更易于实现,而且可以通过测试样本或者人工判别来评估系统的稳定性和可用性。同时在数据处理方面,在本申请实施例中引入随机采样降低运算量,和选择合适的初始值以便更接近真实值等方法提升系统的速度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述信息处理方法的信息处理装置,如图4所示,该装置包括:第一获取单元401,第二获取单元402和确定单元403。
第一获取单元401,用于从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括众包项目发出的问题和用户回答问题的答案信息;
第二获取单元402,用于从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;
确定单元403,用于根据每个用户对应的权重值和每个用户回答问题的答案信息确定众包项目发出的问题的答案信息。
在本申请实施例提供的信息处理装置中,通过第一获取单元401从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括众包项目发出的问题和用户回答问题的答案信息;第二获取单元402从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;确定单元403根据每个用户对应的权重值和每个用户回答问题的答案信息确定众包项目发出的问题的答案信息,达到了改善众包项目发出的问题的答案信息的质量,提升众包数据的正确率的目的,从而实现了提升众包质量的技术效果,进而解决了从众包项目回收到的众包数据的正确率较低,导致众包质量较低的技术问题。
可选地,在本申请实施例提供的信息处理装置中,确定单元403包括:判断子单元,用于判断用户回答的问题中是否存在样本标签的问题,其中,样本标签的问题存在预期答案;调整子单元,用于在目标用户回答的问题中存在样本标签的问题的情况下,基于目标用户回答样本标签的问题的答案信息调整目标用户的权重值;确定子单元,用于采用期望最大化算法基于目标用户调整后的权重值和问答样本信息中除目标用户之外的其它回答问题的用户对应的权重值,确定众包项目发出的问题的答案信息。
可选地,在本申请实施例提供的信息处理装置中,确定子单元包括:第一确定模块,用于基于目标用户调整后的权重值、目标用户回答问答样本信息中除存在样本标签的问题之外问题的答案信息、问答样本信息中除目标用户之外的其它用户回答问题的答案信息和其它用户中各个用户对应的权重值确定出问答样本信息中问题的答案信息;第二确定模块,用于基于目标用户调整后的权重值和其它用户中各个用户对应的权重值确定众包项目回收到的信息中未被采样到的信息中问题的答案信息;第三确定模块,用于基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定众包项目发出的问题的答案信息。
可选地,在本申请实施例提供的信息处理装置中,第一确定模块包括:确定子模块,用于根据目标用户调整后的权重值和目标用户回答除存在样本标签的问题之外问题的答案信息、回答除存在样本标签的问题之外问题的其它用户的权重值和其它用户回答除存在样本标签的问题之外问题的答案信息,确定问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;调整子模块,用于根据第一预估答案信息调整目标用户的权重值和其它用户的权重值,继续计算目标用户和其它用户回答除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整目标用户和其它用户的权重值,并将后一预估答案信息作为问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
可选地,在本申请实施例提供的信息处理装置中,该装置还包括:创建单元,用于在确定出问答样本信息中问题的答案信息之后,获取在确定出问答样本信息中问题的答案信息时目标用户对应的权重值和其它用户对应的权重值,基于目标用户对应的权重值和其它用户对应的权重值创建权重模型。
可选地,在本申请实施例提供的信息处理装置中,创建单元还包括:预估子单元,用于在众包项目存在未被回答的问题的情况下,基于权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;确定子单元,用于根据采样到的问答样本信息中问题的答案信息、未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定众包项目发出的问题的答案信息。
可选地,在本申请实施例提供的信息处理装置中,该装置还包括:获取单元,用于在采用期望最大化算法基于目标用户调整后的权重值和问答样本信息中除目标用户之外的其它回答问题的用户对应的权重值,确定众包项目发出的问题的答案信息之后,获取在确定出众包项目发出的问题的答案信息时目标用户对应的权重值和其它用户对应的权重值,并更新历史信息库中存储的用户的权重值。
此处需要说明的是,上述第一获取单元401,第二获取单元402和确定单元403,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的信息处理方法中以下步骤的程序代码:从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
可选的,上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案包括:判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;若目标用户回答的问题中存在样本标签的问题,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
可选的,上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息包括:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
可选的,上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息包括:基于所述目标用户调整后的权重值和所述目标用户回答除存在样本标签的问题之外问题的答案信息、回答所述除存在样本标签的问题之外问题的其它用户的权重值和所述其它用户回答所述除存在样本标签的问题之外问题的答案信息,确定所述问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;基于所述第一预估答案信息调整所述目标用户的权重值和其它用户的权重值,继续计算所述目标用户和所述其它用户回答所述除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整所述目标用户和所述其它用户的权重值,并将后一预估答案信息作为所述问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
可选的,上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:在确定出所述问答样本信息中问题的答案信息之后,所述方法还包括:获取在确定出所述问答样本信息中问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,基于所述目标用户对应的权重值和其它用户对应的权重值创建权重模型。
可选的,上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:基于采样到的问答样本信息中问题的答案信息和所述未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息包括:若所述众包项目存在未被回答的问题,基于所述权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;基于采样到的问答样本信息中问题的答案信息、所述未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定所述众包项目发出的问题的答案信息。
可选的,上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:在采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息之后,所述方法还包括:获取在确定出所述众包项目发出的问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,并更新所述历史信息库中存储的用户的权重值。
可选地,图5是根据本发明实施例的一种计算机终端的结构框图。如图5所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的信息处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
可选的,上述处理器还可以执行如下步骤的程序代码:根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案包括:判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;若目标用户回答的问题中存在样本标签的问题,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
可选的,上述处理器还可以执行如下步骤的程序代码:采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息包括:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
可选的,上述处理器还可以执行如下步骤的程序代码:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息包括:基于所述目标用户调整后的权重值和所述目标用户回答除存在样本标签的问题之外问题的答案信息、回答所述除存在样本标签的问题之外问题的其它用户的权重值和所述其它用户回答所述除存在样本标签的问题之外问题的答案信息,确定所述问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;基于所述第一预估答案信息调整所述目标用户的权重值和其它用户的权重值,继续计算所述目标用户和所述其它用户回答所述除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整所述目标用户和所述其它用户的权重值,并将后一预估答案信息作为所述问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
可选的,上述处理器还可以执行如下步骤的程序代码:在确定出所述问答样本信息中问题的答案信息之后,所述方法还包括:获取在确定出所述问答样本信息中问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,基于所述目标用户对应的权重值和其它用户对应的权重值创建权重模型。
可选的,上述处理器还可以执行如下步骤的程序代码:基于采样到的问答样本信息中问题的答案信息和所述未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息包括:若所述众包项目存在未被回答的问题,基于所述权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;基于采样到的问答样本信息中问题的答案信息、所述未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定所述众包项目发出的问题的答案信息。
可选的,上述处理器还可以执行如下步骤的程序代码:在采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息之后,所述方法还包括:获取在确定出所述众包项目发出的问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,并更新所述历史信息库中存储的用户的权重值。
采用本发明实施例,提供了一种信息处理方法的方案。通过从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息,达到了提升众包数据的正确率的目的,从而实现了提升众包质量的技术效果,进而解决了从众包项目回收到的众包数据的正确率较低,导致众包质量较低的技术问题。
本领域普通技术人员可以理解,图5所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的信息处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案包括:判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;若目标用户回答的问题中存在样本标签的问题,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息包括:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息包括:基于所述目标用户调整后的权重值和所述目标用户回答除存在样本标签的问题之外问题的答案信息、回答所述除存在样本标签的问题之外问题的其它用户的权重值和所述其它用户回答所述除存在样本标签的问题之外问题的答案信息,确定所述问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;基于所述第一预估答案信息调整所述目标用户的权重值和其它用户的权重值,继续计算所述目标用户和所述其它用户回答所述除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整所述目标用户和所述其它用户的权重值,并将后一预估答案信息作为所述问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在确定出所述问答样本信息中问题的答案信息之后,所述方法还包括:获取在确定出所述问答样本信息中问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,基于所述目标用户对应的权重值和其它用户对应的权重值创建权重模型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于采样到的问答样本信息中问题的答案信息和所述未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息包括:若所述众包项目存在未被回答的问题,基于所述权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;基于采样到的问答样本信息中问题的答案信息、所述未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定所述众包项目发出的问题的答案信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息之后,所述方法还包括:获取在确定出所述众包项目发出的问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,并更新所述历史信息库中存储的用户的权重值。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种信息处理方法,其特征在于,包括:
从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;
从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;
根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
2.根据权利要求1所述的信息处理方法,其特征在于,根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案包括:
判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;
若目标用户回答的问题中存在样本标签的问题,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;
采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
3.根据权利要求2所述的信息处理方法,其特征在于,采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息包括:
基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;
基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;
基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
4.根据权利要求3所述的信息处理方法,其特征在于,基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息包括:
基于所述目标用户调整后的权重值和所述目标用户回答除存在样本标签的问题之外问题的答案信息、回答所述除存在样本标签的问题之外问题的其它用户的权重值和所述其它用户回答所述除存在样本标签的问题之外问题的答案信息,确定所述问答样本信息中除存在样本标签的问题之外其余问题的第一预估答案信息;
基于所述第一预估答案信息调整所述目标用户的权重值和其它用户的权重值,继续计算所述目标用户和所述其它用户回答所述除存在样本标签的问题之外其余问题的第二预估答案信息,直到前一预估答案信息与后一预估答案信息满足预设条件的情况下,停止调整所述目标用户和所述其它用户的权重值,并将后一预估答案信息作为所述问答样本信息中除存在样本标签的问题之外其余问题的答案信息。
5.根据权利要求4所述的信息处理方法,其特征在于,在确定出所述问答样本信息中问题的答案信息之后,所述方法还包括:获取在确定出所述问答样本信息中问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,基于所述目标用户对应的权重值和其它用户对应的权重值创建权重模型。
6.根据权利要求5所述的信息处理方法,其特征在于,基于采样到的问答样本信息中问题的答案信息和所述未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息包括:
若所述众包项目存在未被回答的问题,基于所述权重模型和所权重模型中每个用户选择答案信息的概率值预估出未被回答的问题的答案信息;
基于采样到的问答样本信息中问题的答案信息、所述未采样到的信息中问题的答案信息和预估出的未被回答的问题的答案信息确定所述众包项目发出的问题的答案信息。
7.根据权利要求2所述的信息处理方法,其特征在于,在采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息之后,所述方法还包括:获取在确定出所述众包项目发出的问题的答案信息时所述目标用户对应的权重值和其它用户对应的权重值,并更新所述历史信息库中存储的用户的权重值。
8.一种信息处理装置,其特征在于,包括:
第一获取单元,用于从众包项目回收到的众包数据中进行采样,获取随机采样得到的至少一组问答样本信息,其中,每组问答样本信息包括所述众包项目发出的问题和用户回答所述问题的答案信息;
第二获取单元,用于从历史信息库中获取每组问答样本信息中回答问题的每个用户的权重值,其中,所述历史信息库基于历史众包项目中的信息预先存储了多个用户的信息,及每个用户对应的权重值;
确定单元,用于根据每个用户对应的权重值和每个用户回答问题的答案信息确定所述众包项目发出的问题的答案信息。
9.根据权利要求8所述的信息处理装置,其特征在于,所述确定单元包括:
判断子单元,用于判断用户回答的问题中是否存在样本标签的问题,其中,所述样本标签的问题存在预期答案;
调整子单元,用于在目标用户回答的问题中存在样本标签的问题的情况下,基于所述目标用户回答所述样本标签的问题的答案信息调整所述目标用户的权重值;
确定子单元,用于采用期望最大化算法基于所述目标用户调整后的权重值和所述问答样本信息中除所述目标用户之外的其它回答问题的用户对应的权重值,确定所述众包项目发出的问题的答案信息。
10.根据权利要求9所述的信息处理装置,其特征在于,所述确定子单元包括:
第一确定模块,用于基于所述目标用户调整后的权重值、所述目标用户回答所述问答样本信息中除存在样本标签的问题之外问题的答案信息、所述问答样本信息中除所述目标用户之外的其它用户回答问题的答案信息和所述其它用户中各个用户对应的权重值确定出所述问答样本信息中问题的答案信息;
第二确定模块,用于基于所述目标用户调整后的权重值和所述其它用户中各个用户对应的权重值确定所述众包项目回收到的信息中未被采样到的信息中问题的答案信息;
第三确定模块,用于基于采样到的问答样本信息中问题的答案信息和未采样到的信息中问题的答案信息确定所述众包项目发出的问题的答案信息。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的信息处理方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的信息处理方法。
CN201811613726.7A 2018-12-27 2018-12-27 信息处理方法及装置、存储介质及处理器 Active CN111382144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811613726.7A CN111382144B (zh) 2018-12-27 2018-12-27 信息处理方法及装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811613726.7A CN111382144B (zh) 2018-12-27 2018-12-27 信息处理方法及装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN111382144A true CN111382144A (zh) 2020-07-07
CN111382144B CN111382144B (zh) 2023-05-02

Family

ID=71220822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811613726.7A Active CN111382144B (zh) 2018-12-27 2018-12-27 信息处理方法及装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN111382144B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150309988A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Evaluating Crowd Sourced Information Using Crowd Sourced Metadata
CN105117398A (zh) * 2015-06-25 2015-12-02 扬州大学 一种基于众包的软件开发问题自动应答方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105631600A (zh) * 2016-01-07 2016-06-01 平安科技(深圳)有限公司 车险查勘任务的发布方法及系统
GB201620714D0 (en) * 2016-12-06 2017-01-18 Microsoft Technology Licensing Llc Information retrieval system
CN106446287A (zh) * 2016-11-08 2017-02-22 北京邮电大学 面向众包场景问答系统答案聚合方法和系统
CN108197202A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 众包任务的数据校验方法、装置、服务器及存储介质
CN108549909A (zh) * 2018-04-17 2018-09-18 清华大学 基于众包的对象分类方法及对象分类系统
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN108780475A (zh) * 2016-03-31 2018-11-09 微软技术许可有限责任公司 用于虚拟辅助的个性化推论认证

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150309988A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Evaluating Crowd Sourced Information Using Crowd Sourced Metadata
CN105117398A (zh) * 2015-06-25 2015-12-02 扬州大学 一种基于众包的软件开发问题自动应答方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105631600A (zh) * 2016-01-07 2016-06-01 平安科技(深圳)有限公司 车险查勘任务的发布方法及系统
CN108780475A (zh) * 2016-03-31 2018-11-09 微软技术许可有限责任公司 用于虚拟辅助的个性化推论认证
CN106446287A (zh) * 2016-11-08 2017-02-22 北京邮电大学 面向众包场景问答系统答案聚合方法和系统
GB201620714D0 (en) * 2016-12-06 2017-01-18 Microsoft Technology Licensing Llc Information retrieval system
CN108197202A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 众包任务的数据校验方法、装置、服务器及存储介质
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN108549909A (zh) * 2018-04-17 2018-09-18 清华大学 基于众包的对象分类方法及对象分类系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仲秋雁;刘志娟;: "考虑工作者信誉的众包质量EM评估方法" *
黄正宇;陈益强;刘军发;蒋鑫龙;胡春雨;: "基于众包数据的室内定位方法和平台" *

Also Published As

Publication number Publication date
CN111382144B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN111079006B (zh) 一种消息推送方法、装置、电子设备及介质
CN107609056B (zh) 一种基于图片识别的问答处理方法与设备
CN111915020B (zh) 检测模型的更新方法、装置及存储介质
WO2015135324A1 (zh) 图片排序方法及终端
CN107122786B (zh) 一种众包学习方法及装置
CN110472154A (zh) 一种资源推送方法、装置、电子设备及可读存储介质
CN110414581B (zh) 图片检测方法和装置、存储介质及电子装置
CN108133390A (zh) 用于预测用户行为的方法和装置以及计算设备
CN109194689A (zh) 异常行为识别方法、装置、服务器及存储介质
CN106227743B (zh) 广告目标群体触达比率评估方法及装置
CN111078742A (zh) 用户分类模型训练方法、用户分类方法及装置
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN109117442A (zh) 一种应用推荐方法及装置
CN112101231A (zh) 学习行为的监控方法、终端、小程序以及服务器
CN106951232A (zh) 一种移动终端应用程序的管理方法及装置
CN111382144A (zh) 信息处理方法及装置、存储介质及处理器
CN113835973B (zh) 一种模型训练方法及相关装置
CN115983210A (zh) 表格数据增强方法、装置、设备及介质
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN115408606A (zh) 保险信息推送方法、装置、存储介质及计算机设备
CN114492310A (zh) 文本标注方法、文本标注装置、电子设备和存储介质
CN107291514A (zh) 一种卸载应用程序的方法及其装置、终端设备
CN110232393B (zh) 数据的处理方法、装置、存储介质和电子装置
CN112465227A (zh) 一种授课资料获取方法及装置
Kuhlmann et al. Approximate, computationally efficient online learning in Bayesian spiking neurons

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant