样本数据的处理方法、装置、服务器和存储介质
技术领域
本说明书属于互联网技术领域,尤其涉及一种样本数据的处理方法、装置、服务器和存储介质。
背景技术
在利用样本数据进行模型训练时,通常需要先对所使用的样本数据进行标注。
例如,通常会由负责标注的打标员根据事先确定好的标注规则对每个样本数据的属性情况进行分析判断,再根据判断结果给每个样本数据设置对应的标注信息以指示样本数据的属性特征(例如样本数据所对应的类型或级别等),完成对样本数据的标注。进而后续可以根据上述标注后的样本数据,进行具体的模型训练。
在根据标注规则对样本数据进行标注时,打标员可能受到个人的主观影响,导致单个打标员在标注时容易出现误差,使得其由单个打标员设置的标注信息往往不够准确,标注质量相对较低。因此,通常会调用多个不同的打标员同时对同一批样本数据进行标注。但是不同的打标员对于标注规则以及样本数据的理解和把握程度往往会存在差异,导致同一个样本数据被不同的打标员标注后,可能会存在多个不同的标注信息,使得在后续使用上述标注后的样本数据时会出现混乱或误差,影响样本数据的标注质量。
因此,亟需一种能够高效、准确地从被多个打标员标注过的样本数据中筛选出标注质量较高的样本数据的处理方法。
发明内容
本说明书目的在于提供一种样本数据的处理方法、装置、服务器和存储介质,以高效、准确地从多个标注过的目标样本数据中筛选出标注质量较高的目标样本数据。
本说明书提供的一种样本数据的处理方法、装置、服务器和存储介质是这样实现的:
一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
一种样本数据的处理装置,包括:获取模块,用于获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;第一确定模块,用于根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;第二确定模块,用于根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
本说明书提供的一种样本数据的处理方法、装置、服务器和存储介质,由于通过先根据已经被标注源标注过的目标样本数据所携带的标注信息,确定出能够有效反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;再根据上述标注信息熵,从多个已经被标注源标注过的目标样本数据中筛选出不同标注源标注时一致性程度相对性好、标注质量相对较高的目标样本数据作为第一目标数据用于后续使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量相对较高的目标样本数据,解决了现有方法在实施时存在的无法高效、准确地确定出标注质量较高的标注后的样本数据的技术问题。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的样本数据的处理方法的系统的结构组成的一种实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的样本数据的处理方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的样本数据的处理方法的一种实施例的示意图;
图4是本说明书实施例提供的样本数据的处理方法的流程的一种实施例的示意图;
图5是本说明书实施例提供的服务器的结构的一种实施例的示意图;
图6是本说明书实施例提供的样本数据的处理装置的结构的一种实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
考虑到基于现有的样本数据的标注方法,打标员在打标时容易受到个人的主观影响,导致标注质量无法保证。同时,如果调用多个打标员同时对同一批的样本数据进行打标,又会由于不同打标员对标注规则和样本数据得理解、把握不同,导致一个样本数据可能会有多个不同标注信息,在使用时会引起混乱,影响样本数据的标注质量。这时,基于现有方法往往无法高效、客观的地从上述标注过的样本数据筛选出标注质量较高的样本数据。尤其在需要处理的样本数据的数据量较大的情况下,如果要从大量的样本数据中准确地筛选出标注质量较高的样本数据势必会耗费掉大量时间和资源,成本相对较高,同时在筛选过程中由于没有一个能有效量化、客观的筛选依据,也容易出现错误,影响样本数据的标注质量。可见现有方法具体实施时,往往会存在无法高效、准确地筛选出标注质量高的样本数据,处理成本相对较高的技术问题。
针对上述问题以及产生上述问题的根本原因,本说明书考虑从引入一种能够反映不同打标员对同一样本数据打标时的不确定度的标注信息熵来量化不同打标员打标时的一致性程度,进而可以利用该标注信息熵作为筛选依据,从大量标注过的样本数据中筛选出质量相对较高的,例如符合预设的质量要求的样本数据作为第一目标数据以便后续使用。从而可以避免耗费大量的资源、时间对标注后的样本数据进行筛选,降低筛选时可能出现的误差,以便能高效、准确地从多个目标样本数据中筛选出标注质量较高的目标样本数据,解决了现有方法中存在的无法高效、准确地筛选出标注质量较高的标注后的样本数据,处理成本相对较高的技术问题。
本说明书实施例提供了一种样本数据的处理方法,所述样本数据的处理方法具体可以应用于包含有服务器和客户端的系统架构中。具体可以参阅图1所示,多个客户端分别用于对同一样本数据进行标注,并将标注后的样本数据发送给服务器。服务器用于接收来自不同客户端的标注后样本数据,先进行汇总,得到携带有一个或多个标注信息目标样本数据;再根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;最后根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
在本实施例中,所述客户端可以是一种应用于标注源(例如打标员等)一侧,能够实现数据采集、数据传输等功能的前端设备。具体地,所述客户端例如可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。或者,所述客户端也可以为能够运行于上述电子设备中的软件应用。例如,可以是在手机上运行的某APP等。
在本实施例中,所述服务器可以是一种应用于样本数据处理系统一侧,能够实现数据传输、数据处理等功能的后台业务服务器。具体的,所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在一个场景示例中,可以参阅图2所示,应用本说明书实施例提供的样本数据的处理方法对来自多个不同打标员的标注后的样本数据进行相应处理,以得到标注质量较高的第一目标数据,再利用上述标注质量较高的第一目标数据进行用户信用风险识别模型的训练。
在本场景示例中,T购物网站准备准备训练一个用户信用风险识别模型,以便后续可以通过该用户信用风险识别模型自动确定出该网站所拥有的大量用户的信用风险。进而可以根据用户的信用风险,确定每个用户所对应享有的购物权限(例如,可以为信用风险低的用户提供赊账权限等),从而能使得用户的购物更加便利,提高成单量。同时,通过控制提供给信用风险高的用户的购物权限,也能有效地降低网站所要承担的风险。
具体实施时,T购物网站可以先根据用户的好评数量、商户对用户的评价内容,以及用户历史还款记录等历史数据设置用于判断用户信用情况的预设的标注规则。再将上述预设的标注规则分别提供给多个不同的打标员,即打标员A、B、C、D、E进行学习,以便上述多个打标员可以基于同一个预设的标注规则,根据用户的指标数据对用户的具体信用情况进行打标。
T购物网站的系统服务器可以随机获取在该网站注册的部分用户作为样本数据,并将上述用户,以及用户的历史数据(例如,用户的好评数量、商户对用户的评价内容,以及用户历史还款记录等)分别发送给打标员A、B、C、D、E所使用的5个客户端。打标员A、B、C、D、E可以通过客户端,根据预设的标注规则,结合用户具体的历史数据对各个用户进行打标,即为各个用户设置对应的标注信息,以标注出用户的信用情况。
例如,打标员A根据预设的标注规则,结合用户甲具体的历史数据,发现用户甲的好评数量较少、商户对用户甲的评价偏向负面等,判断该用户的信用较差,因此将用户甲标注为信用较差。这时,用户甲会携带有一个标注信息,例如“信用较差”。当然,上述所列举的打标方式只是一种示意性说明。具体实施时,根据具体的应用场景还可以采用其他的合适的方式对样本数据进行打标。对此,本说明书不作限定。
打标员A、B、C、D、E在完成对样本数据的打标后,可以通过客户端将上述打标后的样本数据(即携带有标注信息的样本数据)发送给服务器。从而服务器可以得到被多个打标员共同打标后的样本数据,即目标样本数据。
需要说明的是,上述目标样本数据具体可以理解为一种被多个标注源(例如打标员)标注过的样本数据。其中,上述目标样本数据中的每一个目标样本数据对应于一个样本数据,且每一个目标样本数据分别至少携带有一个标注信息。具体的,根据标注时的标注源对预设的标注规则以及对样本数据的理解不同,上述目标样本数据中的任意一个目标样本数据可以只携带有一个标注信息,也可以同时携带有多个标注信息。
例如,当上述5个打标员在标注同一个样本数据X时给出了相同的标注信息x0,则所得到的目标样本数据只携带有一个标注信息x0,但这个标注信息实际上是来自于5个不同的打标员的。进而可以确定该标注信息x0所对应的打标员的数量为5。当上述5个打标员在标注同一个样本数据Y时由于上述5个打标员中的打标员C对样本数据Y的理解,以及对预设的标注规则的把握与其他4个打标员不同,因此,给出标注信息为y2,而其他4个打标员给出的标注信息都为y1。这时样本数据Y所对应的目标样本数据携带有两个不同的标注信息,即y1和y2。其中,y1来自于4个打标员,即打标员A、B、D、E,而y2来自于1个打标员,即打标员C。进而可以确定标注信息y1所对应的打标员的数量为4,标注信息y2所对应的打标员的数量为1。
服务器在获取了上述来自多个打标员的多个目标样本数据后,需要对多个被标注过的样本数据进行判断,从中筛选出标注质量较高(即标注较为准确、可靠)的目标样本数据用于后续的模型训练。
具体的,服务器可以根据每一个目标样本数据所携带的标注信息,确定出各个目标样本数据的标注信息熵。其中,上述目标样本数据的标注信息熵具体可以理解为一种用于衡量不同标注源对该目标样本数据所对应的样本数据标注时的不确定度的度量。通常对于一个目标样本数据而言,如果其标注信息熵的数值越小,越接近于0,则说明多个标注源对该目标样本数据所对应的样本数据的标注越趋近于一致,因此该目标样本数据的标注质量相对越高,越可靠、明确。相反,如果标注信息熵数值越大,越远离0,则说明多个标注源对该目标样本数据所对应的样本数据的标注分歧越大,因此该目标样本数据的标注质量相对较低、越不可靠,存在标注错误的可能性也越高。
在本场景示例中,服务器可以对多个目标样本数据中各个目标样本数据分别进行如下处理,以确定出各个目标样本数据的标注信息熵。具体的,以确定当前目标样本数据的标注信息熵为例。可以先统计出当前目标样本数据所携带的各个标注信息所对应的标注源的数量,以及参与标注的标注源的总数量。再根据各个标注信息所对应的标注源的数量,以及参与标注的标注源的总数量,确定各个标注信息的出现频率。再根据各个标注信息的出现频率,按照预设规则计算该当前目标样本数据所对应的标注信息熵。具体的,根据预设规则,可以将该目标样本数据所携带的各个标注信息的出现频率的对数和该标注信息的出现频率的乘积进行累加求和,得到对应该当前目标样本数据的标注信息熵。具体实施时,可以按照以下公式计算当前目标样本数据的标注信息熵:
其中,E具体可以表示为当前目标样本数据的标注信息熵,m具体可以表示为当前目标样本数据所携带的标注信息的数量,Ni具体可以表示编号为i的标注信息所对应的标注源的数量,N具体可以表示为参与标注的标注源的总数量,具体可以表示为编号为i的标注信息的出现频率。
例如,对于样本数据Y所对应的目标样本数据所携带的标注信息有两个,即分别为:y1和y2。统计y1对应的打标员数量为4个,y2对应的打标员数量为1个,参与打标的总的打标员数量为5个。因此,根据预设规则,可以计算出y1的出现频率为4/5,y2的出现频率为1/5。再根据将上述y1的出现频率的对数和y1的出现频率的乘积与y2的出现频率的对数和y2的出现频率的乘积相加,得到的和作为上述样本数据Y所对应的目标样本数据的标注信息熵。即,按照以下算式计算出标注信息熵为:
又例如,对于样本数据X所对应的目标样本数据,由于所携带的标注信息只有一个,即x0,且该标注信息所对应的打标员的数量与总的打标员数量相同,都为5个。根据预设规则,可以计算出x0的出现频率为1,进而可以计算出该目标样本数据所对应的标注信息熵为0。该标注信息熵的数值很小,等于0,因此可以判断不同打标员对样本数据X的标注是完全相同一致的,即,该目标样本数据的标注信息的不确定度较低,不同打标员在对样本数据X打标时的一致性程度较高,进而可以判断该目标样本数据的标注质量相对较高,较为准确、稳定。
服务器可以按照上述方式分别确定出各个目标样本数据的标注信息熵,进而可以充分利用标注信息熵能够反映目标样本数据所携带的标注信息的不确定度的特性,通过目标样本数据的标注信息熵来量化不同打标员对于该目标样本数据所对应的样本数据打标时的一致性程度。进而可以以目标样本数据的标注信息熵为参考依据,从多个目标样本数据中筛选出一致性较好、不确定度较低的目标样本数据,作为标注质量较高,较为可靠、准确的样本数据,即符合预设的质量要求的目标样本数据。
具体的,服务器可以根据具体情况,例如具体的应用场景,以及对标注信息的准确度的具体要求,确定可容忍的误差范围;进而可以根据上述可容忍误差范围设置对应的预设的信息熵阈值。再将各个目标样本数据的标注信息熵分别与上述预设的信息熵阈值进行数值比较,根据比较结果,从多个目标样本数据中筛选出标注信息熵小于等于预设的信息熵阈值的目标样本数据作为第一目标数据,即符合预设的质量要求的目标样本数据。
进一步,服务器可以将上述筛选出来的标注质量相对较高的,符合预设的质量要求的第一目标数据提供给该网站系统中用于模型训练的服务器。这样上述服务器可以利用上述第一目标数据进行模型训练以建立对应的用户信用风险识别模型。由于用于模型训练的是经过筛选得到的标注质量相对较高的第一目标数据,因此可以减少标注质量较差的样本数据所带来的误差影响,从而使得所训练得到的用户信用风险识别模型具有更高的准确度,减少了模型训练误差。
具体实施时,服务器可以从上述第一目标数据所携带的多个标注信息中筛选出出现频率最高的标注信息作为该第一目标数据所对应的样本数据的标注信息,再将携带有上述标注信息的样本数据用于具体的模型训练。
例如,由于样本数据Y所对应的目标样本数据的标注信息熵小于预设的信息熵阈值,因此将该目标数据确定第一目标数据。进一步,根据该目标样本数据所携带的标注信息的出现频率,即y1的出现频率:4/5,y2的出现频率1/5,从两个标注信息中筛选出出现频率最高的标注信息y1作为样本数据Y最终正式使用的标注信息,即样本数据Y最终只携带有标注信息y1。进而可以利用只携带有标注信息y1的样本数据Y进行具体的模型训练。
当然,需要说明的是,上述所列举的利用第一目标数据进行模型训练的方式只是一种示意性说明。具体实施时,根据具体情况和处理需求,也可以采用其他合适的方式利用第一目标数据进行具体的模型训练。例如,还可以将携带有多个标注信息的第一目标数据不作处理,直接用于模型训练。也可以分别标注出第一目标数据所携带的标注信息的出现频率,再将标注有出现频率的第一目标数据用于进行具体的模型训练。对此,本说明书不作限定。
在利用上述第一目标数据完成模型训练,得到对应的用户信用风险识别模型后,该网站系统服务器可以利用该用户信用风险识别模型以用户的历史数据作为输入,自动识别得到用户的信用情况,例如是信用较好,还是信用较差。进而可以根据用户的信用情况,为用户提供与其信用情况匹配的购物权限。例如为信用情况为信用较好及以上的用户提供更多的购物权限,诸如开放赊账权限,提供白条服务等等。而将信用情况为信用较差及以下的用户,暂停部分权限,并将该类用户记录系统黑名单,对其交易行为进行监控等等。
在另一个场景示例中,服务器在从多个目标样本数据中筛选出符合预设的质量的第一目标数据的同时,还可以筛选出目前不符合预设的质量要求的第二目标数据。
具体的,服务器可以根据比较结果,将目标样本数据中标注信息熵大于所述预设的信息熵阈值的目标样本数据确定为第二目标数据,即不符合预设的质量要求的目标样本数据。
需要说明的是,上述筛选出来的第二目标数据可以理解当前标注质量相对较差的标注过的样本数据。为了能够充分利用这些目标样本数据,以扩充模型训练所基于的样本数量。可以对这类目标样本数据进行重新标注。
具体的,服务器可以更换其他多个打标员,例如,调用打标员F、G、H、G、I分别根据预设的标注规则,对第二目标数据所对应的样本数据重新进行打标,得到重新标注后的样本数据。其中,重新标注后的样本数据相对于之前的第二目标数据,所携带的标注信息可能发生变化,但所对应的样本数据本身没有发生改变。重新打标时,具体可以调用新的打标员对第二目标数据所对应的样本数据进行重新打标,也可以将上述第二样本数据退回之前的打标员A、B、C、D、E,由之前的打标员重新打标。对此,本说明书不作限定。
打标员在对第二目标数据进行重新打标,得到重新标注后的样本数据后,分别再将重新标注后的样本数据发送至服务器。服务器汇总上述重新标注后的样本数据,并对重新标注后的样本数据的标注质量进行检测。
具体的,服务器可以按照与之前筛选第一目标数据、第二目标数据类似的方式,对重新标注后的样本数据的标注质量进行检测。即,服务器可以先统计所述重新标注后的样本数据所携带的新的标注信息所对应的标注源的数量;根据所述重新标注后的样本数据所携带的新的标注信息所对应的标注源的数量,按照预设规则计算出所述重新标注后的样本数据的标注信息熵。进一步,可以将重新标注后的样本数据的标注信息熵分别与预设的信息熵阈值进行比较,以确定重新标注后的样本数据是否符合预设的质量要求。
如果重新标注后的样本数据的标注信息熵小于等于预设的信息熵阈值,可以确定符合预设的质量要求,进而可以将上述重新标注后的样本数据确定为第一目标数据,保留在第一目标数据中,参与后续的模型训练。
如果重新标注后的样本数据的标注信息熵大于预设的信息熵阈值,可以确定还不符合预设的质量要求,因此还不能将上述重新标注后的样本数据确定为第一目标数据,参与后续的模型训练。
在本场景示例中,在确定出重新标注后的样本数据的标注质量还不符合预设的质量要求的情况下,还可以在调用多个打标员对上述不符合预设的质量要求的数据所对应的样本数据进行多轮标注。例如,由上述多个打标员对该部分样本数据连续进行重复3轮的打标,得到多轮标注后的样本数据,可以记为第三目标数据(即第二目标数据重新标注后的样本数据中的仍然不符合预设的质量要求的数据)。
进而可以按照之前相同的方式,分别确定上述第三目标数据中各个数据的标注信息熵。通常如果标注过程所涉及的预设的标注规则合理,参与标注的打标员对预设的标注规则的理解准确,且被打标的样本数据本身适合打标,例如不存在歧义等,通过多轮重复打标,扩大了数据量后,在正常的情况下,所确定的第三目标数据的标注信息熵的变化趋势会符合预设的变化要求,即逐步减小,甚至趋近于0。这时,可以确定第三目标数据已经符合了预设的质量要求,进而可以将符合预设的质量要求的第三目标数据确定为第一目标数据,用于后续的模型训练。
但是,如果所确定的第三目标数据的标注信息熵的变化趋势不符合预设的变化要求,即没有逐步减小,甚至趋近于0,而是依然成发散的趋势,则可以判断参与该样本数据打标的三个因数,即打标员、预设的标注规则,以及该样本数据本身中的一个或多个存在问题,导致一直无法得到标注质量较高的数据。因此,为了进一步提高标注质量,降低存在问题的因素对标注过程的影响可以分别对参与该样本数据的打标员、所涉及的预设的标注规则,以及该样本数据分别进行检查。
例如,参阅图3所示,可以调用参与该样本数据的打标员历史打标记录与其他打标员针对同一样本数据的打标记录进行比较,以确定打标员之间的差异程度是否位于合理的差异范围内。如果差异程度较大,超出了合理的差异范围,则可以判断该打标员存在问题,例如,对预设的标注规则的理解,以及对样本数据的理解不够准确。因此,单独调出该打标员对预设的标注规则进行重新学习,并对打标业务进行重新培训,以提高该打标员的打标质量等。
例如,参阅图3所示,还可以对预设的标注规则进行逻辑排查,以确定预设的标注规则是否存在逻辑漏洞,或者存在不确定性的判定规则,导致打标员在基于该预设的标注规则打标时不能稳定、一致。如果预设的标注规则存在上述问题,可以对预设的标注规则进行修改和调整,或者重新制定标注规则等。
例如,参阅图3所示,还可以对样本数据自身进行分析、检测,以确定样本数据本身是否存在容易产生歧义、引起判断混乱的内容。例如,商户对用户的评价本身就是模棱两可的,导致不同打标员在理解时可能会理解为正面评价,也可能理解为负面评价等。如果样本数据本身就比较混乱,容易产生歧义或混淆,可以确定样本数据并不适合打标。这时,可以删除该样本数据,不再利用上述样本数据进行模型训练等。
当然,需要说明的是,上述所列举的多种检查和调整方式只是示意性说明。具体实施时,根据具体情况还可以采用其他合适的方式,对于标注过程相关的标注源、预设的标注规则和样本数据中的一个或多个进行检查和调整,以提高标注质量。对此,本说明书不作限定。
在本场景示例中,具体实施时,可以按照上述方式对该网站系统涉及的标注过程循环重复进行多次的检查和调整,使得该网站系统涉及的标注过程中的各个因素,包括打标员、预设的标注规则,以及样本数据不断进行优化、改进,进而可以使得所得到标注后的样本数据具有的更高的质量,更加可靠、稳定、准确。
由上述场景示例可见,本说明书提供的样本数据的处理方法,由于通过先根据已经被标注源标注过的目标样本数据所携带的标注信息,确定出能够有效反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;再根据上述标注信息熵,从多个已经被标注源标注过的目标样本数据中筛选出不同标注源标注时一致性程度相对性好、标注质量相对较高的目标样本数据作为第一目标数据用于后续使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量相对较高的目标样本数据,解决了现有方法在实施时存在的无法高效、准确地确定出标注质量较高的标注后的样本数据的技术问题。
参阅图4所示,本说明书实施例提供了一种样本数据的处理方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容。
S41:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息。
在本实施例中,上述目标样本数据具体可以理解为一种被多个标注源标注过的样本数据。上述获取多个目标样本数据,具体实施时,可以包括以下内容:调用多个不同的标注源分别对样本数据进行标注,得到标注后的样本数据,即携带有标注信息的样本数据;再由上述多个标注分别将各自得到的标注后的样本数据发送至服务器。服务器对所获取的标注后的样本数据进行汇总合并,得到对应的目标数据。具体的,服务器可以将对应同一个样本数据的由多个标注源提供的标注后样本数据的标识信息进行合并,得到对应该样本数据的目标样本数据。这样服务器得到的目标样本数据中的各个目标样本数据可以携带有一个或多个标注信息,其中,每一个标注信息又可以与设置该标注信息的标注源对象。
在本实施例中,上述标注源具体可以理解为一种负责对样本数据进行打标的执行单位。具体打标时,标注源可以根据预设的标注规则,结合样本数据的相关数据(例如样本数据的历史数据、属性数据或者行为数据等),对样本数据所对应的属性特征进行判别;再根据判别结果,按照预设的标注规则为该样本数据设置对应的标注信息,以标注出该样本数据的属性特征,作为标注信息,从而完成对样本数据的打标。其中,上述标注信息具体可以为一种表征类型的字符,也可以是一种表征级别的字符,还可以是一种描述性的关键词等,具体实施时,可以根据具体情况和处理需要,确定对应的标注信息的内容和形式。对于上述标注信息的具体内容和形式,本说明书不作限定。
上述标注源具体还可以有包含有不同类型的标注源。例如,上述标注源具体可以是打标员,即事先学习掌握了预设的标注规则的,负责进行打标的技术人员。此外,上述标注源还可以是预先编制好的,且内嵌有预设的标注规则以及对应的判断逻辑的程序代码等等。具体实施时,可以根据具体情况和处理需要,选择合适的标注源。对于上述所使用的标注源的具体类型,本说明书不作限定。
在本实施例中,多个标注源在对同一个样本数据进行打标时,如果多个标注源设置的标注信息相同,则服务器通过汇总合并和后所得到的对应的目标样本数据只携带有一个标注信息,但该标注信息实际上来自于多个标注源,即该标注信息可以对应多个标注源。如果多个标注源中的部分标注源所设置的标注信息相互不同,则服务器通过汇总合并后所得到的对应目标样本数据会携带有多个标注信息,其中,上述多个标注信息中的各个标注信息可以分别对应设置该标注信息的标注源。
例如,当有5个打标员在标注同一个样本数据X时设置了相同的标注信息x0,则服务器所得到的目标样本数据只携带有一个标注信息x0,但这个标注信息实际上是来自于5个不同的打标员的。进而可以确定该标注信息x0所对应的打标员的数量为5。当上述5个打标员在标注另一个样本数据Y时,由于5个打标员中的打标员C对样本数据Y的理解,以及对预设的标注规则的把握与其他4个打标员不同,因此,设置标注信息为y2,而其他4个打标员给出的标注信息都为y1。这时服务器所获取的样本数据Y所对应的目标样本数据携带有两个不同的标注信息,即y1和y2。其中,y1来自于4个打标员,即打标员A、B、D、E,而y2来自于1个打标员,即打标员C。进而可以确定标注信息y1所对应的打标员的数量为4,标注信息y2所对应的打标员的数量为1。
在本实施例中,在获取目标样本数据时,为了降低标注成本,还可以使用一个或数量较少的标注源分别对样本数据进行多次重复标注,得到多次标注后的样本数据;再由服务器对上述多次重复标注后的样本数据进行汇总合并,得到目标样本数据。相应的,上述目标样本数据也携带有一个或多个标注信息,但目标样本数据中的各个标注信息不再对应的标注源的数量,而是与标注次数对应。
例如,通过一个打标软件对样本数据Z重复进行了5次标注,其中,有4次标注为z1,有1次标注为z2。因此,服务器所得到对应样本数据Z的目标样本数据携带有两个不同的标注信息,其中,z1对应的标注次数为4,z2对应的标注次数为1。
S43:根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵。
在本实施例中,上述目标数据的标注信息熵具体可以理解为一种用于衡量不同标注源对该目标样本数据所对应的样本数据标注时的不确定度的度量。通常对于一个目标样本数据而言,如果其标注信息熵的数值越小,越接近于0,则说明多个标注源对该目标样本数据所对应的样本数据的标注越趋近于一致,因此该目标样本数据的标注质量相对越高,越可靠、明确。相反,如果标注信息熵数值越大,越远离0,则说明多个标注源对该目标样本数据所对应的样本数据的标注分歧越大,因此该目标样本数据的标注质量相对较低、越不可靠,存在标注错误的可能性也越高。
在本实施例中,上述根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵,具体实施时,可以包括以下内容:统计所述目标样本数据所携带的标注信息所对应的标注源的数量;根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵。
在本实施例中,以确定多个目标样本数据中当前目标样本数据的标注信息熵为例,具体实施时,可以先统计当前目标样本数据所携带的标注信息中各个标注信息所对应的标注源的数量,以及参与当前目标样本数据所对应的样本数据标注的标注源的总数量;再根据当前目标样本数据所携带的标注信息中各个标注信息所对应的标注源的数量,以及参与当前目标样本数据所对应的样本数据标注的标注源的总数量,计算出各个标注信息的出现频率;根据各个标注信息的出现频率,按照预设规则分别计算出各个标注信息的出现频率和该出现频率的乘积,再将当前目标数据所携带的各个标注信息的出现频率和该出现频率的乘积进行求和,得到对应该当前样本数据的标注信息熵。
具体实施时,可以按照以下公式计算当前目标样本数据的标注信息熵:
其中,E具体可以表示为当前目标样本数据的标注信息熵,m具体可以表示为当前目标样本数据所携带的标注信息的数量,Ni具体可以表示编号为i的标注信息所对应的标注源的数量,N具体可以表示为参与标注的标注源的总数量,具体可以表示为编号为i的标注信息的出现频率。
需要说明的是,上述仅以确定当前目标样本数据的标注信息熵为例进行了说明。对于其他目标样本数据,可以按上述方式确定出对应的标注信息熵。本说明书在此不作赘述。
在本实施例中,当在目标样本数据获取的过程中,所涉及的标注源对同一样本数据进行过多次的标注的情况下,目标样本数据所携带的标注信息与标注次数对应。这时在确定当前目标样本数据的标注信息熵时,可以先统计当前目标样本数据所携带的标注信息中各个标注信息所对应的标注次数,以及当前目标样本数据所携带的标注信息总的标注次数;再根据当前目标样本数据所携带的标注信息中各个标注信息所对应的标注次数,以及当前目标样本数据所携带的标注信息总的标注次数,计算出各个标注信息的出现频率;根据各个标注信息的出现频率,按照预设规则分别计算出各个标注信息的出现频率和该出现频率的乘积,再将当前目标数据所携带的各个标注信息的出现频率和该出现频率的乘积进行求和,得到对应该当前样本数据的标注信息熵。
S45:根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
在本实施例中,在得到各个目标样本数据的标注信息熵后,可以充分利用标注信息熵的特性,即利用标注信息熵能够有效反映目标样本数据的标注信息的不确定度,来量化不同标注源针对同一样本数据标注时的一致性程度;进而可以根据不同标注对该样本数据标注时是否一致,来较为客观、准确地反映出标注源对该样本数据的标注质量是否符合预设的质量要求,判断标注源的标注时设置的标注信息是否较为准确、可靠,即确定所对应的目标样本数据的标注质量是否稳定、准确,具有较高的一致性和使用价值。
在本实施例中,上述第一目标数据具体可以理解为从目标样数据筛选出的标注质量符合预设的质量要求,即标注信息熵小于等于预设的信息熵阈值,较为准确、稳定,一致性较高的目标样本数据。其中,上述预设的信息熵阈值具体可以根据具体情况和精度要求灵活设定。对此,本说明书不作限定。
在本实施例中,上述根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据,具体实施时,可以包括以下内容:将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果;根据所述比较结果,将标注信息熵小于等于所述预设的信息熵阈值的目标样本数据确定为所述第一目标数据。
在本实施例中,在按照上述方式确定出第一目标数据后,进一步可以利用所确定的较为准确、可靠的第一目标数据进行模型训练,以建立相应的风险识别模型,以便后续可以利用上述风险识别模型对交易数据或者用户数据等进行风险识别,及时发现并有效规避所存在的交易风险。
在本实施例中,在得到上述第一目标数据后,可以先对上述第一目标数据进行处理后,再进行模型训练。具体的,可以从上述第一目标数据所携带的多个标注信息中筛选出出现频率最高的标注信息作为该第一目标数据所对应的样本数据的标注信息,再将携带有上述标注信息的样本数据用于具体的模型训练。当然,根据具体情况,也可以采用其他处理方式对第一目标数据进行处理后,再进行模型训练。例如,还可以分别标注出第一目标数据所携带的标注信息的出现频率,再将标注有出现频率的第一目标数据用于进行具体的模型训练。此外,还可以将上述携带有多个标注信息的第一目标数据不作处理,直接用于模型训练等。对此,本说明书不作限定。
当然,需要说明的是,上述所列举利用第一目标数据进行模型训练,以建议相应的风险识别模型只是一种示意性说明。具体实施时,根据具体应用场景以及处理需求,还可以利用第一目标数据进行其他方面的应用。对此,本说明书不作限定。
在本实施例中,由于通过先根据已经被标注源标注过的目标样本数据所携带的标注信息,确定出能够有效反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;再根据上述标注信息熵,从多个已经被标注源标注过的目标样本数据中筛选出不同标注源标注时一致性程度相对性好、标注质量相对较高的目标样本数据作为第一目标数据用于后续使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量相对较高的目标样本数据,解决了现有方法在实施时存在的无法高效、准确地确定出标注质量较高的标注后的样本数据的技术问题。
在一个实施例中,在根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据后,所述方法具体实施时,还可以包括以下内容:利用所述第一目标数据,进行风险识别模型的训练。
在本实施例中,具体实施时,可以利用第一目标数据对对应的神经网络模型进行训练学习,以建立上述风险识别模型。
在一个实施例中,上述获取多个目标样本数据,具体实施时,可以包括以下内容:获取多个标注后的样本数据;确定标注后的样本数据的标注源的数量;从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据。
在本实施例中,上述标注后的样本数据具体可以是由多个标注源分别对样本数据进行一次或多次标注后得到的样本数据。
在本实施例中,考虑到只利用一个标注源对样本数据进行标注由于没有其他标注源的标注作为参照,同时一个标注源在标注时也容易出现误差,因此具体实施时,可以先从标注后的样本数据中筛选出至少被两个或者两个以上的标注源标注过的样本数据作为目标样本数据,以便后续从该目标样本数据中筛选出标注质量较高的第一目标数据。
在一个实施例中,在从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据后,所述方法具体实施时,还可以包括以下内容:从所述多个标注后的样本数据中筛选出标注源的数量等于1的标注后的样本数据作为第二目标数据。
在本实施例中,上述第二目标数据具体可以理解为一种标注质量存在较高风险,容易出现标注误差的标注后的样本数据。
在本实施例中,考虑到如果一个样本数据只被一个标注源标注过,由于一个标注源标注时由于标注源本身容易因为一些偶然的因素,或者当标注源是打标员时容易由于个人主观因素等原因导致出现标注误差,因此认为这类只有一个标注源标注得到的标注后的样本数据具有相对较高的可能性存在错误。因此,可以预先将这类标注后的样本数据按照上述方式筛选处理,以便后续进行相应处理提高标注质量后再使用,避免标注误差影响模型训练。
在一个实施例中,上述根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵,具体实施时,可以包括以下内容:统计所述目标样本数据所携带的标注信息所对应的标注源的数量;根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵。
在本实施例中,上述根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵,具体实施时,可以按照以下公式计算当前目标样本数据的标注信息熵:
其中,E具体可以表示为当前目标样本数据的标注信息熵,m具体可以表示为当前目标样本数据所携带的标注信息的数量,Ni具体可以表示编号为i的标注信息所对应的标注源的数量,N具体可以表示为参与标注的标注源的总数量,具体可以表示为编号为i的标注信息的出现频率。
在本实施例中,需要补充的是,当目标样本数据在获取的过程中,目标样本数据所对应的样本数据被同一个标注源进行过多次标注后,目标样本数据所携带的各个标注信息可以与标注次数对应。相应的,上述根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵,具体实施时,还可以包括以下内容:统计所述目标样本数据所携带的标注信息所对应的标注次数;根据所述目标样本数据所携带的标注信息所对应的标注次数,按照预设规则计算出所述目标样本数据的标注信息熵。即,可以利用标注信息所对应的标注次数替换上述计算公式中的Ni,利用目标样本数据所携带的所用的标注信息总的标注次数替换上述计算公式中的N,进而可以计算出该场景下的目标样本数据的标注信息熵。
在一个实施例中,上述根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据,具体实施时,可以包括以下内容:将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果;根据所述比较结果,将标注信息熵小于等于所述预设的信息熵阈值的目标样本数据确定为所述第一目标数据。
在本实施例中,标注质量符合预设的质量要求的目标样本数据具体可以理解为目标样本数据中标注信息熵小于等于预设的信息熵阈值,即不同标注源标注时一致性较好,所携带的标注信息相对较为准确、可靠的目标样本数据。
在本实施例中,上述预设的信息熵阈值的具体数值可以根据具体情况和精度要求灵活设置。对此,本说明书不作限定。
在一个实施例中,在将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果后,所述方法具体实施时,还可以包括以下内容:根据所述比较结果,将标注信息熵大于所述预设的信息熵阈值的目标样本数据确定为第二目标数据;重新标注所述第二目标数据所对应的样本数据。
在本实施例中,目标样本数据中标注信息熵大于所述预设的信息阈值的目标样本数据,由于不同标注源标注时的差异较大、一致性较差,因此判断这类目标样本数据具有较高风险不够准确、可靠,即标注质量不符合预设的质量要求的目标样本数据。为了避免标注误差代入后续的模型训练,因此将这类目标样本数据确定为了第二目标数据,而不直接使用这类目标样本数据进行模型训练。
在一个实施例中,为了充分利用样本数据,减少样本数据的浪费,同时也为了扩充模型训练所基于的样本数据量,使得所训练的模型相对更加精确。对于标注质量不符合预设的质量要求的目标样本数据可以先不舍弃,而是对先该类目标样本数据所对应的样本数据进行重新标注,得到对应的重新标注后的样本数据;在重新标注后的样本数据的标注质量符合预设的质量要求的情况,再将重新标注后的样本数据确定为第一目标数据,参与模型训练等应用。
在一个实施例中,上述重新标注所述第二目标数据所对应的样本数据,具体实施时,可以包括以下内容:调用多个预设标注源按照预设的标注规则分别对所述第二目标数据所对应的样本数据进行标注,得到重新标注后的样本数据;检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求;在确定所述重新标注后的样本数据的标注质量符合预设的质量要求的情况下,将所述重新标注后的样本数据确定为第一目标数据。
在本实施例中,上述检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求,具体实施时,可以包括以下内容:按照之前确定目标样本数据的标注信息熵的方式确定出重新标注后的样本数据的标注信息熵;根据预设的信息熵阈值和重新标注后的样本数据的标注信息熵,确定重新标注后的样本数据的标注质量是否符合预设的质量要求。
如果重新标注后的样本数据的标注信息熵小于等于上述预设的信息熵阈值,则可以确定重新标注后的样本数据的标注质量符合预设的质量要求。因此,可以将重新标注后的样本数据确定为第一目标数据,以参与包括模型训练等具体应用。
如果重新标注后的样本数据的标注信息熵大于上述预设的信息熵阈值,则可以确定重新标注后的样本数据的标注质量仍然不符合预设的质量要求,仍然具有较高的误差风险。
在一个实施例中,在确定重新标注后的样本数据的标注质量仍然不符合预设的质量要求的情况下,进一步考虑到一个样本数据如果再次标注后仍然不符合预设的质量要求,这时可能是由于偶然因素造成的,也有可能是因为标注过程中所涉及到的一些固有因素本身存在问题导致出现标注误差。例如可能参与标注的标注源、标注时所基于的预设的标注规则,以及被标注的样本数据本身等中一个或多个存在问题,导致频繁出现标注误差。这时,可以作进一步检测处理,以确定导致第二次标注质量不符合预设的质量要求的原因具体是偶然因素,还是标注过程中涉及到的固有因素造成的。
在本实施例中,在检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求后,所述方法具体实施时,还可以包括以下内容:在确定所述重新标注后的样本数据的标注质量不符合预设的质量要求的情况下,调用多个预设标注源按照预设的标注规则对所述第二目标数据所对应的样本数据进行多轮标注,得到多轮标注后的样本数据作为第三目标数据;确定所述第三目标数据的标注信息熵;检测所述第三目标数据的标注信息熵的变化趋势是否符合预设的变化要求;在确定所述第三目标数据的标注信息熵的变化趋势不符合预设的变化要求的情况下,对以下至少之一进行检查和调整:标注源、预设的标注规则和样本数据。
在本实施例中,上述调用多个预设标注源按照预设的标注规则对所述第二目标数据所对应的样本数据进行多轮标注,得到多轮标注后的样本数据作为第三目标数据,具体实施时,可以包括:调用多个预设标注源按照预设规则对第二目标数据所对应的样本数据分别进行多轮重复标注,得到第三目标数据,这样可以降低偶然因素产生的影响。
在本实施例中,上述确定所述第三目标数据的标注信息熵,具体实施时,可以参照确定目标样本数据的标注信息熵的方式,来确定第三目标数据的标注信息熵。对此,本说明书不再赘述。
在本实施例中,通常如果标注过程所涉及的预设的标注规则合理,参与标注的标注源对预设的标注规则的理解、使用准确,且被打标的样本数据本身适合打标,例如不存在歧义等。通过多轮重复打标,扩大了数据量,减少了偶然因素的影响后,在正常的情况下,所确定的第三目标数据的标注信息熵的变化趋势会符合预设的变化要求,即逐步减小,甚至趋近于0。因此,可以根据上述确定的第三目标数据的标注信息熵,确定出第三目标数据的标注信息熵的变化趋势;再将所确定出的第三目标数据的标注信息熵的变化趋势与预设的变化要求进行比照。
如果符合预设的变化要求,则说明所确定的第三目标数据的标注质量符合预设的质量要求,进而可以将上述第三目标数据确定为第一目标数据,参与后续的模型训练等应用。并且可以确定之前频繁出现的标注误差大概率是偶然因素导致,标注过程中所涉及到的固有因素,不存在问题。因此,可以对标注过程所涉及的固有因素作改变,继续使用。
如果不符合预设的变化要求,则可以确定在排除偶然因素的影响所确定的第三目标数据的标注质量仍然不符合预设的质量要求。并且可以确定标注过程中所涉及到的固有因素,例如包括标注源、标注规则或者样本数据中的一个或多个可能存在问题,导致频繁出现标注误差。进而,可以有针对性地分别对标注过程中涉及到的固有因素:标注源、预设的标注规则以及样本数据本身分别进行检查,在确定有问题的情况下,再有针对性地进行修改调整,以优化、改善所基于的标注过程所涉及的固有因素,从根源上整体提高标注质量。
例如,参阅图3所示,可以调用参与该样本数据的打标员历史打标记录与其他打标员针对同一样本数据的打标记录进行比较,以确定打标员之间的差异程度是否位于合理的差异范围内。如果差异程度较大,超出了合理的差异范围,则可以判断该打标员存在问题,例如,对预设的标注规则的理解,以及对样本数据的理解不够准确。因此,单独调出该打标员对预设的标注规则进行重新学习,并对打标业务进行重新培训,以提高该打标员的打标质量等。
例如,参阅图3所示,还可以对预设的标注规则进行逻辑排查,以确定预设的标注规则是否存在逻辑漏洞,或者存在不确定性的判定规则,导致打标员在基于该预设的标注规则打标时不能稳定、一致。如果预设的标注规则存在上述问题,可以对预设的标注规则进行修改和调整,或者重新制定标注规则等。
例如,参阅图3所示,还可以对样本数据自身进行分析、检测,以确定样本数据本身是否存在容易产生歧义、引起判断混乱的内容。例如,商户对用户的评价本身就是模棱两可的,导致不同打标员在理解时可能会理解为正面评价,也可能理解为负面评价等。如果样本数据本身就比较混乱,容易产生歧义或混淆,可以确定样本数据并不适合打标。这时,可以删除该样本数据,不再利用上述样本数据进行模型训练等。
当然,需要说明的是,上述所列举的对标注过程所涉及的固有因素进行检查和调整的方式只是一种示意性说明。具体实施时,根据具体情况还可以采用其他合适的方式,对于标注过程所涉及的包括标注源、预设的标注规则和样本数据等固有因素中的一个或多个进行检查和调整,以提高标注质量。对此,本说明书不作限定。
由上可见,本说明书实施例提供的样本数据的处理方法,由于通过先根据已经被标注源标注过的目标样本数据所携带的标注信息,确定出能够有效反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;再根据上述标注信息熵,从多个已经被标注源标注过的目标样本数据中筛选出不同标注源标注时一致性程度相对性好、标注质量相对较高的目标样本数据作为第一目标数据用于后续使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量相对较高的目标样本数据,解决了现有方法在实施时存在的无法高效、准确地确定出标注质量较高的标注后的样本数据的技术问题;还通过调用多个预设标注源对对标注质量不符预设的质量要求的第二目标数据所对应的样本数据重新进行多轮标注,再检测标注后的样本数据的标注质量是否符合预设的质量要求,进而可以根据检测结果对标注过程中涉及到的标注源、预设的标注规则以及样本数据本身进行检查和相应调整,从而能有针对性地对标注源的标注过程进行改进,提高样本数据的标注质量。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
为了能够更加准确地完成上述指令,参阅图5所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口501、处理器502以及存储器503,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口501,具体可以用于获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;
所述处理器502,具体可以用于根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据;
所述存储器503,具体可以用于存储处理器502所基于的相应的指令程序。
在本实施例中,所述网络通信端口501可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器502可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器503可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述样本数据的处理方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图6所示,在软件层面上,本说明书实施例还提供了一种样本数据的处理装置,该装置具体可以包括以下的结构模块:
获取模块601,具体可以用于获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;
第一确定模块602,具体可以用于根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;
第二确定模块603,具体可以用于根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
在一个实施例中,所述装置具体还可以包括应用模块,具体可以用于利用所述第一目标数据,进行风险识别模型的训练。
在一个实施例中,所述获取模块601具体可以包括以下结构单元:
第一获取单元,具体可以用于获取多个标注后的样本数据;
第一确定单元,具体可以用于确定标注后的样本数据的标注源的数量;
第一筛选单元,具体可以用于从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据。
在一个实施例中,所述获取模块601具体还可以包括第二筛选单元,具体可以用于从所述多个标注后的样本数据中筛选出标注源的数量等于1的标注后的样本数据作为第二目标数据。
在一个实施例中,所述第一确定模块602具体可以包括以下结构单元:
统计单元,具体可以用于统计所述目标样本数据所携带的标注信息所对应的标注源的数量;
计算单元,具体可以用于根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵。
在一个实施例中,所述第二确定模块603具体可以包括以下结构单元:
比较单元,具体可以用于将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果;
第二确定单元,具体可以用于根据所述比较结果,将标注信息熵小于等于所述预设的信息熵阈值的目标样本数据确定为所述第一目标数据。
在一个实施例中,所述装置具体还可以包括标注模块,具体可以用于根据所述比较结果,将标注信息熵大于所述预设的信息熵阈值的目标样本数据确定为第二目标数据;重新标注所述第二目标数据所对应的样本数据。
在一个实施例中,所述标注模块具体可以包括以下结构单元:
第一标注单元,具体可以用于调用多个预设标注源按照预设的标注规则分别对所述第二目标数据所对应的样本数据进行标注,得到重新标注后的样本数据;
第一检测单元,具体可以用于检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求;
第三确定单元,具体可以用于在确定所述重新标注后的样本数据的标注质量符合预设的质量要求的情况下,将所述重新标注后的样本数据确定为第一目标数据。
在一个实施例中,所述装置具体还看包括校正模块,所述校正模块包括以下结构单元:
第二标注单元,具体可以用于在确定所述重新标注后的样本数据的标注质量不符合预设的质量要求的情况下,调用多个预设标注源按照预设的标注规则对所述第二目标数据所对应的样本数据进行多轮标注,得到多轮标注后的样本数据作为第三目标数据;
第四确定单元,具体可以用于确定所述第三目标数据的标注信息熵;
第二检测单元,具体可以用于检测所述第三目标数据的标注信息熵的变化趋势是否符合预设的变化要求;
校正单元,具体可以用于在确定所述第三目标数据的标注信息熵的变化趋势不符合预设的变化要求的情况下,对以下至少之一进行检查和/或调整:标注源、预设的标注规则和样本数据。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的样本数据的处理装置,由于通过第一确定模块先根据已经被标注源标注过的目标样本数据所携带的标注信息,确定出能够有效反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;再通过第二确定模块根据上述标注信息熵从多个已经被标注源标注过的目标数据中筛选出不同标注源标注时一致相对性程度相对较好、标注质量相对高的目标样本数据作为第一目标数据来使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量较高的目标样本数据,解决了现有方法中存在的无法高效、准确地筛选出标注质量较高的标注后的样本数据,处理成本相对较高的技术问题。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。