CN109784382A - 标注信息处理方法、装置以及服务器 - Google Patents
标注信息处理方法、装置以及服务器 Download PDFInfo
- Publication number
- CN109784382A CN109784382A CN201811616861.7A CN201811616861A CN109784382A CN 109784382 A CN109784382 A CN 109784382A CN 201811616861 A CN201811616861 A CN 201811616861A CN 109784382 A CN109784382 A CN 109784382A
- Authority
- CN
- China
- Prior art keywords
- sample
- marked
- mark
- detected
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种标注信息处理方法、装置以及服务器。所述方法包括:对标注节点的标注行为进行检测;若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本;对所述待检测已标注样本的标注结果进行判断;若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。本方法通过实时的对生成的已标注样本的标注结果进行检测的方式,使得可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况下可以及时的反馈到标注节点,进而提升了样本的标注过程的准确性以及时效性。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种标注信息处理方法、装置以及服务器。
背景技术
随着计算机技术的发展,更多的图像检测任务都可以配置给机器来完成。例如,对于一些直播图像或者视频内容的检测等。其中,机器在识别直播图像或者视频内容的过程中通常会基于一定的模型来进行识别。而机器所依靠的这些模型通常是基于前期标注的样本进行训练得到的。而样本的标注的准确性以及时效性还有待提升。
发明内容
鉴于上述问题,本申请提出了一种标注信息处理方法、装置以及服务器,以改善上述问题。
第一方面,本申请提供了一种标注信息处理方法,所述方法包括:对标注节点的标注行为进行检测;若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本;对所述待检测已标注样本的标注结果进行判断;若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
第二方面,本申请提供了一种标注信息处理装置,所述装置包括:节点检测单元,用于对标注节点的标注行为进行检测;待检测样本获取单元,用于若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本;标注结果判断单元,用于对所述待检测已标注样本的标注结果进行判断;回滚单元,用于若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
第三方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种标注信息处理方法、装置以及服务器,通过对标注节点的标注行为进行检测,并且在检测到所述标注节点有已标注样本生成后,就开始从生成的所述已标注样本中获取待检测已标注样本,对所述待检测已标注样本的标注结果进行判断,若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。从而通过实时的对生成的已标注样本的标注结果进行检测的方式,使得可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况情况下可以及时的反馈到标注节点,进而提升了样本的标注过程的准确性以及时效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种信息系统的结构示意图;
图2示出了本申请实施例提出的一种检测界面示意图;
图3示出了本申请实施例提出的一种信息系统的架构示意图;
图4示出了本申请实施例提出的一种标注信息处理方法的交互示意图;
图5示出了本申请另一实施例中提出的一种标注信息处理方法的流程图;
图6示出了本申请再一实施例中提出的一种标注信息处理方法的流程图;
图7示出了本申请又一实施例中提出的一种标注信息处理方法的流程图;
图8示出了本申请又一实施例中提出的一种标注信息处理方法的流程图;
图9示出了本申请提出的一种标注信息处理装置的结构框图;
图10示出了本申请提出的另一种标注信息处理装置的结构框图;
图11示出了本申请的用于执行根据本申请实施例的标注信息处理方法的服务器的结构框图;
图12示出了本申请实施例的用于保存或者携带实现根据本申请实施例的标注信息处理方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
请参阅图1,示出了本申请实施例提供的标注信息处理方法及装置的应用场景图,如图1所示,本申请实施例提供的标注信息处理方法及装置可以应用于图1所示的信息系统100中。在该信息系统100中包括有标注节点110以及检测节点120。
其中,标注节点110用于对样本进行标注,检测节点120用于对标注节点110标注后生成的已标注样本的标注结果进行检测。需要说明的是,标注节点110可以包括有多个标注设备,其中该标注设备可以为智能手机、平板电脑或者计算机等。作为一种方式,在标注设备中可以显示用户操作界面以便用户对样本进行标注。其中,该用户操作界面可以客户端的方式进行显示,也可以以网页的形式进行显示。例如,如图2所示的用户操作界面中,显示有多个样本,而在该用户操作界面中,可以通过显示打钩或者显示叉的方式来标识不同的标注结果。类似的,在检测节点,也可以通过如图2所示的界面标识对于已标注样本的标注结果的不同检测结果。
随着计算机技术与数学计算的相结合,人们将更多的任务交给了机器去执行。例如,配置机器去识别网络直播中的图像是否有违规内容,再例如配置机器去识别网络留言中是否有违规内容等。其中,可以直接执行识别任务的机器通常是基于预先训练好的模型来执行的识别任务,而该模型在训练过程中需要基于已标注样本进行训练。那么图1中的标注节点110执行的就是对于样本的标注,进而输出已标注样本。然后,检测节点120会对已标注样本的标注结果进行检测,以便检测出已标注样本的标注结果是否准确。例如,标注节点110输出有已标注样本A为违规内容,对于该已标注样本A,检测节点120对进一步的检测该已标注样本A是否真的为违规内容。
其中,作为一种方式,标注节点以及检测节点可以均运行于同一个服务器中。在这种情况下,包括标注节点以及检测节点的信息系统运行于一个服务器中,而标注节点以及检测节点可以看做是该服务器中两个独立运行的软件模块。而标注设备以及检测设备可以与该同一个服务器连接。
作为另外一种方式,标注节点以及检测节点可以分别基于不同的服务器来实现。在这种情况下,如图2所示,在图3所示的信息系统中,标注节点110包括有多个标注设备111以及服务器112。检测节点120包括有多个检测设备121以及服务器122。其中,标注设备111用于对还未标注的样本进行标注,进而将标出结果输出到服务器112中进行存储。而服务器112可以将已标注样本发送到检测节点120的服务器122中,然后服务器122再按照一定的规则将已标注样本分发到多个检测设备121中进行检测。
发明人发现在一种标注信息处理方法中,是将所有的样本进行标注后,再统一对所有的已标注样本的标注结果进行检测,在检测到有标注错误的样本后,再对标注错误的样本进行重新标注。
对于上述标注信息处理方法,发明人发现如果是将所有的样本进行标注后,再统一对所有的已标注样本的标注结果进行检测,这样不利于及时的发现标注错误的样本,进而也不利于及时的对标注错误的标注人员进行纠正,从而不利于快速的提升标注准确性。因此,发明人提出了本申请中可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况情况下可以及时的反馈到标注节点,进而提升了样本的标注过程的准确性以及时效性的标注信息处理方法、装置以及服务器。
下面先对本申请实施例提供的一种标注信息处理方法所要涉及的到流程执行节点以及交互关系进行介绍。
如图4所示,本申请实施例提供的一种标注信息处理方法包括:
S110:标注节点进行样本分配。
其中,需要说明的是,标注节点会对应有多个进行标注设备,在进行标注的过程中可以是标注设备自行进行标注也是是由用户操作标注设备进行标注。那么在进行分配的过程中,标注节点可以按照当前需要标注的样本的数量均分到多个标注设备处。
S120:检测节点对标注节点的标注行为进行检测。
S130:若检测节点检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本。
S140:对所述待检测已标注样本的标注结果进行判断。
S150:若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
S160:标注节点对被返回的已标注样本进行重新分配。
S170:标注节点对被返回的已标注样本进行重新标注。
上面内容只是概括性的对本申请实施例所涉及到的流程执行节点以及交互关系进行介绍,后续会再对每个步骤的具体内容以及各个节点的具体所要执行的内容进行介绍。其中,需要说明的是,若检测节点和标注节点是均运行在同一个服务器上的,那么标注节点和检测节点可以分别看做两个软件模块。而若检测节点和标注节点是分别运行在不同的服务器上的,那么检测节点和标注节点可以分别被理解为一个服务器。
下面将结合附图具体描述本申请的各实施例。
请参阅图5,本申请实施例提供的一种标注信息处理方法,应用于服务器,所述方法包括:S210到S240。其中:
S210:对标注节点的标注行为进行检测。
其中,标注节点在开始进行样本标注以后,会开始生成已标注样本。为了便于及时的发现标注节点已经生成有已标注样本,服务器会实时或者周期性的对标注节点的标注行为进行检测,从而便于实现在标注节点有已标注样本生成的情况下及时触发开始后续的对已标注样本的标注结果进行判断的步骤。
需要说明的是,对于包括标注节点以及检测节点的信息系统的架构不同,具体执行对标注节点的标注行为进行检测的执行设备可以不同。作为一种方式,若标注节点以及检测节点均运行在同一个服务器上,在这种情况下,标注节点以及检测节点为两个软件模块,进而是由检测节点来执行对标注节点的标注行为进行检测。
其中,检测节点可以通过多种方式来对标注节点的标注行为进行检测。
作为一种方式,可以在服务器中建立存储样本的信息的数据表。具体的,可以给每个样本均配置一个表征是否已经被标注的字段以及配置一个记录标注结果的字段。在这种方式中,与标注节点运行在同一个服务器检测节点可以通过读取前述数据表中的数据,进而判定是否有字段的内容表征已经被标注,若检测到有字段的内容表征已经被标注,那么就可以将字段的内容表征已经被标注对应的样本确定为生成的已标注样本。
如下表所示:示出了一个记录样本的信息的数据表。
ID | Category | Is_mark | Mark_res |
1 | Pic | 0 | |
2 | Pic | 0 | |
3 | Pic | 0 |
表1
在该数据表中有字段“Category”、字段“Is_mark”以及字段“Mark_res”。其中,字段“Category”用于记录样本的类型,而字段“Is_mark”用于记录样本是否被标注,字段“Mark_res”用于记录标注的结果。那么在这种情况下,服务器中运行的检测节点就可以通过检测上述数据表中的字段“Is_mark”以及字段“Mark_res”的内容来实现对标注节点的标注行为进行检测,进而识别是否有已标注样本生成。例如,对于表1中所显示的字段的内容,字段“Is_mark”的内容均为0(其中,0表示还未被标注,1表示已经被标注),而字段“Mark_res”均为空,那么检测节点会识别到当前还没有已标注样本生成。
ID | Category | Is_mark | Mark_res |
1 | Pic | 1 | 1 |
2 | Pic | 1 | 1 |
3 | Pic | 0 |
表2
而若标注节点开始进行样本标注并且记录样本的信息的数据表中的内容更新为表2中的内容后。检测节点可以识别到ID为1的样本和ID为2的样本的字段“Is_mark”均更新为1,那么检测节点就可以识别到ID为1的样本和ID为2的样本为生成的已标注样本。
再者,作为另外一种方式,检测节点可以将已标注样本输出到一个指定的存储区域进行存储,在这种情况下,检测节点可以通过该指定的存储区域是否有数据存入进而实现识别是否有已标注样本生成。可以理解的是,若检测节点配置的用于存储已标注样本的存储区域为存储区域A,那么检测节点可以通过实时或者定期的检测该存储区域A中是否有数据写入的方式实现对标注节点的标注行为进行检测,进而通过检测该存储区域A中是否有数据写入来实现对于生成的已标注样本进行检测。例如,可选的,标注节点配置文件夹A为前述指定的存储区域。那么检测节点若检测到该文件夹A中存储有样本后,就将存储的样本识别为生成的已标注样本,然后将识别到的已标注样本转移到其他的存储区域,进而保证该指定的存储区域中存储的都是还未检测的已标注样本。
此外,作为再一种方式,可以是由用户通过操作标注节点对应的标注设备实现对样本进行的标注。那么可选的,在检测到标注设备进入到标注界面以后可以向检测节点发送一触发信号,该触发信号表征标注节点已经开始或者即将开始进行标注,而检测节点在接收到该触发信号以后才会开始对标注节点的标注行为进行检测,进而实现检测节点可以及时识别到已生成样本的同时,还可以实现提升检测节点的识别有效率,避免在检测节点还未开始进行标注的情况下,过早的开始对标注节点的标注行为进行检测,造成资源浪费。
那么基于上述再一种方式,检测节点可以在接收到触发信号以后再开始对数据表进行检测,或者再开始对指定的存储区域进行检测。
需要说明的是,前述的检测节点对标注节点的标注行为进行检测的多种方式可以在本申请实施例中所涉及的多种信息系统架构中运行。
例如,若包括检测节点以及标注节点的信息系统的架构如图3所示,那么对于前述所涉及的存储样本的信息的数据表可以存储在服务器112中,也可以存储在服务器122中。若存储样本的信息的数据表存储在服务器112中,那么运行在服务器122的检测节点需要通过网络执行检测。而若存储样本的信息的数据表存储在服务器122中,那么运行在服务器122的检测节点可以直接在本地执行检测。
相应的,若包括检测节点以及标注节点的信息系统的架构如图3所示,那么对于前述所涉及的用于存储已标注样本的指定存储区域可以配置在服务器112中,也可以配置在服务器122中。若用于存储已标注样本的指定存储区域配置在服务器112中,那么运行在服务器122的检测节点需要通过网络执行检测。而若用于存储已标注样本的指定存储区域配置在服务器122中,那么运行在服务器122的检测节点可以直接在本地执行检测。
S220:若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本。
其中,检测节点可以将获取的已标注样本均作为待检测已标注样本,也可以从生成的所述已标注样本中获取部分作为待检测已标注样本。而对于是将获取的已标注样本均作为待检测已标注样本,还是从生成的所述已标注样本中获取部分作为待检测已标注样本,检测节点可以基于多种方式来确定。
作为一种方式,检测节点可以检测当前进行标注的标注设备的数量,以及进行检测的检测设备的数量,并将进行标注的标注设备的数量与进行检测的检测设备的数量进行比对,若识别到进行标注的标注设备的数量大于进行检测的检测设备的数量,那么为了便于后续可以快速的完成检测,检测节点可以按照一定的比例从获取到的已标注样本中抽取部分作为待检测已标注样本。
作为另外一种方式,检测节点可以根据当前配置的检测时限来确定待检测已标注样本的数量。在这种方式下,检测时限可以由用户进行配置,例如,用户可以配置对于所有的已标注样本需要在1小时内检测完成,那么这里的1小时就可以看做检测时限。此外,检测时限也可以由检测节点识别生成。
S230:对所述待检测已标注样本的标注结果进行判断,判断待检测已标注样本的标注结果是否满足目标条件。
可以理解的是,本申请实施例中所提及的标注结果可以表征已标注样本的实际标注内容。例如,对于某一个已标注样本的标注结果可以为“是违规内容”或者“不是违规内容”。而当待检测已标注样本为多个时,多个的待检测已标注样本的标注结果可以为标注准确率。其中,标注准确率为标注准确的样本的数量与所有的待检测已标注样本的数量的比值。
那么在这种情况下,对所述待检测已标注样本的标注结果进行判断包括将待检测已标注样本的标注准确率与目标准确率进行比对,若所述标注准确率不大于所述目标准确率,判定所述待检测已标注样本的标注结果不满足目标条件。
S240:若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
若待检测已标注样本是按照一定的比例从当次获取的已标注样本中抽取的,那么在检测到待检测已标注样本的标注结果不满足目标条件后,检测节点会判定当次获取的已标注样本整体上的标注结果不达标,会将当次获取的已标注样本均返回到所述标注节点,以便标注节点可以重新进行标注。
S250:若判定所述待检测已标注样本的标注结果满足目标条件,将所述已标注样本进行输出。
需要说明的是,若待检测已标注样本是按照一定的比例从当次获取的已标注样本中抽取的,那么在检测到待检测已标注样本的标注结果满足目标条件后,会将当次获取的已标注样本均进行输出。
作为一种方式,检测节点可以直接将要输出的已标注样本输出到指定的机器学习模型中,也可以输出到目标存储区域进行存储。
作为一种方式,检测节点可以实时对所述待检测已标注样本的标注结果进行判断的判断进度,若检测到在指定周期内所述判断进度表征未完成;触发所述标注节点停止生成已标注样本,从而避免在检测节点有过多的已标注样本被积压。
再者,对于在将所述生成的已标注样本返回到所述标注节点进行重新标注的过程中,可以先判定当前是否满足回滚条件,若检测到满足所述回滚条件,将所述待检测已标注样本返回到所述标注节点。其中,若有大量的已标注样本返回到标注节点进行重新标注,可能会造成整体的标注效率降低,那么作为一种方式,回滚条件可以为当前已经被返回的已标注样本数量的值小于回滚阈值,或者也可以为当前标注节点等待被标注的样本的数量小于标注阈值。
本申请提供的一种标注信息处理方法,通过对标注节点的标注行为进行检测,并且在检测到所述标注节点有已标注样本生成后,就开始从生成的所述已标注样本中获取待检测已标注样本,对所述待检测已标注样本的标注结果进行判断,若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。从而通过实时的对生成的已标注样本的标注结果进行检测的方式,使得可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况下可以及时的反馈到标注节点,进而提升了样本的标注过程的准确性以及时效性。可以理解的是,其中的达标是指标注结果满足目标条件。
请参阅图6,本申请实施例提供的一种标注信息处理方法,应用于服务器,所述方法包括:S310到S350。其中:
S310:对标注节点的标注行为进行检测。
S320:若检测到所述标注节点有已标注样本生成,将所述已标注样本进行分片,得到多个分片。
其中,对生成的已标注样本进行分片可以理解为将生成的已标注样本分成多个部分,每个分片会包括一部分的已标注样本。例如,若获取到的已标注样本包括已标注样本A、已标注样本B、已标注样本C、已标注样本D、已标注样本E以及已标注样本F。那么若将该获取到的已标注样本进行分片可以得到第一分片以及第二分片,其中,第一分片可以包括已标注样本A、已标注样本B、已标注样本C,而第二分片可以包括有已标注样本D、已标注样本E以及已标注样本F。
而在本申请实施例中,可以有多种分片的方式。
作为一种方式,可以按照指定的监控周期将所述已标注样本进行分片,得到多个分片。
可以理解的是,对于监控周期可以由用户预先配置。例如,可以配置监控周期为5分钟,也可以配置监控周期为10分钟等。那么在这种情况下,后续在进行分片的过程中,可以按照监控周期的时长进行分片,那么一个分片所包括的已标注样本则表征一个监控周期内所生成的已标注样本。还是以前述的已标注样本A、已标注样本B、已标注样本C、已标注样本D、已标注样本E以及已标注样本F为例。在监控周期为5分钟的情况下,若识别到已标注样本A、已标注样本B为标注开始时刻起5分钟内生成的,那么就将已标注样本A、已标注样本B分为第一分片,而若识别到已标注样本C、已标注样本D为标注开始时刻起5分钟到10分钟内生成的,那么就将已标注样本A、已标注样本B分为第二分片,而若识别到已标注样本E、已标注样本F为标注开始时刻起10分钟到15分钟内生成的,那么就将已标注样本E、已标注样本F分为第三分片。
可以理解的是,为了便于实现上述的按照监控周期进行分片,标注节点在生成标注样本的过程中可以给生成的标注样本配置一个生成时间。当然,可以理解的是,前述的5分钟以及10分钟等监控周期都是示例性的,具体的监控周期可以根据实际需要进行设定。
作为另外一种方式,还可以按照标注样本的数量来进行分片。可选的,用户可以预先配置每个分片所包括的已标注样本的阈值数量。在这种情况下,检测节点可以基于前述的阈值数量进行分片,在使得前一个分片中所分配的已标注样本的数量等于阈值数量以后,再继续生成下一个分片。例如,生成的已标注样本包括有已标注样本A、已标注样本B、已标注样本C、已标注样本D、已标注样本E以及已标注样本F。若所配置的分片的阈值数量为3,那么在这种情况下,检测节点可以生成包括已标注样本A、已标注样本B、已标注样本C等3个已标注样本的第一分片,然后还会生成包括已标注样本D、已标注样本E以及已标注样本F等3个已标注样本的第二分片。若所配置的分片的阈值数量为4,那么在这种情况下,检测节点可以生成包括已标注样本A、已标注样本B、已标注样本C以及已标注样本D等4个已标注样本的第一分片,然后还会生成包括已标注样本E以及已标注样本F等2个已标注样本的第二分片。
需要说明的是,在可以配置每个分片所包括的已标注样本的阈值数量的这种情况下,若在分片的过程中,检测到某个分片中的数量无法达到阈值数量,那么可以进行一段时间的等待,在等待的过程中检测到有新的已标注样本生成以后,可以从新生成的已标注样本中获取已标注样本补入到前述的所包括的已标注样本的数量无法达到阈值数量的分片中。可选的,若在等待该一段时间以后,没有检测到有新的已标注样本生成,那么检测节点可以从另外的所包括的已标注样本数量的满足阈值数量的分片中转移部分已标注样本到该包括的已标注样本的数量无法达到阈值数量的分片中,进而保证每个分片的数量都是均匀的,以便减小执行分片的次数,提升检测效率。
下面再通过一个实例对上述内容进行说明。
若在分片的过程中,配置的阈值数量为4,且已经生成第一分片包括有已标注样本A、已标注样本B、已标注样本C以及已标注样本D,生成的第二分片包括有已标注样本E以及已标注样本F。那么在这种情况下,检测节点可以触发进入等待时间,在等待一段时间以后,若检测到有新的已标注样本生成,那么就可以获取新的已标注样本生成补入到该第二分片中。而若在等待一段时间后,未检测到有的已标注样本生成,那么就可以从第一分片中抽取一个已标注样本,例如,已标注样本D补入到第二分片中,从而使得第一分片和第二分片均有3个已标注样本。
此外,作为再一种方式,检测节点还可以根据各个检测设备的检测能力进行分片。可以理解的是,在检测过程中,可以是用户通过操作检测设备执行人工检测,那么用户在通过检测设备执行人工检测之前,需要通过用户帐号在检测设备执行登录,进而将用户的用户帐号与检测设备进行绑定,那么检测节点就可以通过识别检测设备所绑定的用户帐号识别操作检测设备的用户是谁。在这种情况下,检测节点可以统计每个检测设备的检测效率,例如,可以统计每检测一个已标注样本的耗时,进而在进行分片的过程中,可以给效率更高的用户分配更多的已标注样本进行检测,进而提升整体的检测效率。
例如,当前有检测设备A、检测设备B以及检测设备C,检测设备A绑定用户帐号A,检测设备B绑定用户帐号B,检测设备C绑定用户帐号C,那么在检测节点识别到用户帐号C对应的效率最高,其次为用户帐号B对应的效率,最慢为用户帐号A对应的效率的情况下,检测节点会生成多个所包括的已标注样本数量不同的分片,然后按照效率最高的对应更多的已标注样本的方式,将包括已标注样本数量最多的一个分片分配给绑定用户帐号C的那个检测设备,从而可以整体更加协调一致的提升检测效率。
在本申请实施例中检测节点具体如何实现分片也可以有多种方式。作为一种方式,可以采用在建立的数据表中添加表征所属分片的字段的方式来实现分片。具体的,在分片的过程中,可以给进行分片的多个已标注样本对应的表征所属分片的字段配置不同的内容,进而通过所配置的内容来确定每个已标注样本所属的分片。
如下表所示:
表3
如表3示出了ID为1的已标注样本A、ID为2的已标注样本B、ID为3的已标注样本C、ID为4的已标注样本D、ID为5的已标注样本E以及ID为6的已标注样本F。其中,表3中的字段“Zone”用于表征每个已标注样本所属的分片。其中,字段“Zone”的内容为“User_A”的表征属于第一分片,而字段“Zone”的内容为“User_B”的表征属于第二分片。
此外,除了通过基于数据表的方式来实现分片以外,还可以通过配置多个存储区域,每个存储区域用于存储属于同一个分片的已标注样本的方式来实现分片。例如,若检测节点配置有对应第一分片的存储区域A,对应第二分片的存储区域B,那么在执行分片的过程中,检测节点可以将确定分配到第一分片的已标注样本转存到存储区域A,而将确定分配到第二分片的已标注样本转存到存储区域B。
需要说明的是,标注节点在标注开始以后的标注过程中,会不断的生成已标注样本,那么检测节点在进行分片的时候,是对当前所能检测到的已经生成的已标注样本进行的分片。而当对已经生成的已标注样本完成分片以后,会继续对后续生成的已标注样本进行分片。那么在一种方式中,检测节点在进行分片的过程中,除了被确定进行分片的已标注样本外,可能还会有新的样本被标注。那么为了避免分片过程与生成已标注样本过程出现数据错误,作为一种方式,生成已标注样本的过程和进行分片的过程禁止同时进行。
下面先对前述提到的“样本被标注”和“生成已标注样本”的关联进行下说明。“样本被标注”是指用户或者设备对样本进行评价的过程,而这个评价过程就是指用户或者设备会对样本进行怎么样的标注。而“生成已标注样本”是指标注设备在知道对样本进行怎么样的标注之后对样本进行的参数修改或者存储位置改变等操作。例如,以用户操作标注设备进行标注的方式为例,对于还未标注的样本A,用户操作标注设备上的客户端给未标注的样本A标注“违规内容”的这个过程即为“样本被标注”,而当标注设备在识别到用户进行了该操作以后,将该样本在数据表的数据修改为“已标注”以及标注内容为“违规内容”的步骤则为“生成已标注样本”。
那么基于前述的内容,可以理解的是,生成已标注样本的过程以及进行分片的过程都可能会涉及到数据的写入。那么为了避免同时执行生成已标注样本以及分片,进而造成数据错误,作为一种方式,可以采用获取令牌的方式来限制生成已标注样本和进行分片同时进行,在这种情况下,获取到令牌的一方才能执行数据写入。具体的,生成已标注样本可以由标注节点生成一个进程负责执行,而分片可以由检测节点生成一个进程负责执行,那么当其中的一个进程要执行对应的操作时,先进行令牌获取,若获取失败则进行等待,在等待后获取到令牌之后再进行对应的操作。
作为一种方式,对于每一次的令牌权限可以被占用的时长可以根据当前的分片需求进行改变。可选的,检测节点可以识别当前检测设备剩余的还未检测的已标注样本的数量,若检测到该数量小于指定阈值,即表征检测设备处剩余的还未检测的已标注样本的数量已经较少了,那么当前的分片需求就是需要更多的时间进行分片,以便实现检测节点可以更多对已生成样本进行分片,那么在这种情况下,可以增加检测节点所创建的执行分片操作的进程对于前述的令牌占用时间。相应的,若检测到还未检测的已标注样本的数量大于指定阈值,即表征检测设备处剩余的还未检测的已标注样本的数量还较多,那么作为一种方式,可以缩短检测节点所创建的执行分片操作的进程对于前述的令牌占用时间。
再者,对于在每次分片的过程中,具体需要生成多少个分片,可以根据当前的检测设备的数量来确定。例如,检测节点可以在执行分片操作之前,获取当前正在执行检测的检测设备的数量,或者可以执行检测任务的检测设备的数量,然后按照当前正在执行检测的检测设备的数量或者可以执行检测任务的检测设备的数量将已标注样本进行均分。例如,检测节点已经获取到当前可以执行检测任务的检测设备的数量为n,而获取得到的生成的已标注样本数量为m,那么就会确定需要生成的分片数量为m除以n。
S330:分别从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本。
作为一种方式,按照指定的比例从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本。
S340:对所述待检测已标注样本的标注结果进行判断,判断待检测已标注样本的标注结果是否满足目标条件。
S350:若判定所述待检测已标注样本的标注结果不满足目标条件,将所述待检测已标注样本所属分片的已标注样本返回到所述标注节点,以便标注节点进行重新标注。
可以理解的是,在本实施例中,是将获取的已标注样本进行分片后,再针对每个分片分别抽取部分已标注样本,作为每个分片各自的待检测已标注样本。那么对于每一个待检测已标注样本都会有一个所属的分片,进而在将某一个分片的待检测已标注样本的标注结果判断完以后,就可以得到该分片的待检测已标注样本的标注结果是否满足目标条件,若不满足,就可以将该一个分片内的已标注样本返回到所述标注节点,而不会影响其他分片内的已标注样本。
S360:若判定所述待检测已标注样本的标注结果满足目标条件,将所述待检测已标注样本所属分片的已标注样本输出到指定的机器学习模型。
下面再通过一个实例对步骤S350以及步骤S360的内容进行说明。
在检测节点执行分片操作以后得到第一分片以及第二分片的情况下,第一分片中包括有已标注样本A、已标注样本B、已标注样本C,第二分片包括已标注样本D、已标注样本E以及已标注样本F。在设定的抽取比例为三分之二的情况下,第一分片对应的待检测已标注样本可以为其所包括的3个已标注样本中的2个,例如,为已标注样本A以及已标注样本B。类似的,第二分片对应的待检测已标注样本可以为其所包括的3个已标注样本中的1个,例如,为已标注样本E以及已标注样本F。
那么若当前的目标条件所包括的目标准确率为百分之60。那么若检测节点识别到第一分片的待检测已标注样本,即已标注样本A以及已标注样本B的标注结果为百分之50,那么就可以判定第一分片的待检测已标注样本的标注结果不满足目标条件,进而会将第一分片内的已标注样本A、已标注样本B、已标注样本C均返回到标注节点进行重新标注。而若检测节点识别到第二分片的待检测已标注样本,即已标注样本E以及已标注样本F的标注结果为百分之100,那么就判定第一分片的待检测已标注样本的标注结果满足目标条件,进而会将第二分片内的已标注样本D、已标注样本E以及已标注样本F均输出到指定的机器学习模型。
本申请提供的一种标注信息处理方法,通过实时的对生成的已标注样本的标注结果进行检测的方式,并且可以将已经生成的样本分片后,在得到多个分片的情况下,将不同的分片发送到不同的检测设备进行检测,从而不仅使得可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况下可以及时的将分片内的已标注反馈到标注节点进行重新标注,进而提升了样本的标注过程的准确性以及时效性。其次,因为返回的仅仅是一个分片内的已标注样本,而不是全部的已标注样本,进而可以更加细粒度的对不达标的已标注样本进行回滚,再者,因为多个检测设备可以同时并行检测多个分片中的已标注样本,进而提升了检测的速度。
请参阅图7,本申请实施例提供的一种标注信息处理方法,应用于服务器,所述方法包括:S410到S460。其中:
S410:对标注节点的标注行为进行检测。
S420:若检测到所述标注节点有已标注样本生成,将所述已标注样本进行分片,得到多个分片。
S430:获取每个分片对应的多组待检测已标注样本,其中,每组的所述待检测已标注样本包括所属分片中对应相同的标注设备标识的已标注样本中的部分已标注样本。
作为一种方式,可以是用户操作标注设备对样本进行的标注,那么在用户进行标注之前,需要先通过用户的用户帐号进行登录,以便将标注设备与用户帐号进行绑定。在这种情况下,对于后续生成的已标注设备可以对应配置有进行标注的用户的用户帐号,进而将与已标注设备对应的用户帐号作为标注设备标识。以便后续检测节点可以识别到所检测的已标注样本是由哪一个用户标注的。
在检测节点进行分片之后,在抽取每个分片的待检测样本的过程中,作为一种方式,可以对每个分片再按照对应的标注设备标识进行分组。在这种情况下,属于同一个分组的已标注样本所对应的标注设备标识是相同的,进而得到多组待检测已标注样本。
例如,在检测节点进行分片之后得到的第一分片中包括有已标注样本A、已标注样本B、已标注样本C、已标注样本D、已标注样本E以及已标注样本F的情况下。其中,已标注样本A对应用户帐号A,已标注样本B对应用户帐号A,已标注样本C对应用户帐号A,已标注样本D对应用户帐号B,已标注样本E对应用户帐号B,已标注样本F对应用户帐号B。那么在这种情况下,该第一分片所对应的第一分组中可以包括对应的用户帐号均为用户帐号A的已标注样本A、已标注样本B以及已标注样本C中的部分已标注样本,而该第一分片所对应的第二分组中可以包括对应的用户帐号均为用户帐号B的已标注样本D、已标注样本E以及已标注样本F中的部分已标注样本。
需要说明的是,在本实施例中对于每个分片均按照标注设备标识再进行分组以后,使得每一个分组所包括的已标注样本均是由同一个标注设备标注的,也就意味是由同一个用户标注的,那么在后需进行标注结果判断的时候,在基于同一个分组的待检测已标注样本进行判断的情况下,可以更加细粒度的判定某一个用户的标注准确率。
S440:对所述待检测已标注样本的标注结果进行判断,判断待检测已标注样本的标注结果是否满足目标条件。
可以理解的是,在本实施例中,进行检测的过程中是以分组为单位进行检测的。例如,在前述的实例中,分片包括有第一分组以及第二分组。若第一分组包括有对应的用户帐号均为用户帐号A的已标注样本A以及已标注样本B,而第二分组包括有对应的用户帐号均为用户帐号B的已标注样本D以及已标注样本E。那么在进行判断的过程中,将基于已标注样本A以及已标注样本B的标注准确率来计算第一分组的判断结果是否满足目标条件,将基于已标注样本D以及已标注样本E的标注准确率来计算第二分组的判断结果是否满足目标条件。
S450:获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识。
可以理解的是,在本实施例中,会对某一个标注设备或者某一个操作标注设备的用户的标注准确率进行评价。那么为了实现对具体对摸一个标注设备或者某一个操作标注设备的用户的标注准确率进行评价,在执行前述的对待检测已标注样本的标注结果进行判断后,检测节点会将不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识作为目标标注设备标识。
S460:将每个分片中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
S470:获取达标标注设备标识,所述达标标注设备标识为满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识。
S480:将每个分片中所述达标标注设备标识对应的已标注样本返回到所述标注节点。
其中,作为一种方式,在将目标标注设备标识对应的已标注样本返回到所述标注节点之后,为了便于提升再次标注的准确率,可以将返回到标注节点的已标注样本分配到不同于之前的对该已标注样本进行标注的标注设备处。在这种方式中,检测节点可以获取每个返回到标注节点的已标注样本的目标标注设备,所述目标标注设备为不同于前一次对返回到所述标注节点的已标注样本进行标注的标注设备;将每个返回到标注节点的已标注样本配置到对应的目标标注设备进行重新标注。
例如,若确定返回到标注节点进行重新标注的已标注样本包括已标注样本A、已标注样本B以及已标注样本C,且该已标注样本A、已标注样本B以及已标注样本C之前的标注设备的标注设备标识为用户帐号A,那么再重新分配到标注节点以后,可以分配给标注设备标识为用户帐号B的标注设备进行标注。
可选的,对于每个返回到标注节点的已标注样本的目标标注设备可以为统计的标注准确率较高的标注设备中的一个,进而可以整体上提升样本的标注准确率。
再者,作为一种方式,可以将返回到标注节点进行重新标注的样本排序在靠前的位置,进而使得需要重新标注的样本可以被尽快的重新标注,进而再次被生成已标注样本。可选的,若对于返回到标注节点被重新标注的样本,没有预先配置对应的目标标注设备,那么将会被返回到标注节点后再由标注节点来分配标注设备,在这种情况下,标注节点会优先对被返回到标注节点的样本分配标注节点,以便这些样本可以被尽早的再次标注。再者,对于在被检测节点进行返回的时候,配置有目标标注设备的样本,则可以被配置为到目标标注设备处,被目标标注设备优先再次进行标注。
例如,在标注节点处的标注设备A当前有样本G、样本H、样本I、样本K以及样本K等待被标注。其中,样本G、样本H、样本I、样本K以及样本K为按照等待被标注的顺序排列。那么在有已标注样本A被返回的到标注设备A处以后,被返回的已标注样本A会被配置排列到样本G的前面进行重新标注。
本申请提供的一种标注信息处理方法,通过实时的对生成的已标注样本的标注结果进行检测的方式,并且可以将已经生成的样本分片后,在得到多个分片的情况下,获取每个分片对应的多组待检测已标注样本,将不同的分片发送到不同的检测设备进行检测,从而不仅使得可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况下可以及时的将分片内的已标注反馈到标注节点进行重新标注,进而提升了样本的标注过程的准确性以及时效性。其次,因为返回的仅仅是一个分片内的已标注样本,而不是全部的已标注样本,进而可以更加细粒度的对不达标的已标注样本进行回滚,再者,因为多个检测设备可以同时并行检测多个分片中的已标注样本,进而提升了检测的速度。
请参阅图8,本申请实施例提供的一种标注信息处理方法,应用于服务器,所述方法包括:S510到S550。其中:
S510:对标注节点的标注行为进行检测。
S520:若检测到所述标注节点有已标注样本生成,从所述生成的已标注样本中获取多组待检测已标注样本,其中,每组的所述待检测已标注样本包括对应相同的标注设备标识的已标注样本中的部分已标注样本。
S530:对所述待检测已标注样本的标注结果进行判断,判断待检测已标注样本的标注结果是否满足目标条件。
S540:若判定所述待检测已标注样本的标注结果不满足目标条件,获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识;
S550:将所述生成的已标注样本中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
S560:若判定所述待检测已标注样本的标注结果不满足目标条件,获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识;
S570:将所述生成的已标注样本中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
需要说明的是,在本实施例中与前述实施例的主要区别在于,在本实施例中可以不用先对生成的已标注样本进行分片,而是直接对生成的已标注样本进行分组,其中分组的方式与前述实施例的分组方式相同,那么本实施例与前述实施例相同和相似部分可以参见前述实施例中的描述。
本申请提供的一种标注信息处理方法,通过对标注节点的标注行为进行检测,并且在检测到所述标注节点有已标注样本生成后,将生层的已标注样本按照标注设备标识分为多个分组,就开始从生成的所述已标注样本中获取待检测已标注样本,对所述待检测已标注样本的标注结果进行判断,若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本中所述目标标注设备标识对应的已标注样本返回到所述标注节点。从而可以及时的将不满足目标条件的标注设备所标注的已标注样本及时的返回到标注节点进行重新标注,进而可以更加细粒度的及时发现标注结果不达标的标注设备,进而从整体上提升标注质量。
请参阅图9,本申请实施例提供的一种标注信息处理装置600,所述装置600包括:节点检测单元610、待检测样本获取单元620、标注结果判断单元630、回滚单元640以及样本输出单元650。
其中,节点检测单元610,用于对标注节点的标注行为进行检测。
待检测样本获取单元620,用于若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本。
标注结果判断单元630,用于对所述待检测已标注样本的标注结果进行判断。
作为一种方式,标注结果判断单元630,具体用于获取待检测已标注样本的标注准确率;判断所述标注准确率是否大于目标准确率;若所述标注准确率不大于所述目标准确率,判定所述待检测已标注样本的标注结果不满足目标条件。
回滚单元640,用于若标注结果判断单元630判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
作为一种方式,回滚单元640,具体用于若判定所述待检测已标注样本的标注结果不满足目标条件,检测当前是否满足回滚条件;若检测到满足所述回滚条件,将所述待检测已标注样本返回到所述标注节点。
样本输出单元650,用于若标注结果判断单元630判定所述待检测已标注样本的标注结果满足目标条件,将所述待检测已标注样本进行输出。
作为一种方式,待检测样本获取单元620,具体用于若检测到所述标注节点有已标注样本生成,将所述已标注样本进行分片,得到多个分片;分别从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本。在这种情况下,相应的,回滚单元640,具体用于若判定所述待检测已标注样本的标注结果不满足目标条件,将所述待检测已标注样本所属分片的已标注样本返回到所述标注节点。
在这种方式中,待检测样本获取单元620,可以具体用于检测到所述标注节点有已标注样本生成,按照指定的监控周期将所述已标注样本进行分片,得到多个分片。待检测样本获取单元620,可以按照指定的比例从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本。
进一步地,作为另外一种方式,所述标注节点对应有多个标注设备,每个所述已标注样本对应有标注设备标识,所述标注设备标识用于唯一标识进行执行标注的标注设备。
在这种方式中,待检测样本获取单元620,可以具体用于获取每个分片对应的多组待检测已标注样本,其中,每组的所述待检测已标注样本包括所属分片中对应相同的标注设备标识的已标注样本中的部分已标注样本。回滚单元540,可以具体用于获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识;将每个分片中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
作为再一种方式,所述标注节点对应有多个标注设备,每个所述已标注样本对应有标注设备标识,所述标注设备标识用于唯一标识进行执行标注的标注设备。
在这种方式中,待检测样本获取单元620,可以具体用于从所述生成的已标注样本中获取多组待检测已标注样本,其中,每组的所述待检测已标注样本包括对应相同的标注设备标识的已标注样本中的部分已标注样本。回滚单元540,可以具体用于获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识;将所述生成的已标注样本中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
再者,如图10所示,所述装置600还可以包括标注设备配置单元660以及检测进度管控单元670。
其中,标注设备配置单元660,用于获取每个返回到标注节点的已标注样本的目标标注设备,所述目标标注设备为不同于前一次对返回到所述标注节点的已标注样本进行标注的标注设备;将每个返回到标注节点的已标注样本配置到对应的目标标注设备进行重新标注。
检测进度管控单元670,用于获取对所述待检测已标注样本的标注结果进行判断的判断进度;若检测到在指定周期内所述判断进度表征未完成;触发所述标注节点停止生成已标注样本。
需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
综上所述,本申请提供的一种标注信息处理方法、装置以及服务器,通过对标注节点的标注行为进行检测,并且在检测到所述标注节点有已标注样本生成后,就开始从生成的所述已标注样本中获取待检测已标注样本,对所述待检测已标注样本的标注结果进行判断,若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。从而通过实时的对生成的已标注样本的标注结果进行检测的方式,使得可以更加及时的发现标注节点所标注的样本的标注结果是否达标,在不达标的情况下可以及时的反馈到标注节点,进而提升了样本的标注过程的准确性以及时效性。
下面将结合图11对本申请提供的一种移动终端进行说明。
请参阅图11,基于上述的标注信息处理方法、装置,本申请实施例还提供的另一种可以执行前述标注信息处理方法的服务器100。服务器100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104以及网络模块106。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个服务器100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行服务器100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
作为一种方式,所述网络模块106可以用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如,若前述的检测节点运行于该服务器,而标注节点运行于其他的电子设备,那么检测节点就可以通过服务器的网络模块106与运行于其他电子设备的标注节点进行数据交互。所述网络模块106可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。
请参考图12,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种标注信息处理方法,其特征在于,所述方法包括:
对标注节点的标注行为进行检测;
若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本;
对所述待检测已标注样本的标注结果进行判断;
若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
2.根据权利要求1所述的方法,其特征在于,若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本的步骤包括:
若检测到所述标注节点有已标注样本生成,将所述已标注样本进行分片,得到多个分片;分别从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本;
所述若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点的步骤包括:
若判定所述待检测已标注样本的标注结果不满足目标条件,将所述待检测已标注样本所属分片的已标注样本返回到所述标注节点。
3.根据权利要求2所述的方法,其特征在于,所述若检测到所述标注节点有已标注样本生成,将所述已标注样本进行分片,得到多个分片的步骤包括:
检测到所述标注节点有已标注样本生成,按照指定的监控周期将所述已标注样本进行分片,得到多个分片。
4.根据权利要求2所述的方法,其特征在于,分别从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本的步骤包括:
按照指定的比例从每个所述分片中获取部分已标注样本,作为每个分片各自的待检测已标注样本。
5.根据权利要求2所述的方法,其特征在于,所述标注节点对应有多个标注设备,每个所述已标注样本对应有标注设备标识,所述标注设备标识用于唯一标识进行执行标注的标注设备;所述分别从每个所述分片中获取部分已标注样本,作为每个分片各自对应的待检测已标注样本的步骤包括:
获取每个分片对应的多组待检测已标注样本,其中,每组的所述待检测已标注样本包括所属分片中对应相同的标注设备标识的已标注样本中的部分已标注样本;
所述将所述待检测已标注样本所属分片的已标注样本返回到所述标注节点的步骤包括:
获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识;
将每个分片中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
6.根据权利要求1所述的方法,其特征在于,所述标注节点对应有多个标注设备,每个所述已标注样本对应有标注设备标识,所述标注设备标识用于唯一标识进行执行标注的标注设备;
所述从生成的所述已标注样本中获取待检测已标注样本的步骤包括:
从所述生成的已标注样本中获取多组待检测已标注样本,其中,每组的所述待检测已标注样本包括对应相同的标注设备标识的已标注样本中的部分已标注样本;
所述将所述生成的已标注样本返回到所述标注节点的步骤包括:
获取目标标注设备标识,所述目标标注设备标识为不满足所述目标条件的分组中的待检测已标注样本对应的标注设备标识;
将所述生成的已标注样本中所述目标标注设备标识对应的已标注样本返回到所述标注节点。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
获取每个返回到标注节点的已标注样本的目标标注设备,所述目标标注设备为不同于前一次对返回到所述标注节点的已标注样本进行标注的标注设备;
将每个返回到标注节点的已标注样本配置到对应的目标标注设备进行重新标注。
8.根据权利要求1所述的方法,其特征在于,所述若判定所述待检测已标注样本的标注结果不满足目标条件,将所述待检测已标注样本返回到所述标注节点的步骤包括:
若判定所述待检测已标注样本的标注结果不满足目标条件,检测当前是否满足回滚条件;
若检测到满足所述回滚条件,将所述待检测已标注样本返回到所述标注节点。
9.一种标注信息处理装置,其特征在于,所述装置包括:
节点检测单元,用于对标注节点的标注行为进行检测;
待检测样本获取单元,用于若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本;
标注结果判断单元,用于对所述待检测已标注样本的标注结果进行判断;
回滚单元,用于若判定所述待检测已标注样本的标注结果不满足目标条件,将所述生成的已标注样本返回到所述标注节点,以便所述标注节点进行重新标注。
10.一种服务器,其特征在于,包括一个或多个处理器以及存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811616861.7A CN109784382A (zh) | 2018-12-27 | 2018-12-27 | 标注信息处理方法、装置以及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811616861.7A CN109784382A (zh) | 2018-12-27 | 2018-12-27 | 标注信息处理方法、装置以及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109784382A true CN109784382A (zh) | 2019-05-21 |
Family
ID=66497812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811616861.7A Pending CN109784382A (zh) | 2018-12-27 | 2018-12-27 | 标注信息处理方法、装置以及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784382A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163296A (zh) * | 2019-05-29 | 2019-08-23 | 北京达佳互联信息技术有限公司 | 图像识别的方法、装置、设备及存储介质 |
CN110263853A (zh) * | 2019-06-20 | 2019-09-20 | 杭州睿琪软件有限公司 | 利用错误样本检查人工客户端状态的方法及装置 |
CN110457304A (zh) * | 2019-08-08 | 2019-11-15 | 北京百度网讯科技有限公司 | 数据清洗方法、装置、电子设备及可读存储介质 |
CN111310826A (zh) * | 2020-02-13 | 2020-06-19 | 南京旷云科技有限公司 | 样本集的标注异常检测方法、装置及电子设备 |
CN111507405A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备及计算机可读存储介质 |
CN112528609A (zh) * | 2019-08-29 | 2021-03-19 | 北京声智科技有限公司 | 一种标注数据质检方法、系统、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135976A (zh) * | 2010-09-27 | 2011-07-27 | 华为技术有限公司 | 超文本标识语言页面结构化数据提取方法及装置 |
CN102881285A (zh) * | 2011-07-15 | 2013-01-16 | 富士通株式会社 | 一种韵律标注的方法及专用标注设备 |
CN105373938A (zh) * | 2014-08-27 | 2016-03-02 | 阿里巴巴集团控股有限公司 | 识别视频图像中的商品和展示其信息的方法、装置及系统 |
CN107454356A (zh) * | 2016-05-31 | 2017-12-08 | 沈阳美行科技有限公司 | 关联存储和同步展示行车路径和图像的方法、系统及装置 |
CN108197658A (zh) * | 2018-01-11 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 图像标注信息处理方法、装置、服务器及系统 |
CN108229330A (zh) * | 2017-12-07 | 2018-06-29 | 深圳市商汤科技有限公司 | 人脸融合识别方法及装置、电子设备和存储介质 |
CN108287857A (zh) * | 2017-02-13 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 表情图片推荐方法及装置 |
CN108664369A (zh) * | 2017-03-30 | 2018-10-16 | 北大方正集团有限公司 | 排版软件监控方法及装置 |
CN108846022A (zh) * | 2018-05-24 | 2018-11-20 | 沈阳东软医疗系统有限公司 | 文件存储方法、文件转换方法、装置、设备及存储介质 |
-
2018
- 2018-12-27 CN CN201811616861.7A patent/CN109784382A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135976A (zh) * | 2010-09-27 | 2011-07-27 | 华为技术有限公司 | 超文本标识语言页面结构化数据提取方法及装置 |
CN102881285A (zh) * | 2011-07-15 | 2013-01-16 | 富士通株式会社 | 一种韵律标注的方法及专用标注设备 |
CN105373938A (zh) * | 2014-08-27 | 2016-03-02 | 阿里巴巴集团控股有限公司 | 识别视频图像中的商品和展示其信息的方法、装置及系统 |
CN107454356A (zh) * | 2016-05-31 | 2017-12-08 | 沈阳美行科技有限公司 | 关联存储和同步展示行车路径和图像的方法、系统及装置 |
CN108287857A (zh) * | 2017-02-13 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 表情图片推荐方法及装置 |
CN108664369A (zh) * | 2017-03-30 | 2018-10-16 | 北大方正集团有限公司 | 排版软件监控方法及装置 |
CN108229330A (zh) * | 2017-12-07 | 2018-06-29 | 深圳市商汤科技有限公司 | 人脸融合识别方法及装置、电子设备和存储介质 |
CN108197658A (zh) * | 2018-01-11 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 图像标注信息处理方法、装置、服务器及系统 |
CN108846022A (zh) * | 2018-05-24 | 2018-11-20 | 沈阳东软医疗系统有限公司 | 文件存储方法、文件转换方法、装置、设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163296A (zh) * | 2019-05-29 | 2019-08-23 | 北京达佳互联信息技术有限公司 | 图像识别的方法、装置、设备及存储介质 |
CN110263853A (zh) * | 2019-06-20 | 2019-09-20 | 杭州睿琪软件有限公司 | 利用错误样本检查人工客户端状态的方法及装置 |
CN110457304A (zh) * | 2019-08-08 | 2019-11-15 | 北京百度网讯科技有限公司 | 数据清洗方法、装置、电子设备及可读存储介质 |
CN112528609A (zh) * | 2019-08-29 | 2021-03-19 | 北京声智科技有限公司 | 一种标注数据质检方法、系统、设备及介质 |
CN111310826A (zh) * | 2020-02-13 | 2020-06-19 | 南京旷云科技有限公司 | 样本集的标注异常检测方法、装置及电子设备 |
CN111310826B (zh) * | 2020-02-13 | 2024-02-02 | 南京旷云科技有限公司 | 样本集的标注异常检测方法、装置及电子设备 |
CN111507405A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784382A (zh) | 标注信息处理方法、装置以及服务器 | |
CN109189991B (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
WO2016074492A1 (zh) | 基于社交平台的数据挖掘方法及装置 | |
CN105069534A (zh) | 客户流失预测方法以及装置 | |
CN102567534B (zh) | 互动产品用户生成内容拦截系统及其拦截方法 | |
CN105721629A (zh) | 用户标识匹配方法和装置 | |
CN111984383B (zh) | 基于云网融合和人工智能的业务数据处理方法及云端平台 | |
CN111260220A (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN111126457A (zh) | 信息的获取方法和装置、存储介质和电子装置 | |
CN110415044A (zh) | 作弊检测方法、装置、设备及存储介质 | |
CN113010737B (zh) | 一种视频标签的分类方法、装置及存储介质 | |
CN109885708A (zh) | 证件图片的搜索方法和装置 | |
CN111813529B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN107220251A (zh) | 生成描述信息的方法及装置 | |
CN113032524A (zh) | 商标侵权识别方法、终端设备及存储介质 | |
CN106202456B (zh) | 发送图片的方法及装置 | |
CN110222103A (zh) | 提取excel数据的方法及装置、计算机设备、存储介质 | |
CN115545976A (zh) | 跨境商标注册方法、系统、装置及计算机可读存储介质 | |
CN111914945A (zh) | 数据处理方法、装置、图像生成方法及电子设备 | |
CN107733909B (zh) | 一种数据存储方法、装置、服务器及存储介质 | |
CN104317872A (zh) | 关键信息获取方法和装置 | |
CN111124866A (zh) | 一种语音交互的方法和装置 | |
CN109284268A (zh) | 一种快速解析日志的方法、系统及电子设备 | |
CN113641919B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
KR102181835B1 (ko) | 고 영향 노드의 결정 방법, 고 영향 노드의 결정 장치, 바이럴 마케팅에서의 마케팅 비용 최소화 방법 및 이를 수행하기 위한 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190521 Assignee: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd. Assignor: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd. Contract record no.: X2021440000030 Denomination of invention: Labeling information processing method, device and server License type: Common License Record date: 20210125 |