CN114676790A - 对象标注、模型的处理方法、装置、设备及存储介质 - Google Patents
对象标注、模型的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114676790A CN114676790A CN202210381006.2A CN202210381006A CN114676790A CN 114676790 A CN114676790 A CN 114676790A CN 202210381006 A CN202210381006 A CN 202210381006A CN 114676790 A CN114676790 A CN 114676790A
- Authority
- CN
- China
- Prior art keywords
- sample
- labeling
- sample set
- labeled
- difficult
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 538
- 238000012545 processing Methods 0.000 title claims abstract description 123
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title claims description 30
- 238000000034 method Methods 0.000 claims abstract description 103
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000012360 testing method Methods 0.000 claims description 60
- 230000003993 interaction Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 27
- 238000007667 floating Methods 0.000 claims description 25
- 230000000694 effects Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 230000006872 improvement Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000001976 improved effect Effects 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 53
- 238000010586 diagram Methods 0.000 description 38
- 238000012795 verification Methods 0.000 description 15
- 238000013461 design Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 241000234671 Ananas Species 0.000 description 3
- 235000007119 Ananas comosus Nutrition 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
- G06F18/41—Interactive pattern learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供的对象标注、模型的处理方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及云计算、自然语言处理、大数据和深度学习技术领域。对象标注方法包括:获取待处理的未标注样本集,对未标注样本集中的样本进行对象标注,得到第一标注样本集,基于第一标注样本集中各标注样本的标注置信度和置信度阈值,确定第一标注样本集中的至少一条难例样本,最后基于至少一条难例样本的人工校准结果更新第一标注样本集,得到未标注样本集对应的第二标注样本集。进一步的,对象标注模型的训练方法通过基于至少一条难例样本的人工校准结果更新对象标注模型。上述方案提高了对象标注效率和标注准确率。
Description
技术领域
本公开涉及人工智能中的云计算、自然语言处理、大数据和深度学习技术领域,尤其涉及一种对象标注、模型的处理方法、装置、设备及存储介质。
背景技术
在人工智能和机器学习技术中,基于深度学习训练的机器学习模型发挥了重要作用,是人工智能的一个重要体现。在机器学习模型的开发过程中,大量、精准的标注训练数据至关重要。
在日益复杂的应用场景中,如何提高标注效率和标注准确度是提高标注数据质量的关键,也是提高机器学习模型精度的基础。目前,亟需一种高效、智能的数据标注方法。
发明内容
本公开提供了一种对象标注、模型的处理方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种对象标注方法,包括:
获取待处理的未标注样本集;
对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本;
基于所述至少一条难例样本的人工校准结果更新所述第一标注样本集,得到所述未标注样本集对应的第二标注样本集。
根据本公开的第二方面,提供了一种对象标注模型的处理方法,包括:
获取待处理的样本集,所述样本集包括人工标注样本集和未标注样本集;
利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,所述对象标注模型是基于所述人工标注样本集对预设网络进行训练得到的;
基于所述至少一条难例样本的人工校准结果更新所述对象标注模型。
根据本公开的第三方面,提供了一种对象标注装置,包括:
获取单元,用于获取待处理的未标注样本集;
标注单元,用于对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
确定单元,用于基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本;
更新单元,用于基于所述至少一条难例样本的人工校准结果更新所述第一标注样本集,得到所述未标注样本集对应的第二标注样本集。
根据本公开的第四方面,提供了一种对象标注模型的处理装置,包括:
第一获取单元,用于获取待处理的样本集,所述样本集包括人工标注样本集和未标注样本集;
难例确定单元,用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,所述对象标注模型是基于所述人工标注样本集对预设网络进行训练得到的;
模型更新单元,用于基于所述至少一条难例样本的人工校准结果更新所述对象标注模型。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的对象标注方法和/或第二方面所述的对象标注模型的处理方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的对象标注方法和/或第二方面所述的对象标注模型的处理方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的对象标注方法和/或第二方面所述的对象标注模型的处理方法。
根据本公开的技术方案,在实现自动标注样本数据的基础上,通过难例样本自动更新已训练的对象标注模型,提高了对象标注效率和标注准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是一种对象标注方法的界面示意图;
图2是另一种对象标注方法的界面示意图;
图3是本公开实施例所适用的一种应用场景示意图;
图4是本公开第一实施例提供的对象标注方法的流程示意图;
图5是本公开第二实施例提供的对象标注方法的流程示意图;
图6是本公开第一实施例提供的对象标注模型的处理方法的流程示意图;
图7是本公开第二实施例提供的对象标注模型的处理方法的流程示意图;
图8是处理设备启用智能标注功能前后的页面示意图;
图9是本实施例中启动自动标注功能失败的界面示意图;
图10是本公开第三实施例提供的对象标注模型的处理方法的流程示意图;
图11是利用对象标注模型执行智能标注时的页面示意图;
图12是对难例样本的对象标注结果进行校验的界面示意图;
图13是智能标注准确率提升流程的界面示意图;
图14是本公开第四实施例提供的对象标注模型的处理方法的流程示意图;
图15是在数据标注界面上为目标对象添加标签的界面示意图;
图16是数据标注页面上待删除已标注标签的页面示意图;
图17是数据标注页面上待修改已标注标签的页面示意图;
图18是查看人工标注进度的界面示意图;
图19是智能标注通知的界面示意图;
图20是本公开第五实施例提供的对象标注模型的处理方法的流程示意图;
图21是本公开实施例提供的一种对象标注装置的结构示意图;
图22是本公开实施例提供的一种对象标注模型的处理装置的结构示意图;
图23是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在介绍本公开的应用背景和技术方案之前,首先介绍一下本公开实施例中可能涉及的几个术语:
人工智能(Artificial Intelligence,AI):是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,ML):机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
训练(training)或学习:训练是指一个处理过程,在该处理过程中,一个AI/ML模型学会来执行某项特定的任务(一般通过优化AI/ML模型中的加权值来学会来执行某项特定的任务)。
在实际应用中,若想训练得到优秀的深度学习&机器学习模型,大量、精准的已标注训练数据必不可少。现阶段,在深度学习模型的开发过程中,由于缺乏标准、高效、智能的数据标注工具用来标记数据、存储数据、检测数据标注质量,因而,目前大多采用人工标注的方式进行数据标注,以保证数据标注质量,从而保证模型的精度,所以,很多时间都被用在了数据标注上,影响了模型训练进程,延长了深度学习模型的开发周期。
含标注信息数据是AI模型训练的基础,目前市场上的同类技术的数据标注效率较低,为实体添加标签的方式不够便捷,也无法自动标注出文本中的关键实体,导致AI模型训练流程变得复杂。
示例性的,图1是一种对象标注方法的界面示意图。如图1所示,该标注方法的具体实现为:首先在目标文本中选择目标词语,即,用户按住鼠标在目标文本中划取选择目标词语,界面从图1中(a)的初始状态变成图1中(b)的“已选择目标词语”状态,然后为目标词语添加标签,即,用户选择目标词语之后松开鼠标,在上方“标签集”中点选对应的标签,目标词语的背景色会变成对应标签的颜色,相应的,目标词语顶部也会以“灰色小字形式”显示出相应的标签,如图1中的(c)所示。
相应的,若需要标注下一条文本数据,则点击“保存当前页”保存标注结果,保存的同时并自动跳转到下一条文本数据,如此往复,继续标注剩余的文本数据。
由上述操作可知,该方案中,用户选择目标词语之后,需要在标签集点击才能为目标词语添加标签,添加标签的方式不够便捷,而且对于数据量较大的情况,需要用户手动逐条标注文本数据,耗时耗力。
示例性的,图2是另一种对象标注方法的界面示意图。如图2所示,该标注方法的具体实现为:首先在目标文本中选择目标词语,即,用户按住鼠标划取选择目标词语,界面从图2中(a)的初始状态变成图2中(b)的“已选择目标词语”状态,划取词语之后松开鼠标,会自动在目标词语右侧出现标签浮层,然后为目标词语添加标签,即,在图2中(b)的标签浮层中点选对应的标签,目标词语的标注结果会展示在界面右侧,如图2中(c)所示。
由上述操作可知,该方案中,标注结果的展示方式较差,如果用户在一段文本中添加了多个实体标签的话,标签显示效果会比较混乱,容易使用户混淆不同标签的指示关系,同时标注效率较低,不支持系统自动标注其他文本。
可理解,图1和图2所示的界面图中以目标文本为“这个宾馆比较陈旧了,特价的房间也很一般,总体来说一般”,目标词语为“比较陈旧”,标签集包括“差评、好评”进行解释说明,在实际应用中,并不限定目标文本以及目标词语的具体内容,此处不作赘述。
由上述分析可知,对于应用场景比较复杂的文本类深度学习模型,往往需要成千上万条已标注的训练数据,为了降低数据标注的时间成本,在短时间内产出大量高质量的训练数据,亟需一种新型的文本数据标注方式,以便能够在短时间内自动标注更多、更精确的训练数据,从而在优质数据资源的基础上训练出各方面都满足要求的模型。
针对上述技术问题以及需求,本公开实施例提供了一种对象标注方法,通过获取待处理的未标注样本集,对未标注样本集中的样本进行对象标注,得到第一标注样本集,然后基于第一标注样本集中各标注样本的标注置信度和置信度阈值,确定第一标注样本集中的至少一条难例样本,最后基于至少一条难例样本的人工校准结果更新第一标注样本集,得到未标注样本集对应的第二标注样本集。该技术方案通过对标注过程中确定的难例样本进行人工校准,提高了对象标注的准确度。
进一步的,本公开实施例还提供了一种对象标注模型的处理方法,通过获取待处理的样本集,该样本集包括人工标注样本集和未标注样本集,利用对象标注模型对未标注样本集中的样本进行对象标注,确定出至少一条难例样本,该对象标注模型是基于人工标注样本集对预设网络进行训练得到的,基于上述至少一条难例样本的人工校准结果更新对象标注模型。该技术方案,可以实现自动标注样本数据的过程,而且通过难例样本自动更新已训练的对象标注模型,提高了对象标注效率和标注准确率,其能够适用于多种场景中的样本数据标注,具有智能性和高效性。
本公开提供的对象标注、模型的处理方法、装置、设备及存储介质,应用于人工智能领域中的云计算、自然语言处理、大数据和深度学习技术领域,可以在样本自动标注的过程中,提高对象标注效率和标注准确率。
需要说明的是,本实施例中的对象标注模型并不是针对某一特定对象的标注模型,并不能反映出某一特定对象的信息。而且,本实施例中的待标注样本集来自于公开数据集。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
示例性的,图3是本公开实施例所适用的一种应用场景示意图。如图3所示,该应用场景示意图可以包括:终端设备31、网络32、服务器33、标注设备34和处理设备35。
可选的,终端设备31可以通过网络32与服务器33进行通信,使得服务器33可以在获取到用户的对象标注命令时,能够基于该对象标注命令获取未标注样本集,并将其传输至标注设备34。相应的,标注设备34可以在接收到服务器33传输的未标注样本集后,执行本公开实施例提供的对象标注方法。
可选的,标注设备34还可以直接接收操作人员通过终端设备31发送的对象标注指令,基于该对象标注指令从自身的数据库或者其他设备中获取未标注样本集,进而执行本公开实施例的提供的对象标注方法。
类似的,处理设备35可以接收服务器33传输的待处理的样本集后或者基于接收到的对象标注模型处理指令,从自身的数据库或者其他设备中获取待处理的样本集,进而执行本公开实施例的提供的对象标注模型的处理方法。
可理解,本公开的实施例并不限定标注设备34获取未标注样本集的具体方式,也不限定处理设备35获取待处理的样本集的具体方式,其可以根据实际场景确定,此处不作赘述。
在本实施例中,标注设备34可以基于获取到未标注样本集,执行本申请提供的对象标注方法的程序代码,以得到未标注样本集对应的第二标注样本集,处理设备35可以基于获取到的待处理的样本集,执行本申请提供的对象标注模型的处理方法的程序代码,以得到更新的对象标注模型。
可选的,图3所示的应用场景还可以包括数据存储设备36,该数据存储设备36既可以与服务器33连接,也可以与标注设备34和/或处理设备35连接,用于存储服务器33输出的数据和/或标注设备34和/或处理设备35输出的处理结果。
可理解,标注设备34或处理设备35的处理结果可以互相交换,例如,标注设备34可以将得到的第二标注样本集传输至处理设备35以便更新对象标注模型,处理设备35可以将更新后的对象标注模型的参数发送给标注设备34,以便标注设备34自动执行对象标注操作。
需要说明的是,附图3仅是本公开实施例提供的一种应用场景的示意图,本公开实施例不对图3中包括的设备进行限定,也不对图3中设备之间的位置关系进行限定,例如,在图3中,标注设备34和处理设备可以是同一个设备,数据存储设备36相对服务器33或标注设备34或处理设备35可以是外部存储器,在其它情况下,也可以将数据存储设备36置于服务器33或标注设备34或处理设备35中,标注设备34或处理设备35既可以是独立于服务器33单独存在的设备,也可以是集成于服务器33的一个组件,本申请实施例并不对其进行限定。
还需要说明的是,本公开实施例中标注设备34和/或处理设备35可以是终端设备,也可以是服务器或者虚拟机等,还可以是一个或多个服务器和/或计算机等组成的分布式计算机系统等。其中,该终端设备包括但不限于智能手机、笔记本电脑、台式电脑、平台电脑、车载设备、智能穿戴设备等,本公开实施例不作限定。服务器可以为普通服务器或者云服务器,云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
值得说明的是,本公开的产品实现形态是包含在平台软件中,并部署在标注设备和处理设备(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。在图3所示的系统结构图中,本公开的程序代码可以存储在标注设备和处理设备内部。运行时,程序代码运行于标注设备和处理设备的主机内存和/或GPU内存。
本公开实施例中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面,结合上述图3所示的应用场景,通过具体实施例对本公开的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图4是本公开第一实施例提供的对象标注方法的流程示意图。该方法以图3中的标注设备作为执行主体进行解释说明。如图4所示,该对象标注方法可以包括如下步骤:
S401、获取待处理的未标注样本集。
在本公开的实施例中,标注设备可以从其他设备接收待处理的未标注样本集,也可以从自身存储的数据库中读取待处理的未标注样本集。本公开实施例并不限定未标注样本集的获取过程,其可以根据实际场景确定。
S402、对未标注样本集中的样本进行对象标注,得到第一标注样本集。
其中,第一标注样本集中的各标注样本携带对象标注结果和标注置信度。
作为一种示例,标注设备中预置有标注关系表,该标注关系表中记录有标注信息和标注对象的对应关系,这样标注设备在获取到未标注样本集后,可以基于标注关系表中的对应关系对未标注样本集中的每条样本进行对象标注,进而得到第一标注样本集。
可理解,在实际应用中,标注关系表中的标注对象可能对应多个标注信息,此时在确定每个对象的对象标注结果时可以携带标注置信度,以便确定标注的准确度。
作为另一种示例,标注设备中加载有对象标注模型,因而,标注设备在获取到未标注样本集后,可以利用该对象标注模型对未标注样本集中的每条样本进行对象标注,进而得到第一标注样本集,且使得各标注样本携带的对象标注结果和标注置信度。
可选的,通常情况下,置信度区间为0~1.0,相应的,第一标注样本集中各标注样本的标注置信度在0~1.0之间。
可理解,本实施例并不对对象标注的具体方式进行限定,其可以根据实际需求或设定确定,此处不作赘述。
S403、基于第一标注样本集中各标注样本的标注置信度和置信度阈值,确定第一标注样本集中的至少一条难例样本。
示例性的,在实际应用中,标注设备中可以预置一个用于表征标注准确度的置信度阈值,例如,0.8,因而,标注设备可以将各标注样本的标注置信度与该置信度阈值进行比较,将第一标注样本集中样本标注置信度小于置信度阈值的样本确定为难例样本。
S404、基于上述至少一条难例样本的人工校准结果更新第一标注样本集,得到上述未标注样本集对应的第二标注样本集。
可选的,由于难例样本的对象标注结果可能不准确,因而,可以通过人工方式对上述至少一个难例样本进行结果校准,并更新到第一标注样本集中。本实施例中,将更新后的第一标注样本集确定为第二标注样本集。
在本公开的实施例中,通过获取待处理的未标注样本集,对未标注样本集中的样本进行对象标注,得到第一标注样本集,然后基于第一标注样本集中各标注样本的标注置信度和置信度阈值,确定第一标注样本集中的至少一条难例样本,最后基于至少一条难例样本的人工校准结果更新第一标注样本集,得到未标注样本集对应的第二标注样本集。该技术方案通过对标注过程中确定的难例样本进行人工校准,提高了对象标注的准确度。
为使读者更深刻地理解本公开的实现原理,现结合以下图5对图4所示的实施例进行进一步细化。
可选的,在本公开的上述实施例中,上述S402可以通过如下步骤实现:
利用对象标注模型对未标注样本集中的样本进行对象标注,得到第一标注样本集,该对象标注模型是基于人工标注样本集对预设网络进行训练得到的。
可选的,标注设备中可以加载有预先训练的对象标注模型,且该对象标注模型可以是标注设备或其他设备利用人工标注样本集对预设网络进行训练得到的,因而,在标注设备获取到未标注样本集时,可以利用对象标注模型对未标注样本集中的样本进行自动标注,从而得到第一标注样本集。
示例性的,在上述实施例的基础上,图5是本公开第二实施例提供的对象标注方法的流程示意图。如图5所示,在上述S404之前,该对象标注方法还可以包括如下步骤:
S501、获取用户在人机交互界面上发出的难例样本校验指示。
可选的,标注设备在样本对象标注过程中确定存在难例样本时,可以将存在难例样本的信息呈现在人机交互界面上,这时用户便可以通过该人机交互界面发出难例样本校验指示,以便标注设备进行展示。
S502、基于上述难例样本校验指示,在人机交互界面上逐条展示至少一条难例样本的对象标注结果。
可选的,标注设备可以在接收到难例样本校验指示时,可以基于预设流程在人机交互界面上逐条展示至少一条难例样本的对象标注结果,以便用户对其进行核查和校验。
S503、基于用户对各对象标注结果的校准操作,得到至少一个难例样本的人工校准结果。
可选的,针对人机交互界面上呈现的每条标注样本的对象标注结果,用户在确定标注无误时,可以直接进行确认,也可以在所有难例样本的对象标注结果均确认无误时进行统一确认。可选的,在确定对象标注结果存在错误时,用户可以对其进行更正,以使得每个标注样本具有正确的对象标注结果。
在本公开的实施例中,通过获取用户在人机交互界面上发出的难例样本校验指示,基于该难例样本校验指示,在人机交互界面上逐条展示至少一条难例样本的对象标注结果,进而基于用户对各对象标注结果的校准操作,得到至少一个难例样本的人工校准结果。该技术方案通过对难例样本进行人工校验提高了标注样本集的标注准确度。
示例性的,图6是本公开第一实施例提供的对象标注模型的处理方法的流程示意图。该方法以图3中的处理设备作为执行主体进行解释说明。
如图6所示,该对象标注模型的处理方法可以包括如下步骤:
S601、获取待处理的样本集,该样本集包括人工标注样本集和未标注样本集。
在本公开的实施例中,处理设备可以从其他设备接收待处理的样本集,也可以从自身存储的数据库中读取待处理的样本集(此时,处理设备中部署有数据库)。本公开实施例并不限定待处理的样本集的获取过程,其可以根据实际场景确定。
可理解,处理设备获取到的样本集可以是部分经过人工标注处理后的样本集合。在本公开的实施例中,经过人工标注处理的部分样本集合称为人工标注样本集,未经过人工标注处理的部分样本集合称为未标注样本集。
S602、利用对象标注模型对未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
其中,该对象标注模型是基于上述人工标注样本集对预设网络进行训练得到的。
可选的,在本实施例的一种可能设计中,处理设备可以利用上述人工标注样本集对预设网络进行训练,得到对象标注模型,然后再利用对象标注模型对未标注样本集中的样本进行自动标注。
示例性的,当用户确定处理设备针对待处理的样本集符合自动标注的启动条件时,可以通过点击“启动智能标注”按钮发出智能标注指示,相应的,处理设备基于接收到的该智能标注指示可以进入自动标注流程,同时,处理设备的人机交互界面会同步变化为“自动标注流程样式”,并利用该对象标注模型对未标注样本集中的样本进行对象标注。
可选的,在本实施例的另一种可能设计中,处理设备可以将上述人工标注样本集发送给训练设备,相应的,该训练设备利用上述人工标注样本集对预设网络进行训练得到对象标注模型,并将该对象标注模型的模型参数信息反馈给处理设备,该处理设备基于接收到的模型参数信息加载该对象标注模型,并利用该对象标注模型自动的执行对象标注过程。
可选的,在本实施例中,为了提高自动执行对象标注的准确度,处理设备在利用对象标注模型对未标注样本集中的样本进行自动标注的过程中,可以筛选出至少一条难例样本。
其中,难例样本是指自动标注过程中,对象标注结果的置信度小于置信度阈值的样本,即处理设备可能无法准确的确定该样本中的对象实际上应该标注的标签。
S603、基于上述至少一条难例样本的人工校准结果更新对象标注模型。
在本实施例中,处理设备在确定出上述至少一条难例样本,可以通过不同方式获取到每条难例样本的人工校准结果,然后再基于上述至少一条难例样本组成的人工标注难例样本集更新上述对象标注模型,以提高对象标注模型的标注准确度。
示例性的,若处理设备具有人机交互界面,则可以通过该人机交互界面逐条展示或共同展示上述至少一条难例样本的自动标注结果,以便用户对其进行人工校验。相应的,当用户通过该人机交互界面对每条难例样本的自动标注结果进行校验后,可以得到每条难例样本的人工校准结果。
示例性的,处理设备在确定出至少一条难例样本后,还可以将上述至少一条难例样本的自动标注结果发送给其他设备(例如,用户的终端设备),这样用户可以在该其他设备上对每条难例样本的自动标注结果进行校验,得到每条难例样本的人工校准结果,随后,该其他设备将每条难例样本的人工校准结果再传送给处理设备。
可理解,本公开的实施例并不对处理设备获取每条难例样本的人工校准结果的方式进行限定,其可以根据实际场景确定,此处不作赘述。
可理解,若处理设备对标注准确度或用户对标注准确度有较高的要求,处理设备可以利用对象标注模型或更新后的对象标注模型进行多次标注的方式,多次确定出难例样本集,并分别更新对象标注模型,直到处理设备不能再用主动学习策略挑选出标注价值高的难例样本为止。
可理解,在本公开的实施例中,处理设备还可以利用更新后的对象标注模型对上述未标注样本集中的未标注样本进行标注,得到第二标注集。
可选的,在上述S602和S603的处理过程中,处理设备利用对象标注模型或更新的对象标注模型确定难例样本的过程中,也可以确定出置信度大于置信度阈值的部分样本,此时,处理设备可以无需再对其进行重新标注,因而,在本步骤中,处理设备可以利用更新的对象标注模型再对未标注样本集中的未标注样本进行对象标注即可。
可选的,在处理设备针对上述未标注样本集中的所有样本均执行标注后,可以得到该未标注样本集对应的第二标注集。
示例性的,用户对处理设备的自动标注结果满意之后,可以通过人机交互界面确认自动标注结果。可选的,该处理设备支持“逐条确认”和“一键确认”两种方式,从而在确认完成之后,得到第二样本集,这时,处理设备便可以利用处理设备自动标注的第二样本集训练其他的模型。
在本公开的实施例中,通过获取待处理的样本集,该样本集包括人工标注样本集和未标注样本集,利用对象标注模型对未标注样本集中的样本进行对象标注,确定出至少一条难例样本,该对象标注模型是基于人工标注样本集对预设网络进行训练得到的,基于上述至少一条难例样本的人工校准结果更新对象标注模型。该技术方案,可以实现自动标注样本数据的过程,而且通过难例样本自动更新已训练的对象标注模型,提高了对象标注效率和标注准确率,其能够适用于多种场景中的样本数据标注,具有智能性和高效性。
为使读者更深刻地理解本公开的实现原理,现结合以下图7至图14对图6所示的实施例进行进一步细化。
示例性的,图7是本公开第二实施例提供的对象标注模型的处理方法的流程示意图。如图7所示,在本公开的实施例中,上述S603可以通过如下步骤实现:
S701、利用对象标注模型对未标注样本集中的样本进行对象标注,得到第一标注样本集。
其中,该第一标注样本集中的各标注样本携带对象标注结果和标注置信度。
在本实施例中,对象标注模型实际也是一个推理模型,即推理待标注样本中各对象属于某个对象标签的概率,因而,利用对象标注模型对未标注样本集中的样本进行对象标注时,可以得到各标注样本携带的对象标注结果和标注置信度。
可理解,在本实施例中,处理设备在利用对象标注模型对未标注样本集进行对象标注的过程中,可以首先对未标注样本集中的部分样本进行对象标注,得到第一标注样本集。
示例性的,图8是处理设备启用智能标注功能前后的页面示意图。如图8的(a)所示,处理设备启用智能标注功能前时,人机交互界面上包括全部(xxx)、无标注信息(xy)和有标注信息(xx)的标注选项卡,而且,在标注选项卡的下方具有搜索框、删除文本、上一页、下一页的选项,删除文本、上一页、下一页等选项的上方还有标注示例的选项。
可选的,在人机交互界面的右侧还包括可供选择的标签列表,该人机交互界面的右上个角还包括“启动智能标注”的选择框等。
可选的,当用户点击“启动智能标注”按钮时,处理设备的人机交互界面即可进入智能标注流程页面,智能标注流程页面的具体样式如图8的(b)所示,智能标注的阶段包括:数据校验、数据准备中、智能标注中以及完成智能标注等。由于处理设备进入智能标注流程页面的同时,会在后台开始训练对象标注模型或者利用模型参数加载对象标注模型。因而,参见图8的(b)所示,该智能标注流程页面上呈现的提示信息为“全程耗时t1-t2,您可先处理其他任务,离开当前页面不会影响智能标进度。”。
可理解,在对象标注模型训练完成之后开始首轮自动标注。
可选的,图9是本实施例中启动自动标注功能失败的界面示意图。在本实施例中,如果处理设备因为网络问题等原因导致自动标注启动失败的情况,可以在人机交互界面上出现弹窗以提示用户启动失败以及失败的可能原因。示例性的,如图9所示,人机交互界面上的弹窗内容可以是启动失败以及当前未连接网络、智能标注功能启动失败,请检查网络。
可理解,本公开实施例并不限定弹窗的具体内容,只要能够准确反映出处理设备的当前的状态即可。
S702、基于第一标注样本集中各标注样本的标注置信度和置信度阈值,确定第一标注样本集中的至少一条难例样本。
示例性的,在本实施例中,第一标注样本集中的各标注样本都会有一个对象标注结果以及标注置信度。通常情况下,置信度区间为0~1.0,相应的,第一标注样本集中各标注样本的标注置信度在0~1.0之间。
在实际应用中,处理设备中可以预置一个用于表征标注准确度的置信度阈值,例如,0.8,因而,处理设备可以将各标注样本的标注置信度与该置信度阈值进行比较,将第一标注样本集中样本标注置信度小于置信度阈值的样本确定为难例样本。
示例性的,对于置信度比较低或比较模糊的预测结果(比如,标注置信度为0.4或0.5),可以认为对象标注模型对这个样本数据的预测效果不是很好(如果训练的对象标注模型性能较好,应该能够以0.9、1.0这种比较高的标注置信度输出),处理设备会把这种标注置信度低的样本数据,作为难例样本筛选出来,以便用户人工校准难例样本的对象标注结果是否正确,再根据上述至少一个难例样本的人工校准结果进行对象标注模型的二次训练,从而可以提升针对此类难例样本的标注置信度。
在本实施例中,利用对象标注模型对未标注样本集中的样本进行对象标注,得到第一标注样本集,基于第一标注样本集中各标注样本的标注置信度和置信度阈值,确定第一标注样本集中的至少一条难例样本。该技术方案中,可以基于对象标注模型确定出至少一个难例样本,为后续更新对象标注模型提供了实现前提。
可选的,在实际应用中,对于人工标注样本集,处理设备还可以基于预设规则,对人工标注样本集进行划分,得到训练样本集和测试样本集,其中,该训练样本集用于训练对象标注模型,该测试样本集用于检测该对象标注模型的标注准确度。
示例性的,图10是本公开第三实施例提供的对象标注模型的处理方法的流程示意图。在本公开的实施例中,该人工标注样本集包括训练样本集和测试样本集;上述对象标注模型是基于训练样本集对预设网络进行训练得到的。相应的,如图10所示,该对象标注模型的处理方法还可以包括如下步骤:
S1001、利用对象标注模型对测试样本集进行对象标注,得到测试样本集中各测试样本的对象标注结果。
在本公开的实施例中,处理设备可以利用人工标注样本集中的训练样本集进行模型训练,得到对象标注模型,或者,训练设备基于接收到的训练样本集对预设网络进行模型训练,得到对象标注模型之后,将对象标注模型的参数信息传输至处理设备,该处理设备基于该参数信息加载该对象标注模型。
可选的,通过将人工标注样本集划分为训练样本集和测试样本集,这样利用测试样本集可以准确测试对象标注模型的性能。具体的,利用对象标注模型对测试样本集中的各测试样本进行对象标注,得到测试样本集中各测试样本的对象标注结果,即自动标注结果。
可理解,处理设备可以在训练或加载得到对象标注模型后,便执行本公开实施例的方案,这样可以及时获知对象标注模型的性能。
S1002、基于测试样本集中各测试样本的对象标注结果和测试样本集中各测试样本的人工标注结果,确定对象标注模型的标注准确度。
可选的,在实际应用中,在获取到基于对象标注模型对各测试样本进行处理后的对象标注结果时,可以将每条测试样本的对象标注结果和人工标注结果进行对比,确定对象标注模型的对象标注结果是否正确,基于测试样本集中所有测试样本的对比结果,可以得出对象标注模型的标注准确度这一指标。
示例性的,图11是利用对象标注模型执行智能标注时的页面示意图。如图11所示,当处理设备利用对象标注模型对某些样本(例如,测试数据集中的样本)进行智能标注后,可以确定智能标注的信息和标注准确度。如图11所示,当处理设备对测试样本集进行智能标注完成时,处理设备的人机交互界面会由图8的(a)变更为图11。
如图11所示,图11相比图8的(a)会新增一个“有标注信息-智能”的选项卡,并展示智能标注的数据量(yy)、智能标注准确率(n%),并提供了确认结果操作按钮,支持逐条确认和一键确认所有结果。
在本公开实施例的一种可能实现中,在图10所示实施例的基础上,上述S602可以通过如下步骤实现:
确定标注准确度是否小于准确度阈值;若是,利用对象标注模型对未标注样本集中的样本进行对象标注,确定出至少一条难例样本;若否,利用对象标注模型对未标注样本集中的所有未标注样本进行对象标注,得到第二标注集。
示例性的,在该可能实现中,处理设备中可以预置有准确度阈值,这样,处理设备基于测试样本集确定出对象标注模型的标注准确度时,若该标注准确度没有达到预设的准确度阈值,则可以利用对象标注模型对未标注样本集中的样本进行对象标注,确定出至少一条难例样本,以便后续更新该对象标注模型。若该标注准确度已经达到预设的准确度阈值,则可以利用对象标注模型对未标注样本集中的所有样本进行对象标注,确定出所有样本的对象标注结果,该方式可以自动化实现模型的更新。
可理解,在实际应用中,在更新对象标注模型后,可以再利用测试数据集对更新后的该对象标注模型进行测试,若更新对象标注模型仍不满足准确度要求,则可以继续未标注样本集中的样本进行对象标注,确定出多个难例样本,继续利用难例样本的人工校准结果进行模型更新,直到对象标注模型的标注准确度达到准确度阈值的要求。
在本公开实施例的另一种可能实现中,在图10所示实施例的基础上,上述S602可以通过如下步骤实现:
在人机交互界面展示上述标注准确度,判断是否获取到用户针对该标注准确率发出的效果提升指示;若是,利用对象标注模型对未标注样本集中的样本进行对象标注,确定出至少一条难例样本;若否,利用对象标注模型对未标注样本集中的样本进行继续对象标注,得到第二标注集。
示例性的,在处理设备的“智能标注流程”页面,用户可查看对象标注模型的标注进度,了解如何处理标注完成的数据,支持发送短信提醒告知用户“系统已自动标注完成”等选项。
可选的,在第一轮智能标注完成之后,若用户对系统标注的结果不满意,可以针对“智能标注结果”进行优化,点击“优化智能标注结果”按钮,会筛选出关键的难例样本的对象标注结果让用户进行二次校验(这些样本数据有助于提升系统标注准确率),校验过程中用户可修改自动标注的对象标注结果,校验完成后点击“启动效果提升”按钮再次进入智能标注流程页面。
可选的,参照图11所示,智能标注页面的右上方具有一个“提升智能标注准确率按钮”,若用户对图11中的智能标注结果或者智能标注准确率不满意,可以点击页面右上方的“提升智能标注准确率按钮”来优化对象标注模型的标注结果,相应的,页面跳转到如图12所示的界面。
示例性的,图12是对难例样本的对象标注结果进行校验的界面示意图。如图12所示,在数据符合准确率提升条件的前提下,点击进入“关键难例确认页面”执行针对难例样本的校验流程。
如图12所示,在该界面中,针对已完成校验样本和启动效果提升进行了说明,已完成校验样本的说明为“已为您筛选出m条可提升标注效果的样本,建议至少校验n条,校验的样本数量越多优化效果越好”,启动效果提升的说明为“完成样本校验后,点击“启动效果提升”按钮,将重新评估智能标注的准确率,并进入下一轮的智能标注优化流程”。
可理解,本实施例并不限定界面上的具体内容,其可以根据用户配置进行确定,此处不作说明。
可选的,在本公开的实施例中,人工校验难例样本的具体实现如下,即在上述S602之前,该对象标注模型的处理方法还包括如下步骤:
A1、获取用户在人机交互界面上发出的难例样本校验指示;
A2、基于难例样本校验指示,在人机交互界面上逐条展示至少一条难例样本的对象标注结果;
A3、基于用户对各对象标注结果的校准操作,得到至少一个难例样本的人工校准结果。
可选的,处理设备可以会从上一轮智能标注过的数据中,筛选出部分难例样本数据,供用户手动确认结果是否准确,若不准确可手动更改标注结果,这些难例样本对提升智能标注准确率有积极作用,用户将难例确认完成之后,点击图12中的“启动效果提升”按钮即可进入“智能标注准确率提升流程”。
示例性的,图13是智能标注准确率提升流程的界面示意图。如图13所示,该页面中给出了智能标注准确率提升的各个阶段,例如,数据校验、数据准确中、智能标注准确率提升中、完成智能标注准确率提升等。
可理解,处理设备在执行智能标注准确率提升的过程中不会影响后台的其他线程,因而,该智能标注准确率提升流程的界面上具有“智能标注准确率提升中(约t3-t4),离开当前页面不会影响智能标进度。”的提示信息。可理解,本实施例并不限定上述页面上的具体内容,此处不作说明。
可理解,在图13中的流程结束后会自动返回到图11所示的“智能标注结果确认页面”,用户可根据需要再次重复“智能标注准确率提升流程”,对系统自动标注结果满意之后可“一键确认结果”,接着就可以用系统自动标注的大量数据训练模型了。
在实际应用中,若用户对标注准确率的要求较高,可以再利用测试数据集对更新后的该对象标注模型进行测试,并将更新后的标注准确度呈现在人机交互界面上,若更新后的对象标注模型的标注准确度仍不满足用户的要求,则可以基于用户的提升智能标注准确率的指示,从未标注样本集中确定出多个难例样本,继续利用难例样本的人工校准结果进行模型更新,并将更新后的标注准确度呈现在人机交互界面上,直到对象标注模型的标注准确度达到用户的准确度要求。
在本公开的实施例中,利用对象标注模型对测试样本集进行对象标注,得到测试样本集中各测试样本的对象标注结果,基于测试样本集中各测试样本的对象标注结果和测试样本集中各测试样本的人工标注结果,确定对象标注模型的标注准确度,其为后续的标注准确度校准奠定了基础。
示例性的,图14是本公开第四实施例提供的对象标注模型的处理方法的流程示意图。如图14所示,在本公开的实施例中,在上述S601之前,该对象标注模型的处理方法还可以包括如下步骤:
S1401、获取待标注样本集,该待标注样本集包括至少两条待标注样本。
在本公开的实施例中,处理设备可以从其他设备接收待标注样本集,也可以从自身存储的数据库中读取待标注样本集(此时,处理设备中部署有数据库)。本公开实施例并不限定待处理样本集的获取过程,其可以根据实际场景确定。
可理解,待标注样本集可以是经过预处理的样本数据,也可以是未经过预处理操作的样本数据,此处不对其进行限定。可选的,该预处理操作可以包括清洗、数据补齐、数据分类等中的至少一种,可理解,本实施例并不限定预处理操作的具体实现形式,其可以根据实际业务场景确定。
在实际应用中,待标注样本集可以是图像数据集,也可以是文本数据集,本实施例不对其进行限定。
S1402、获取用户对至少一条待标注样本中各对象的标注操作,得到至少一条人工标注样本。
可选的,若想实现智能标注样本数据功能,处理设备中需要加载训练好的对象标注模型,而对象标注模型的训练需要已经标注的样本集。在本实施例中,为了提高智能对象标注模型的性能,已标注的样本集为通过人工方式标注的。
在实际应用中,若用户通过处理设备的人机交互界面进行对象标注,则处理设备能够获取到用户对至少一条待标注样本中各对象的标注操作,从而得到至少一条人工标注样本。
示例性的,在本公开实施例的一种可能设计中,该步骤S1402可以通过如下步骤实现:
B1、针对上述至少一条待标注样本中的目标对象,基于用户对目标对象的选择操作,在目标对象的第一侧呈现预置标签浮层。
在本实施例中,处理处理基于用户的指示在人机交互界面上展示数据标注界面,且该数据标注界面上展示有一条待标注样本,这样当用户在数据标注界面上用鼠标划取目标对象时,在该数据标注界面上目标对象的第一侧(例如,右侧)会自动出现待标注样本集对应的预置标签浮层。
示例性的,图15是在数据标注界面上为目标对象添加标签的界面示意图。其中,图15的(a)是选择目标对象的界面示意图。如图15的(a)所示,本实施例仍以待标注样本为“这个宾馆比较陈旧了,特价的房间也很一般,总体来说一般”进行解释说明。参照图15的(a)所示,在该数据标注界面上,当用户在待标注样本中选取目标对象“比较陈旧”后,在该目标对象“比较陈旧”的右侧会自动出现当前待标注样本集保护的预置标签浮层。
可选的,该预置标签浮层中会呈现好评和差评两个标签。可理解,本实施例并不限定预置标签浮层中标签的具体数量和具体内容,其可以根据实际设置确定,此处不作赘述。
B2、基于用户在该预置标签浮层中的点选动作,确定目标对象的对象标签,该预置标签浮层包括至少两个标签。
B3、控制目标对象的对象标签显示在目标对象的第一侧,得到目标对象的人工标注结果。
可选的,在本实施例中,用户可以在目标对象第一侧的预置标签浮层内点选标签或键入标签快捷键,即可为目标对象添加标签,得到目标对象的人工标注结果。
示例性的,图15的(b)是为目标对象添加标签的界面示意图。如图15的(b)所示,当预置标签浮层出现在“比较陈旧”的右侧时,用户可以使用鼠标在预置标签浮层中进行点选,或者通过快捷键方式发出选择标签的指示时,便可为目标对象添加标签,完成添加后,标签出现在目标对象的右侧,同时,目标对象上施加特定的标签,例如,为目标对象添加下划线。
可理解,目标对象上施加特定的标签还可以通过的方式实现,例如,将目标对象赋予特定的颜色,例如,对应标签的颜色,不同的标签可以设置为不同的颜色,能够不同标签的对象辨识度。
B4、响应于确定上述至少一条待标注样本中的对象均具有对象标签,得到至少一条人工标注样本。
可选的,在实际应用中,每条待标注样本中可能具有多个待标注对象,处理设备可以循环执行上述B1至B3的步骤,直到每条待标注样本中的对象均具有对象标签,从而可以得到至少一条人工标注样本。
在本实施例的一种可能设计中,处理设备为待标注样本中的对象添加标签后,还支持删除标签和/或修改标签的操纵。例如,当用户选择目标对象时,该目标对象的标签会出现在目标对象的第一侧,当用户将鼠标悬停(hover)在已选择的标签上时,通过标签上的删除标记可快速删除目标对象的标签。
可选的,当目标对象的标签出现之后,鼠标右击标签会出现“修改标签浮层”,从而支持快速修改标签。
示例性的,图16是数据标注页面上待删除已标注标签的页面示意图。如图16所示,对于已经为“比较陈旧”添加的标签“差评”,当鼠标悬停在标签“差评”上时,在“差评”右上方出现删除标记(icon),点击删除标记即可将目标对象的标签删除。可选的,当鼠标悬停时标签上时,标签的背景变深,而且,还会给出“鼠标右击可修改对象标签”的提示,具体样式如图16所示。
示例性的,图17是数据标注页面上待修改已标注标签的页面示意图。如图17所示,假设之前为“比较陈旧”添加的标签为“好评”,此时,修改修改“比较陈旧”的标签时,则可以鼠标右击“好评”,以出现修改浮层,点选目标标签“差评”或键入数字快捷键“2”,即可为“比较陈旧”选择新标签“差评”,具体样式如图17所示。
在本公开实施例的一种可能设计中,在执行步骤B4之前,该对象标注模型的处理方法还可以包括如下步骤:
C1、响应于检测到公共标签功能处于激活状态,遍历第一待标注样本中的所有目标对象,该第一待标注样本为具有至少一个目标对象的一条样本。
C2、为第一待标注样本中的所有目标对象添加该对象标签,并显示在每个目标对象的第一侧。
在实际应用中,为了提升人工标注阶段的操作效率,本公开实施例提供了“一键标注多个相同目标对象”的功能。具体的,用户可以通过一次标注行为,为标注样本中的多个重复出现的对象同时添加标签。
例如,在待标注样本的不同地方,均出现了“菠萝”这个词语,当
该功能开启之后,用户只需要将某一个“菠萝”标注为“热带水果”,那么其他地方的“菠萝”也会同步标注为“热带水果”。
可选的,“一键标注多个相同目标对象”功能的技术实现方式:在对象标注工具中,在标签功能选项中,增加一个设为公共标签的功能选项。一旦设定某个标签为公共标签,会将该标签记录在处理设备的搜索引擎存储中。
若在一次标注过程中,针对待标注样本中的对象添加标签时,可以优先在搜索引擎存储中,检测当前场景中该标签是否被设置了公共标签,若是,则在当前待标注样本中遍历查询与之匹配的对象,并将匹配到的对象进行特殊标识,显性告知用户当前对象已有公共标签,以便用户确定是否进行保存或取消。
S1403、根据待标注样本集中的样本数量和至少一条人工标注样本的数量,判断至少一条人工标注样本是否满足模型训练条件。
可选的,在实际应用中,人工标注一定的数量后即可启动自动标注功能。人工标注过程中,支持实时查看标注进度和智能标注启动条件(也称为模型训练条件),即,(实时显示剩余“待人工标注的样本数量”),人工标注的数量符合“智能标注启动条件”之后界面出现提示,告知用户:现在可以智能标注了,该功能启动后系统会自动标注剩余的未标样本。
可选的,处理设备遍历待标注样本集下的所有待标注样本,可以确定智能标注启动条件需满足两个条件:a.未标注的样本数量大于0;b.每个标签已标注的对象数量大于或等于预设比例。也即,智能标注启动条件会跟随不同样本集的样本数量而发生变化。
在本实施例中,可以根据上述至少一条人工标注样本的数量和待标注样本集中的样本数量确定出当前样本标注比例,然后将该当前样本标注比例和预设样本标注比例进行比较,响应于当前样本标注比例大于或等于预设样本标注比例,启动智能标注流程。
示例性的,图18是查看人工标注进度的界面示意图。如图18所示,在该实施例中,在人工手动标注阶段,用户可以实时查看标注进度。
具体的,参照图18,在人工手动标注阶段,当将鼠标在“启动智能标注按钮”右侧的问号悬停,可看到智能标注功能的启动条件,不同数据量的启动条件也不相同。通常情况下,可以在处理设备中预置一个标注比例,只有已标注样本数(可以是每个标签的标注对象数量)和待标注样本集的样本数量的比值大于上述标注比例时,才允许启动智能标注。
示例性的,如图18所示,智能标注功能的启动条件为“每个标签至少标注n个样本”,实时进度为x%,已标情况中好评的标注个数为N个,差评的标注个数为M个。本实施例并不限定启动条件中各指标的具体取值,其可以根据实际场景确定,此处不作赘述。
例如,待标注样本集的样本数在1000条以下,每个标签需标注50个对象;样本数在1000-5000条之间,每个标签需标注100个对象;样本数在5000-10000条之间,每个标签需标注300个对象;样本数在10000条以上,每个标签需标注500个对象。可理解,若样本数超过10000条,可以设定每个标签对应的标注样本数为500条,这样即可让该标签的识别度足够高,达到最优的性价比,既保证后续智能标注的准确度,又尽可能减少人工标注的数据量。
S1404、响应于至少一条人工标注样本满足模型训练条件,得到人工标注样本集和未标注样本集。
其中,人工标注样本集包括上述至少一条人工标注样本。
示例性的,处理设备在人工标注的过程中会在后台实时监测当前标注情况,当检测到人工标注的样本数量已经符合智能标注的启动条件,即,至少一条人工标注样本的数量满足模型训练条件时,可以发出通知,以告知用户。
示例性的,图19是智能标注通知的界面示意图。如图19所示,当人工标注情况满足智能标注的启动条件时,会自动在页面右上方出现通知,例如,通知的内容为“您现在可以使用智能标注功能了!”。
可选的,当达到启动条件后,用户再次悬停hover“启动智能标注按钮”也是出现该功能可用的提示,具体样式如图19所示。
可理解,如果人工标注情况未达到启动条件,则“启动智能标注”按钮呈禁用态(如图15至图18所示),符合启动条件之后按钮变为正常可点击态(如图19所示),按钮状态发生变化的同时出现浮层提示用户现在可以使用该功能了。
在本公开的实施例中,通过获取待标注样本集,获取用户对至少一条待标注样本中各对象的标注操作,得到至少一条人工标注样本,根据待标注样本集中的样本数量和至少一条人工标注样本的数量,判断至少一条人工标注样本是否满足模型训练条件,响应于至少一条人工标注样本满足模型训练条件,得到人工标注样本集和未标注样本集。该技术方案中,在人工标注过程中可以实时确定人工标注的进度情况,为后续训练对象标注模型以及实现智能标注提供了实现前提。
可选的,在上述各实施例的基础上,下述对对象标注的整体流程进行解释说明,该整体流程包括人工标注、模型训练和智能标注等多个流程。
示例性的,图20是本公开第五实施例提供的对象标注模型的处理方法的流程示意图。如图20所示,该对象标注模型的处理方法可以包括如下步骤:
S2001、获取人工标注样本集,该人工标注样本集中的样本是人工标注的;
S2002、响应于人工标注样本集中的样本数量符合智能标注启动条件,获取用户点击“启动智能标注”按钮的动作;
S2003、响应于智能标注启动成功,进入智能标注等待页面;
可理解,在进入智能标注等待页面后,同时执行S2004;
S2004、利用人工标注样本集训练用于自动标注数据的对象标注模型;
S2005、在对象标注模型训练完成后,开启首轮自动标注数据;
可理解,首轮自动标注数据的过程可以包括利用人工标注样本集中的测试样本集对对象标注模型进行测试,得到智能标注准确率;
S2006、在智能标注完成,在页面展示智能标注准确率;
S2007、判断智能标注准确率是否达到用户要求;若是,执行S2008;若否,执行S2009和S2010;
S2008、获取用户一键确认智能标注结果,得到标注样本集;
可理解,该标注样本集用于AI模型的训练;
S2009、确定出有助于提升标注准确率的难例样本;
S2010、通过手动标注校正难例样本数据,校正完成后依据校正结果更新上述对象标注模型,并进行新一轮的智能标注,并转到S2006。
可理解,本实施例中各步骤的具体实现可参见上述各实施例中的记载,此处不作赘述。
图21是本公开实施例提供的一种对象标注装置的结构示意图。本实施例提供的对象标注装置可以为上述图3所示示意图中的标注设备,也可以是一种电子设备或者为电子设备中的装置。如图21所示,本公开实施例提供的对象标注装置2100可以包括:
获取单元2101,用于获取待处理的未标注样本集;
标注单元2102,用于对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
确定单元2103,用于基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本;
更新单元2104,用于基于所述至少一条难例样本的人工校准结果更新所述第一标注样本集,得到所述未标注样本集对应的第二标注样本集。
可选的,在本公开的一种可能实现中,所述标注单元2102,具体用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述对象标注模型是基于人工标注样本集对预设网络进行训练得到的。
可选的,在本公开的一种可能实现中,该对象标注装置,还包括:
指示获取单元(未示出),用于获取用户在人机交互界面上发出的难例样本校验指示;
结果展示单元(未示出),用于基于所述难例样本校验指示,在所述人机交互界面上逐条展示所述至少一条难例样本的对象标注结果;
人工校准单元(未示出),用于基于用户对各对象标注结果的校准操作,得到所述至少一个难例样本的人工校准结果。
本实施例提供的对象标注装置,可用于执行上述任意方法实施例中的对象标注方法,其实现原理和技术效果类似,此处不做作赘述。
图22是本公开实施例提供的一种对象标注模型的处理装置的结构示意图。本实施例提供的对象标注模型的处理装置可以为上述图3所示示意图中的处理设备,也可以是一种电子设备或者为电子设备中的装置。如图22所示,本公开实施例提供的对象标注模型的处理装置2200可以包括:
第一获取单元2201,用于获取待处理的样本集,所述样本集包括人工标注样本集和未标注样本集;
难例确定单元2202,用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,所述对象标注模型是基于所述人工标注样本集对预设网络进行训练得到的;
模型更新单元2203,用于基于所述至少一条难例样本的人工校准结果更新所述对象标注模型。
在本公开实施例的一种可能设计中,所述难例确定单元2202,包括:
对象标注模块,用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
第一难例确定模块,用于基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本。
在本公开实施例的一种可能设计中,所述人工标注样本集包括训练样本集和测试样本集;所述对象标注模型是基于所述训练样本集对所述预设网络进行训练得到的;
所述装置还包括:
测试标注单元,用于利用所述对象标注模型对所述测试样本集进行对象标注,得到所述测试样本集中各测试样本的对象标注结果;
准确度确定单元,用于基于所述测试样本集中各测试样本的对象标注结果和所述测试样本集中各测试样本的人工标注结果,确定所述对象标注模型的标注准确度。
在本公开实施例的一种可能设计中,所述难例确定单元2202,包括:
第一判断模块,用于确定所述标注准确度是否小于准确度阈值;
第二难例确定模块,用于响应于所述标注准确度是否小于准确度阈值,利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
在本公开实施例的一种可能设计中,所述难例确定单元2202,包括:
展示模块,用于在人机交互界面展示所述标注准确度;
第二判断模块,用于判断是否获取到用户针对所述标注准确率发出的效果提升指示;
第三难例确定模块,用于响应于获取到所述效果提升指示,利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
在本公开实施例的一种可能设计中,所述装置,还包括:
指示获取单元,用于获取用户在人机交互界面上发出的难例样本校验指示;
结果展示单元,用于基于所述难例样本校验指示,在所述人机交互界面上逐条展示所述至少一条难例样本的对象标注结果;
人工校准单元,用于基于用户对各对象标注结果的校准操作,得到所述至少一个难例样本的人工校准结果。
在本公开实施例的一种可能设计中,所述装置,还包括:
第二获取单元,用于获取待标注样本集,所述待标注样本集包括至少两条待标注样本;
操作获取单元,用于获取用户对至少一条待标注样本中各对象的标注操作,得到至少一条人工标注样本;
条件判断单元,用于根据所述待标注样本集中的样本数量和所述至少一条人工标注样本的数量,判断所述至少一条人工标注样本是否满足模型训练条件;
样本集确定单元,用于响应于所述至少一条人工标注样本满足模型训练条件,得到所述人工标注样本集和所述未标注样本集,所述人工标注样本集包括所述至少一条人工标注样本。
其中,所述操作获取单元,包括:
浮层呈现模块,用于针对所述至少一条待标注样本中的目标对象,基于用户对所述目标对象的选择操作,在所述目标对象的第一侧呈现预置标签浮层;
标签确定模块,用于基于用户在所述预置标签浮层中的点选动作,确定所述目标对象的对象标签,所述预置标签浮层包括至少两个标签;
显示控制模块,用于控制所述目标对象的对象标签显示在所述目标对象的第一侧,得到所述目标对象的人工标注结果;
标注样本确定单元,用于响应于确定所述至少一条待标注样本中的对象均具有对象标签,得到所述至少一条人工标注样本。
可选的,所述操作获取单元,还包括:
对象遍历模块,用于响应于检测到公共标签功能处于激活状态,遍历第一待标注样本中的所有所述目标对象,所述第一待标注样本为具有至少一个所述目标对象的一条样本;
标签设定模块,用于为所述第一待标注样本中的所有所述目标对象添加所述对象标签,并显示在每个目标对象的第一侧。
本实施例提供的对象标注模型的处理装置,可用于执行上述任意方法实施例中的对象标注模型的处理方法,其实现原理和技术效果类似,此处不做作赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图23是用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图23所示,设备2300包括计算单元2301,其可以根据存储在只读存储器(ROM)2302中的计算机程序或者从存储单元2308加载到随机访问存储器(RAM)2303中的计算机程序,来执行各种适当的动作和处理。在RAM 2303中,还可存储设备2300操作所需的各种程序和数据。计算单元2301、ROM 2302以及RAM 2303通过总线2304彼此相连。输入/输出(I/O)接口2305也连接至总线2304。
设备2300中的多个部件连接至I/O接口2305,包括:输入单元2306,例如键盘、鼠标等;输出单元2307,例如各种类型的显示器、扬声器等;存储单元2308,例如磁盘、光盘等;以及通信单元2309,例如网卡、调制解调器、无线通信收发机等。通信单元2309允许设备2300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元2301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元2301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元2301执行上文所描述的各个方法和处理,例如,对象标注方法和/或对象标注模型的处理方法。例如,在一些实施例中,对象标注方法和/或对象标注模型的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元2308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 2302和/或通信单元2309而被载入和/或安装到设备2300上。当计算机程序加载到RAM2303并由计算单元2301执行时,可以执行上文描述的对象标注方法和/或对象标注模型的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元2301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行对象标注方法和/或对象标注模型的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种对象标注方法,包括:
获取待处理的未标注样本集;
对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本;
基于所述至少一条难例样本的人工校准结果更新所述第一标注样本集,得到所述未标注样本集对应的第二标注样本集。
2.根据权利要求1所述的方法,所述对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,包括:
利用对象标注模型对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述对象标注模型是基于人工标注样本集对预设网络进行训练得到的。
3.根据权利要求1或2所述的方法,在所述基于所述至少一条难例样本的人工校准结果更新所述第一标注样本集之前,还包括:
获取用户在人机交互界面上发出的难例样本校验指示;
基于所述难例样本校验指示,在所述人机交互界面上逐条展示所述至少一条难例样本的对象标注结果;
基于用户对各对象标注结果的校准操作,得到所述至少一个难例样本的人工校准结果。
4.一种对象标注模型的处理方法,包括:
获取待处理的样本集,所述样本集包括人工标注样本集和未标注样本集;
利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,所述对象标注模型是基于所述人工标注样本集对预设网络进行训练得到的;
基于所述至少一条难例样本的人工校准结果更新所述对象标注模型。
5.根据权利要求4所述的方法,其中,所述利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,包括:
利用对象标注模型对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本。
6.根据权利要求4或5所述的方法,所述人工标注样本集包括训练样本集和测试样本集;所述对象标注模型是基于所述训练样本集对所述预设网络进行训练得到的;
所述方法还包括:
利用所述对象标注模型对所述测试样本集进行对象标注,得到所述测试样本集中各测试样本的对象标注结果;
基于所述测试样本集中各测试样本的对象标注结果和所述测试样本集中各测试样本的人工标注结果,确定所述对象标注模型的标注准确度。
7.根据权利要求6所述的方法,所述利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,包括:
确定所述标注准确度是否小于准确度阈值;
响应于所述标注准确度是否小于准确度阈值,利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
8.根据权利要求6所述的方法,所述利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,包括:
在人机交互界面展示所述标注准确度;
判断是否获取到用户针对所述标注准确率发出的效果提升指示;
响应于获取到所述效果提升指示,利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
9.根据权利要求4至8任一项所述的方法,在所述基于所述至少一条难例样本的人工校准结果更新所述对象标注模型之前,还包括:
获取用户在人机交互界面上发出的难例样本校验指示;
基于所述难例样本校验指示,在所述人机交互界面上逐条展示所述至少一条难例样本的对象标注结果;
基于用户对各对象标注结果的校准操作,得到所述至少一个难例样本的人工校准结果。
10.根据权利要求4至9任一项所述的方法,在所述获取待处理的样本集之前,还包括:
获取待标注样本集,所述待标注样本集包括至少两条待标注样本;
获取用户对至少一条待标注样本中各对象的标注操作,得到至少一条人工标注样本;
根据所述待标注样本集中的样本数量和所述至少一条人工标注样本的数量,判断所述至少一条人工标注样本是否满足模型训练条件;
响应于所述至少一条人工标注样本满足模型训练条件,得到所述人工标注样本集和所述未标注样本集,所述人工标注样本集包括所述至少一条人工标注样本。
11.根据权利要求10所述的方法,其中,所述获取用户对至少一条待标注样本中各对象的标注操作,得到至少一条人工标注样本,包括:
针对所述至少一条待标注样本中的目标对象,基于用户对所述目标对象的选择操作,在所述目标对象的第一侧呈现预置标签浮层;
基于用户在所述预置标签浮层中的点选动作,确定所述目标对象的对象标签,所述预置标签浮层包括至少两个标签;
控制所述目标对象的对象标签显示在所述目标对象的第一侧,得到所述目标对象的人工标注结果;
响应于确定所述至少一条待标注样本中的对象均具有对象标签,得到所述至少一条人工标注样本。
12.根据权利要求11所述的方法,在所述响应于确定所述至少一条待标注样本中的对象均具有对象标签,得到所述至少一条人工标注样本之前,还包括:
响应于检测到公共标签功能处于激活状态,遍历第一待标注样本中的所有所述目标对象,所述第一待标注样本为具有至少一个所述目标对象的一条样本;
为所述第一待标注样本中的所有所述目标对象添加所述对象标签,并显示在每个目标对象的第一侧。
13.一种对象标注装置,包括:
获取单元,用于获取待处理的未标注样本集;
标注单元,用于对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
确定单元,用于基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本;
更新单元,用于基于所述至少一条难例样本的人工校准结果更新所述第一标注样本集,得到所述未标注样本集对应的第二标注样本集。
14.根据权利要求13所述的装置,所述标注单元,具体用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述对象标注模型是基于人工标注样本集对预设网络进行训练得到的。
15.根据权利要求13或14所述的装置,还包括:
指示获取单元,用于获取用户在人机交互界面上发出的难例样本校验指示;
结果展示单元,用于基于所述难例样本校验指示,在所述人机交互界面上逐条展示所述至少一条难例样本的对象标注结果;
人工校准单元,用于基于用户对各对象标注结果的校准操作,得到所述至少一个难例样本的人工校准结果。
16.一种对象标注模型的处理装置,包括:
第一获取单元,用于获取待处理的样本集,所述样本集包括人工标注样本集和未标注样本集;
难例确定单元,用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本,所述对象标注模型是基于所述人工标注样本集对预设网络进行训练得到的;
模型更新单元,用于基于所述至少一条难例样本的人工校准结果更新所述对象标注模型。
17.根据权利要求16所述的装置,其中,所述难例确定单元,包括:
对象标注模块,用于利用对象标注模型对所述未标注样本集中的样本进行对象标注,得到第一标注样本集,所述第一标注样本集中的各标注样本携带对象标注结果和标注置信度;
第一难例确定模块,用于基于所述第一标注样本集中各标注样本的标注置信度和置信度阈值,确定所述第一标注样本集中的至少一条难例样本。
18.根据权利要求16或17所述的装置,所述人工标注样本集包括训练样本集和测试样本集;所述对象标注模型是基于所述训练样本集对所述预设网络进行训练得到的;
所述装置还包括:
测试标注单元,用于利用所述对象标注模型对所述测试样本集进行对象标注,得到所述测试样本集中各测试样本的对象标注结果;
准确度确定单元,用于基于所述测试样本集中各测试样本的对象标注结果和所述测试样本集中各测试样本的人工标注结果,确定所述对象标注模型的标注准确度。
19.根据权利要求18所述的装置,所述难例确定单元,包括:
第一判断模块,用于确定所述标注准确度是否小于准确度阈值;
第二难例确定模块,用于响应于所述标注准确度是否小于准确度阈值,利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
20.根据权利要求18所述的装置,所述难例确定单元,包括:
展示模块,用于在人机交互界面展示所述标注准确度;
第二判断模块,用于判断是否获取到用户针对所述标注准确率发出的效果提升指示;
第三难例确定模块,用于响应于获取到所述效果提升指示,利用对象标注模型对所述未标注样本集中的样本进行对象标注,确定出至少一条难例样本。
21.根据权利要求16至20任一项所述的装置,还包括:
指示获取单元,用于获取用户在人机交互界面上发出的难例样本校验指示;
结果展示单元,用于基于所述难例样本校验指示,在所述人机交互界面上逐条展示所述至少一条难例样本的对象标注结果;
人工校准单元,用于基于用户对各对象标注结果的校准操作,得到所述至少一个难例样本的人工校准结果。
22.根据权利要求16至20任一项所述的装置,还包括:
第二获取单元,用于获取待标注样本集,所述待标注样本集包括至少两条待标注样本;
操作获取单元,用于获取用户对至少一条待标注样本中各对象的标注操作,得到至少一条人工标注样本;
条件判断单元,用于根据所述待标注样本集中的样本数量和所述至少一条人工标注样本的数量,判断所述至少一条人工标注样本是否满足模型训练条件;
样本集确定单元,用于响应于所述至少一条人工标注样本满足模型训练条件,得到所述人工标注样本集和所述未标注样本集,所述人工标注样本集包括所述至少一条人工标注样本。
23.根据权利要求22所述的装置,其中,所述操作获取单元,包括:
浮层呈现模块,用于针对所述至少一条待标注样本中的目标对象,基于用户对所述目标对象的选择操作,在所述目标对象的第一侧呈现预置标签浮层;
标签确定模块,用于基于用户在所述预置标签浮层中的点选动作,确定所述目标对象的对象标签,所述预置标签浮层包括至少两个标签;
显示控制模块,用于控制所述目标对象的对象标签显示在所述目标对象的第一侧,得到所述目标对象的人工标注结果;
标注样本确定单元,用于响应于确定所述至少一条待标注样本中的对象均具有对象标签,得到所述至少一条人工标注样本。
24.根据权利要求23所述的装置,所述操作获取单元,还包括:
对象遍历模块,用于响应于检测到公共标签功能处于激活状态,遍历第一待标注样本中的所有所述目标对象,所述第一待标注样本为具有至少一个所述目标对象的一条样本;
标签设定模块,用于为所述第一待标注样本中的所有所述目标对象添加所述对象标签,并显示在每个目标对象的第一侧。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至3中任一项所述的对象标注方法和/或权利要求4至12中任一项所述的对象标注模型的处理方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1至3中任一项所述的对象标注方法和/或权利要求4至12中任一项所述的对象标注模型的处理方法。
27.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至3中任一项所述的对象标注方法的步骤和/或权利要求4至12中任一项所述的对象标注模型的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381006.2A CN114676790A (zh) | 2022-04-12 | 2022-04-12 | 对象标注、模型的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381006.2A CN114676790A (zh) | 2022-04-12 | 2022-04-12 | 对象标注、模型的处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676790A true CN114676790A (zh) | 2022-06-28 |
Family
ID=82078731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210381006.2A Pending CN114676790A (zh) | 2022-04-12 | 2022-04-12 | 对象标注、模型的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676790A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN111028224A (zh) * | 2019-12-12 | 2020-04-17 | 广西医准智能科技有限公司 | 数据标注、模型训练和图像处理方法、装置及存储介质 |
CN111859872A (zh) * | 2020-07-07 | 2020-10-30 | 中国建设银行股份有限公司 | 一种文本标注方法和装置 |
CN112529026A (zh) * | 2019-09-17 | 2021-03-19 | 华为技术有限公司 | 提供ai模型的方法、ai平台、计算设备及存储介质 |
CN112699908A (zh) * | 2019-10-23 | 2021-04-23 | 武汉斗鱼鱼乐网络科技有限公司 | 标注图片的方法、电子终端、计算机可读存储介质及设备 |
CN113591885A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 目标检测模型训练方法、设备及计算机存储介质 |
CN113935389A (zh) * | 2020-06-29 | 2022-01-14 | 华为技术有限公司 | 数据标注的方法、装置、计算设备和存储介质 |
-
2022
- 2022-04-12 CN CN202210381006.2A patent/CN114676790A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN112529026A (zh) * | 2019-09-17 | 2021-03-19 | 华为技术有限公司 | 提供ai模型的方法、ai平台、计算设备及存储介质 |
CN112699908A (zh) * | 2019-10-23 | 2021-04-23 | 武汉斗鱼鱼乐网络科技有限公司 | 标注图片的方法、电子终端、计算机可读存储介质及设备 |
CN111028224A (zh) * | 2019-12-12 | 2020-04-17 | 广西医准智能科技有限公司 | 数据标注、模型训练和图像处理方法、装置及存储介质 |
CN113591885A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 目标检测模型训练方法、设备及计算机存储介质 |
CN113935389A (zh) * | 2020-06-29 | 2022-01-14 | 华为技术有限公司 | 数据标注的方法、装置、计算设备和存储介质 |
CN111859872A (zh) * | 2020-07-07 | 2020-10-30 | 中国建设银行股份有限公司 | 一种文本标注方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725827B2 (en) | Artificial intelligence based virtual automated assistance | |
CN113391871B (zh) | 一种rpa元素智能融合拾取的方法与系统 | |
CN113836925B (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN114997414B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114925143A (zh) | 逻辑模型血缘关系的描述方法、装置、设备、介质及产品 | |
KR20230007268A (ko) | 임무 처리 방법, 임무 처리 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN113361240B (zh) | 用于生成目标文章的方法、装置、设备和可读存储介质 | |
CN112784588B (zh) | 用于标注文本的方法、装置、设备以及存储介质 | |
CN113032258A (zh) | 一种电子地图的测试方法、装置、电子设备及存储介质 | |
CN111611364A (zh) | 一种智能应答方法、装置、设备及存储介质 | |
CN114035729B (zh) | 电子投票方法及装置、终端设备 | |
CN114676790A (zh) | 对象标注、模型的处理方法、装置、设备及存储介质 | |
CN113554062B (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN113190154B (zh) | 模型训练、词条分类方法、装置、设备、存储介质及程序 | |
CN115577106A (zh) | 基于人工智能的文本分类方法、装置、设备和介质 | |
CN115186738A (zh) | 模型训练方法、装置和存储介质 | |
CN114461886A (zh) | 一种标注方法、装置、电子设备及存储介质 | |
CN112288696B (zh) | 一种辅助质检方法、装置、电子设备及存储介质 | |
CN117573561B (zh) | 一种自动化测试系统、方法、电子设备和存储介质 | |
CN115146604B (zh) | 一种接口技术文档的生成方法、装置、设备及存储介质 | |
US20220383626A1 (en) | Image processing method, model training method, relevant devices and electronic device | |
CN113962382A (zh) | 训练样本的构建方法、装置、电子设备和可读存储介质 | |
CN118034539A (zh) | 信息交互方法和装置、系统、电子设备、计算机可读介质 | |
CN113887670A (zh) | 目标预测方法、模型训练方法、装置、设备、介质 | |
CN113360624A (zh) | 训练方法、应答方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220628 |