CN112070224B - 一种神经网络训练用样本的修订系统及方法 - Google Patents
一种神经网络训练用样本的修订系统及方法 Download PDFInfo
- Publication number
- CN112070224B CN112070224B CN202010871894.7A CN202010871894A CN112070224B CN 112070224 B CN112070224 B CN 112070224B CN 202010871894 A CN202010871894 A CN 202010871894A CN 112070224 B CN112070224 B CN 112070224B
- Authority
- CN
- China
- Prior art keywords
- sample
- module
- revised
- samples
- auditing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000002372 labelling Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 46
- 238000012550 audit Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 17
- 239000003550 marker Substances 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种神经网络训练用样本的修订系统及方法,系统包括服务终端和客户前端;服务终端设置为存储样本,将样本分发给客户前端,接收并存储客户前端的处理结果,并根据处理结果生成统计展示;客户前端设置为接收样本,执行修订处理,将处理结果传递到服务终端。服务终端包括存储模块和统计模块;客户前端包括标注模块和审核模块;标注模块包括预处理单元和精处理单元;审核模块还可以设置为对修订质量进行评分。本发明可以实现多个客户前端同时对同一个数据集中的样本进行修订,加快了样本的修订进度,节省了时间成本;内置自动预处理单元,减少后续精处理的工作量;设立审核评分机制,既不打击标注者的积极性,又提升数据集样本的可靠性。
Description
技术领域
本发明涉及神经网络领域,尤其涉及一种神经网络训练用样本的修订系统及方法。
背景技术
神经网络是目前人工智能领域进步最快、热度最高的研究领域,其在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理和个性化推荐领域都有着广泛应用。其实是一个复杂的机器学习算法,通过学习海量样本数据的内在规律和表达层次,从而让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。随着人工智能实际应用范围的增广与应用场景的深入,对深度学习模型预测准确率的要求越来越高,同时,随着实际需求的逐渐明确,对深度模型输出的结果种类或格式也有相应变化。
众所周知,深度模型的训练需要依赖数万到数十万个经过标注的样本,作为训练数据。收集和标注如此大量的有效数据,其时间成本与金钱成本都是极高的,而如上所说,需求一直在不断变化,要满足新的需求,就需要新的训练数据,每次都重新收集与标注样本,成本显然是无法接受的。另外,原始样本集在标注过程中总有或多或少的错误,例如在图像标注样本集中,没有把所有人体区域标注出来,也就是漏标,或将非人体区域标注为人体,也就是错标。而训练样本的质量直接关系着最终训练出的模型的准确率。
发明内容
本发明的目的在于提供一种通用型神经网络训练用样本的修订系统及方法,用以解决现有技术中存在的问题。
为实现上述目的,本发明公开了一种神经网络训练用样本的修订系统,包括:服务终端和客户前端;
所述服务终端设置为存储样本,将所述样本分发给所述客户前端,接收并存储所述客户前端的处理结果,并根据所述处理结果生成统计展示;
所述客户前端设置为接收所述样本,执行修订处理,将处理结果传递到所述服务终端。
在一些较优的实施例中,所述服务终端包括存储模块和统计模块;
所述存储模块设置为接收样本,将其分为待修订样本和已修订样本分别存储;
所述统计模块设置为从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。
在一些较优的实施例中,所述客户前端包括标注模块和审核模块;
所述标注模块设置为从所述存储模块加载待修订样本,预处理后进行标注,得到第一样本,将所述第一样本传递给所述审核模块;
所述审核模块设置为接收所述第一样本,审核标注是否合格,若是,将所述第一样本作为已修订样本传递给所述服务终端,若否,向所述标注模块传递审核意见,并将所述第一样本作为待修订样本传递给所述标注模块。
在一些较优的实施例中,所述标注模块包括预处理单元和精处理单元;
所述预处理单元设置为从所述存储模块加载待修订样本,根据其修订需求选择匹配的预处理算法进行预处理,得到第二样本,将所述第二样本传递给所述精确标注单元;
所述精处理单元设置为接收所述第二样本进行精确处理,得到所述第一样本,将所述第一样本传递给所述审核模块。
在一些较优的实施例中,所述审核模块还可以设置为对已修订样本的修订质量进行评分。
在一些较优的实施例中,所述服务终端还包括展示模块;所述展示模块设置为从所述统计模块加载分析报告并展示。
本发明还公开了一种神经网络训练用样本的修订方法,包括以下步骤:
步骤S1.标注客户前端从服务终端的存储模块加载待修订样本,标注后作为第一样本传递给审核客户前端;
步骤S2.所述审核客户前端对所述第一样本的标注结果进行审核,若审核合格,则将样本存储到服务器存储模块;若审核不合格,将所述第一样本作为待修订样本传递给所述标注客户前端并反馈审核意见;
步骤S3.统计模块从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。
进一步的是,步骤S1中所述标注的具体方法为:
从所述存储模块加载待修订样本,根据其修订需求选择匹配的预处理算法进行预处理,得到第二样本,然后对所述第二样本进行精确标注,得到所述第一样本。
进一步的是,步骤S2所述审核还包括:对已修订样本的修订质量进行评分。
进一步的是,步骤S3还包括:将所述分析报告传递给展示模块进行展示。
本发明与现有的技术相比,其有益的特点是:
1、多个客户前端可同时对同一个数据集中的样本进行修订,大大加快了样本的修订进度,节省了时间成本;
2、内置的自动预处理单元,可以减少后续精处理的工作量,特别是精处理为人工标注时,该单元可以大大的降低人工工作量,进一步的节约时间成本;
3、通过提供易用的图形界面控件,提高了客户前端的修订效率;
4、通过有效的审核反馈机制,帮助人工标注者更快地明确标注问题,提升标注质量;
5、通过设立审核评分机制,既不打击人工标注者的积极性,又能提升数据集中样本的可靠性;
6、通过统计模块生成分析报告并展示出来,可以让管理者更好的掌控修订进度。
附图说明
图1为本发明一种较优实施例中一种神经网络训练用样本的修订系统的结构图;
图2为本发明一种较优实施例中标注模块的结构图;
图3为本发明一种较优实施例中服务终端的结构图;
图4为本发明一种较优实施例中一种神经网络训练用样本的修订方法的流程图;
图5为本发明一种较优实施例中统计模块生成的分析报告示意图;
图6为本发明一种较优实施例中精处理单元提供的图形界面和操作控件示意图;
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示,是本发明提供的一种神经网络训练用样本的修订系统的结构图,包括:服务终端和客户前端。
所述服务终端设置为存储样本,将所述样本分发给所述客户前端,接收并存储所述客户前端的处理结果,并根据所述处理结果生成统计展示;所述客户前端设置为接收所述样本,执行修订处理,将处理结果传递到所述服务终端。
其中,所述服务终端可以是云端或本地服务器,所述客户前端可以是通过网线或无线信号与服务终端连接,也可以是与本地服务终端共处同一个局域网。
本发明所述样本是神经网络模型所需处理对象的样本数据,根据处理对象的不同,样本类别也不相同。例如,用于图像分割的样本为图像数据,用于语音识别的样本为语音数据,用于信息分析的样本为信息数据。本发明所公开的样本处理系统对于各类样本均可进行处理,本领域技术人员应当知晓,各类型样本的处理流程共同点在于对样本的特征进行标注修订,例如用于人像分割的样本需要标注人物和背景,用于目标人物语音识别的样本需要标注目标人物语音和背景杂音,用于天气预测的样本需要标注影响天气变化的要素和失真要素。而样本的具体标注方法不是本发明的重点,可以采用本领域常用的标注方法。基于同样的发明构思,本申请的技术方案还可以应用于语音识别、数据分析、人脸关键点检测、人体骨骼点检测、单目图像深度估计、通用物体检测等,凡是需要提升神经网络训练样本质量、或修订训练样本标签的领域。进一步的是,所述数据集是指由多个同类样本组成的集合。
所述服务终端包括存储模块和统计模块。
所述存储模块设置为接收样本,将其分为待修订样本和已修订样本分别存储。在一些较优的实施例中,可以采用分布式存储技术处理存储各类样本。所述存储模块在接受样本后,需要对样本的类别以及处理情况进行判定,然后分类进行存储。其中,类别的判定情况如前所述,在此不再赘述。对处理情况的判定,可以将样本分为待修订样本和已修订样本。其中,所述待修订样本可以是新加入的数据集中的样本,也可以是之前已经使用过,但需要进行进一步处理以适应新模型的样本。在一些较优的实施例中,可以是为样本添加类别特征标签以达到分类的目的。
所述统计模块设置为从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。其中,所述加载的具体实施方式可以是从存储模块下载,也可以是存储模块根据工作计划或操作者指令发送到统计模块。本发明对此不作进一步的限定。另一方面,所述样本特征信息包括但不限于:表征样本自身属性的信息,如样本类别、数量、可应用范围、编号、所述数据集编号等信息;表征样本修订情况的信息,如标注样本的客户前端编号、审核样本修订结果的客户前端编号、审核结果、修订所耗时间等信息。
进一步的是,所述生成分析报告具体包括但不限于:当修订工作进行到一定阶段或达到设定条件(数量或时间条件)时,统计模块从存储模块获取当前数据集或样本标注进度,包括剩余样本数量,合格样本数量,各个标注者绩效,各个审核者绩效等信息,并将统计结果输出以供管理者查阅,由管理者决定是否追加新的待标注数据,导出新数据集用于训练,以及结算薪资等。
在一些较优的实施例中,所述客户前端包括标注模块和审核模块。
所述标注模块设置为从所述存储模块加载待修订样本,预处理后进行标注,得到第一样本,将所述第一样本传递给所述审核模块。
应当理解的是,本发明中所述传递并不局限于单向
在本发明的实施例中,所述修订包括两方面内容:标注和审核。其中,所述标注是指根据样本处理的需要对样本元素进行自动或人工标注,已达到机器能够识别的目的;所述审核是对标注结果进行自动或人工的检验,以确定标注是否合格。
在一些较优的实施例中,如图2所示,所述标注模块包括预处理单元和精处理单元。
所述预处理单元是集成了一系列自动处理算法与模型,在面对不同的修订目标时,使用对应的算法和模型预处理原始数据,将其设置为从所述存储模块加载待修订样本,根据其修订需求选择匹配的预处理算法进行预处理,得到第二样本,将所述第二样本传递给所述精确标注单元。
本领域的技术人员应当知晓,预处理单元的自动处理算法与模型可以根据处理对象的不同有对应的设置。在处理精细抠图样本的实施例中,所述预处理为:执行粗分割抠图算法,并将抠图结果作为参考标签,供后续步骤使用;在处理人脸识别图像样本的实施例中,所述预处理为:执行人脸关键点预测算法,并将预测结果作为参考标签,供后续步骤使用;在处理变声器声音样本的实施例中,所述预处理为:执行人声音轨提取算法,并将提取结果作为参考标签,供后续步骤使用;在处理极端提前预测样本的实施例中,所述预处理为:执行天气恶劣程度分类算法,将初步划分为极端天气的结果作为参考标签,供后续步骤使用。以上实施例仅是在应用预处理单元时的部分举例,不用于限定本发明的预处理单元。本领域的技术人员应当可以根据本发明的精神对待处理样本的前期步骤编译或移植对应的算法以完成相应步骤的预处理。本发明对其不再赘述。进一步的是,本发明的预处理单元还提供了可供扩展的接口,方便本领域技术人员根据实际修订样本与目标的不断新增、变化,接入更多的自动处理算法与模型。
所述精处理单元设置为接收所述第二样本进行精确处理,得到所述第一样本,将所述第一样本传递给所述审核模块。在一些较优的实施例中,所述精处理单元可以是提供图形界面和操作控件以供人工进行标注处理的程序端,也可以是执行根据预定标注目标编译的自动算法或模型的程序端。在一种较优的实施例中,人工图像精处理单元提供的控件可以包括但不限于:用于展示样本的图像预览控件,用于纠正错标区域的画笔控件,用于截取需要保留区域的框选控件等等。进一步的是,本发明的精处理单元还提供了可供扩展的接口,方便本领域技术人员根据实际修订样本与目标的不断新增、变化,接入更多的控件。
进一步的是,所述审核模块设置为接收所述第一样本,审核标注是否合格,若是,将所述第一样本作为已修订样本传递给所述服务终端,若否,向所述标注模块传递审核意见,并将所述第一样本作为待修订样本传递给所述标注模块。
在一些较优的实施例中,所述审核模块可以是提供图形界面和操作控件以供人工进行审核处理的程序端,也可以是执行根据预定审核方法编译的自动算法或模型的程序端。
进一步的是,所述审核模块还可以设置为对已修订样本的修订质量进行评分。这样的设置是基于以下的考虑:每份样本的标注都有一定的时间成本,但标注结果并不一定完全合格,会由于标注者或标注程序的表现出现高低差异,因此在此引入评分机制,一方面可以按评分高低比例给标注者结算薪资提供参考,另一方面可以在使用这些样本进行训练时根据评分设定对应的权重,以此来抑制标注较差的样本产生的噪声。这样既可以不打击标注者积极性,又可以提升数据集的可靠性。
进一步的是,如图3所示,所述服务终端还包括展示模块;所述展示模块设置为从所述统计模块加载分析报告并展示。本领域的技术人员应当知晓,所述展示模块可以是用于展示文字或图像信息的显示屏或显示设备端,也可以是打印设备。
更进一步的是,如图4所示,本发明还公开了一种神经网络训练用样本的修订方法,包括以下步骤:
步骤S1.标注客户前端从服务终端的存储模块加载待修订样本,标注后作为第一样本传递给审核客户前端;
步骤S2.所述审核客户前端对所述第一样本的标注结果进行审核,若审核合格,则将样本存储到服务器存储模块;若审核不合格,将所述第一样本作为待修订样本传递给所述标注客户前端并反馈审核意见;
步骤S3.统计模块从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。
在一些较优的实施例中,步骤S1中所述标注的具体方法为:
从所述存储模块加载待修订样本,根据其修订需求选择匹配的预处理算法进行预处理,得到第二样本,然后对所述第二样本进行精确标注,得到所述第一样本。
在一些较优的实施例中,步骤S2所述审核还包括:对已修订样本的修订质量进行评分。
在一些较优的实施例中,步骤S3还包括:将所述分析报告传递给展示模块进行展示。
实施例
为了方便本领域技术人员更好的理解本发明的技术方案,也为了对说明书中的记载作进一步的补充,现在给出本发明的技术方案在应用于图像样本的修订系统的实施例。应当理解的是,本实施例并不用于限定本发明的应用范围,基于同样的发明构思,本申请的技术方案还可以应用于语音识别、数据分析、人脸关键点检测、人体骨骼点检测、单目图像深度估计、通用物体检测等,凡是需要提升神经网络训练样本质量、或修订训练样本标签的领域。
本实施例所提供的样本修订系统包括服务终端和客户前端。所述客户前端按使用修订模块的不同可以分为:使用标注模块的客户前端称为标注者,使用审核模块的客户前端称为审核者。所述服务终端还包括存储模块和统计模块。其中,所述存储模块使用关系型数据库来管理客户前端与标注样本等信息,数据库中至少包含三张表,分别是客户前端信息表lm_user,待标注数据表lm_annotate和新数据集表lm_verify,下面分别简要描述各表的关键结构。
表1 lm_user表
Field | Type | Null | Key | Default | Extra |
user_name | varchar(30) | NO | PRI | NULL | |
password | varchar(50) | NO | NULL | ||
user_type | tinyint(4) | NO | NULL |
其中,user_name存放客户前端名称,password存放客户前端密码,user_type标示该客户前端是标注者还是审查者或是管理员。
表2 lm_annotate表
Field | Type | Null | Key | Default | Extra |
sample_id | bigint(20)unsigned | NO | PRI | NULL | auto_increment |
sample_name | text | NO | NULL | ||
sample_status | tinyint(4) | NO | NULL | ||
update_time | datetime | NO | NULL | ||
anno_existed | longtext | NO | NULL | ||
anno_pinguo | longtext | NO | NULL | ||
worker_name | varchar(30) | NO | MUL | NULL |
其中sample_id表示待标注样本的唯一编号,sample_name为该样本的名称或存储路径,sample_status表示当前样本状态,update_time表示最后一次操作该样本的时间,anno_existed存放该样本目前的标签,即待修订的标签,anno_pinguo存放标注者修订后的新标签,即待审核的标签,worker_name存放标注者名称,issues用于存放审核者的修改建议。存储模块在接收到待修订样本时,将所述待修订样本逐一添加到lm_annotate表中,并初始化相应字段。
具体的,sample_status包含至少7种状态,描述了一个样本在修订过程中的完整生命周期,具体状态及意义如下表3所示。
此处的样本,针对不同的神经网络训练任务时,则为不同的类型,例如,针对精细抠图、物体检测、人脸关键点检测等计算机视觉类任务时,样本为图像数据,针对语音识别、机器翻译等自然语言处理类任务时,样本为语音或文本语料数据。
表3 sample_status含义表
表4 lm_verify表
其中sample_id表示验收合格的样本的唯一编号,sample_name为该样本的名称或路径,submit_time存放该样本的提交时间,anno_pinguo_final存放验收合格的样本标签,score为审核者对该标注标签的评分,inspector_name存放审核者名称。
在另一种较优的实施例中,为了方便对标注者、审核者、管理员等不同权限的用户进行管理,所述服务器端还可以包括注册单元,所述注册单元设置为向标注者、审核者、管理员开放权限不同的用户账户,并在用户登录时校验用户是否存在于lm_user表中以及用户的权限。
进一步的是,如图5所示,所述统计模块设置为从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。具体的,包括但不限于统计各个状态的样本数量、各个标注者所修订的样本状态及数量、各个审核者的审核数量。
所述客户前端包括标注模块和审核模块。
所述标注模块还包括预处理单元和精处理单元。
所述预处理单元集成一系列自动处理算法与模型,在面对不同的修订目标样本时,使用对应的算法和模型预处理样本,然后传递给精处理单元。预处理单元包括但不限于以下算法与模型:
样本合成算法与模型:用于修订抠图与分割数据集时的样本预处理;
样本抠图算法与模型:用于把粗略分割数据集修订为精细抠图数据集时的样本预处理;
人脸关键点检测算法与模型:用于提升人脸关键点预测模型精度时的样本预处理;
物体检测算法与模型:用于提升物体检测模型精度或增加物体检测类别时的数据预处理;
语音识别算法与模型:用于提升语音识别模型精度或增加语言语种类别时的数据预处理;
人体骨骼点检测算法与模型:用于提升人体骨骼点预测精度,或增加新的骨骼点位时的数据预处理;
机器翻译算法与模型:用于提升机器翻译模型的准确度时或新增目标翻译语言的支持时的语料数据预处理;
预处理算法算法与模型:调用与当前修订目标匹配的预处理算法,处理样本。
本模块中的预处理单元具有可灵活扩展的接口,可以按实际修订目标的不断新增而添加更多预处理算法与模型。
如图6所示,所述精处理单元为提供图形界面和操作控件以供人工进行标注处理的程序端。主要提供一个图形用户界面,以及一系列手动修订数据所必须的交互控件,负责人为修订数据,并决定数据去向,主要控件包括:
语音回放组件:实现语音数据的播放、暂停、打点、示波等功能;
语音截取组件:实现语音数据的截取、剪接等编辑功能;
文本标签录入组件:实现与当前正在修订的语音数据相匹配的标签录入功能;
图像预览组件:实现图像显示、放大、缩小、任意拖拽等功能;
图像裁剪组件:实现多区域图像裁剪,保留需要的图像区域;
图像区域框选组件:在图像上框选出若干所需要的区域,且选框尺寸支持跟随图像缩放,选框也可独立删除、移动和缩放;
图像关键点标注组件:在图像上点选出若干关键点位,且点位支持跟随图像缩放;
画笔组件:在图像上绘制任意蒙版区域,或配合分割算法匹配相似区域。
该单元中的交互控件同样可以按照实际修订目标新增更多控件。
所述审核模块设置为接收标注者处理后的样本,并根据审核规则进行审核,将合格的样本结果存入lm_verify表中,生成相应的记录字段并对标注质量进行评分;将不合格结果存入lm_annotate表中,并将需要再次修正的问题记录入issues字段,并将审核结果反馈给标注者。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
专业人员可以意识到,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
专业人员还可以进一步意识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
Claims (9)
1.一种神经网络训练用样本的修订系统,其特征在于,包括:服务终端和客户前端;
所述服务终端设置为存储样本,将所述样本分发给所述客户前端,接收并存储所述客户前端的处理结果,并根据所述处理结果生成统计展示;
所述客户前端设置为接收所述样本,执行修订处理,将处理结果传递到所述服务终端;
所述服务终端包括存储模块;所述存储模块设置为接收样本,将其分为待修订样本和已修订样本分别存储;
所述客户前端包括标注模块和审核模块;
所述标注模块设置为从所述存储模块加载待修订样本,预处理后进行标注,得到第一样本,将所述第一样本传递给所述审核模块;
所述审核模块设置为接收所述第一样本,审核标注是否合格,若是,将所述第一样本作为已修订样本传递给所述服务终端,若否,向所述标注模块传递审核意见,并将所述第一样本作为待修订样本传递给所述标注模块。
2.如权利要求1所述的神经网络训练用样本的修订系统,其特征在于:所述服务终端包括统计模块;
所述统计模块设置为从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。
3.如权利要求1所述的神经网络训练用样本的修订系统,其特征在于:所述标注模块包括预处理单元和精处理单元;
所述预处理单元设置为从所述存储模块加载待修订样本,根据其修订需求选择匹配的预处理算法进行预处理,得到第二样本,将所述第二样本传递给所述精处理单元;
所述精处理单元设置为接收所述第二样本进行精确处理,得到所述第一样本,将所述第一样本传递给所述审核模块。
4.如权利要求1所述的神经网络训练用样本的修订系统,其特征在于:所述审核模块还可以设置为对已修订样本的修订质量进行评分。
5.如权利要求2所述的神经网络训练用样本的修订系统,其特征在于:所述服务终端还包括展示模块;所述展示模块设置为从所述统计模块加载分析报告并展示。
6.一种神经网络训练用样本的修订方法,其特征在于,包括以下步骤:
步骤S1. 标注客户前端从服务终端的存储模块加载待修订样本,标注后作为第一样本传递给审核客户前端;
步骤S2.所述审核客户前端对所述第一样本的标注结果进行审核,若审核合格,则将样本存储到服务器存储模块;若审核不合格,将所述第一样本作为待修订样本传递给所述标注客户前端并反馈审核意见;
步骤S3. 统计模块从所述存储模块加载已修订样本,统计样本特征信息,并生成分析报告。
7.如权利要求6所述的神经网络训练用样本的修订方法,其特征在于:步骤S1中所述标注的具体方法为:
从所述存储模块加载待修订样本,根据其修订需求选择匹配的预处理算法进行预处理,得到第二样本,然后对所述第二样本进行精确标注,得到所述第一样本。
8.如权利要求6所述的神经网络训练用样本的修订方法,其特征在于:步骤S2所述审核还包括:对已修订样本的修订质量进行评分。
9.如权利要求7所述的神经网络训练用样本的修订方法,其特征在于:步骤S3还包括:将所述分析报告传递给展示模块进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010871894.7A CN112070224B (zh) | 2020-08-26 | 2020-08-26 | 一种神经网络训练用样本的修订系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010871894.7A CN112070224B (zh) | 2020-08-26 | 2020-08-26 | 一种神经网络训练用样本的修订系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112070224A CN112070224A (zh) | 2020-12-11 |
CN112070224B true CN112070224B (zh) | 2024-02-23 |
Family
ID=73660070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010871894.7A Active CN112070224B (zh) | 2020-08-26 | 2020-08-26 | 一种神经网络训练用样本的修订系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070224B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407980B (zh) * | 2021-08-18 | 2022-02-15 | 深圳市信润富联数字科技有限公司 | 数据标注系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018023212A1 (zh) * | 2016-07-30 | 2018-02-08 | 华为技术有限公司 | 一种图像识别方法及终端 |
CN108647714A (zh) * | 2018-05-09 | 2018-10-12 | 平安普惠企业管理有限公司 | 负面标签权重的获取方法、终端设备及介质 |
CN109492549A (zh) * | 2018-10-24 | 2019-03-19 | 杭州睿琪软件有限公司 | 一种训练样本集处理、模型训练方法及系统 |
CN110213774A (zh) * | 2019-05-23 | 2019-09-06 | 超讯通信股份有限公司 | 一种基于神经网络的5g网络自动评估系统、方法及装置 |
CN110222791A (zh) * | 2019-06-20 | 2019-09-10 | 杭州睿琪软件有限公司 | 样本标注信息的审核方法及装置 |
CN110245716A (zh) * | 2019-06-20 | 2019-09-17 | 杭州睿琪软件有限公司 | 样本标注审核方法及装置 |
WO2020019252A1 (zh) * | 2018-07-26 | 2020-01-30 | 深圳前海达闼云端智能科技有限公司 | 训练人工智能模型的方法、装置、存储介质及机器人 |
CN110837860A (zh) * | 2019-11-06 | 2020-02-25 | 惠州皓赛技术有限公司 | 基于深度学习的贴片检测方法及相关系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572447B2 (en) * | 2015-03-26 | 2020-02-25 | Nokia Technologies Oy | Generating using a bidirectional RNN variations to music |
WO2020062262A1 (en) * | 2018-09-30 | 2020-04-02 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for generating a neural network model for image processing |
-
2020
- 2020-08-26 CN CN202010871894.7A patent/CN112070224B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018023212A1 (zh) * | 2016-07-30 | 2018-02-08 | 华为技术有限公司 | 一种图像识别方法及终端 |
CN108647714A (zh) * | 2018-05-09 | 2018-10-12 | 平安普惠企业管理有限公司 | 负面标签权重的获取方法、终端设备及介质 |
WO2020019252A1 (zh) * | 2018-07-26 | 2020-01-30 | 深圳前海达闼云端智能科技有限公司 | 训练人工智能模型的方法、装置、存储介质及机器人 |
CN109492549A (zh) * | 2018-10-24 | 2019-03-19 | 杭州睿琪软件有限公司 | 一种训练样本集处理、模型训练方法及系统 |
CN110213774A (zh) * | 2019-05-23 | 2019-09-06 | 超讯通信股份有限公司 | 一种基于神经网络的5g网络自动评估系统、方法及装置 |
CN110222791A (zh) * | 2019-06-20 | 2019-09-10 | 杭州睿琪软件有限公司 | 样本标注信息的审核方法及装置 |
CN110245716A (zh) * | 2019-06-20 | 2019-09-17 | 杭州睿琪软件有限公司 | 样本标注审核方法及装置 |
CN110837860A (zh) * | 2019-11-06 | 2020-02-25 | 惠州皓赛技术有限公司 | 基于深度学习的贴片检测方法及相关系统 |
Non-Patent Citations (1)
Title |
---|
基于BP神经网络的就业招聘企业客户分类问题研究;乔非;葛彦昊;;计算机科学(第S2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112070224A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989782B (zh) | 一种自动化模板配置及报告生成的方法 | |
CN111580947B (zh) | 一种基于人工智能的在线协同化遥感图像标注系统 | |
CN109934227A (zh) | 图像文字识别系统和方法 | |
CN112967721B (zh) | 一种基于语音识别技术的销售线索信息识别方法与系统 | |
CN113468317B (zh) | 一种简历筛选方法、系统、设备和存储介质 | |
CN110222336A (zh) | 财务报告分析方法、装置、计算机设备和存储介质 | |
CN106648819A (zh) | 一种基于编辑器的国际化代码转换方法 | |
CN117875293B (zh) | 一种业务表单模板快速数字化的生成方法 | |
CN111754206A (zh) | 一种政务服务事项颗粒化梳理方法 | |
CN112699645A (zh) | 语料标注方法、装置及设备 | |
CN112070224B (zh) | 一种神经网络训练用样本的修订系统及方法 | |
US11393232B2 (en) | Extracting values from images of documents | |
CN111369294A (zh) | 软件造价估算方法及装置 | |
CN113111829B (zh) | 识别文档的方法和装置 | |
CN116664066B (zh) | 一种管理企业计划收入与实际收入的方法及系统 | |
CN112347121A (zh) | 一种可配置的自然语言转sql的方法及系统 | |
CN117111890A (zh) | 一种软件需求文档解析方法、设备及介质 | |
CN109993381B (zh) | 基于知识图谱的需求管理应用方法、装置、设备及介质 | |
JP2017111500A (ja) | 文字認識装置及びプログラム | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN111339756B (zh) | 一种文本检错方法及装置 | |
CN114547059A (zh) | 平台数据的更新处理方法、装置及计算机设备 | |
CN114021544A (zh) | 产品合同的要素智能抽取和审核方法及系统 | |
CN113705157A (zh) | 一种纸质作业拍照批改的方法 | |
CN113660322B (zh) | 一种线下合同上云的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |