CN110532224A - 一种深度学习标注样本的文件管理系统及方法 - Google Patents
一种深度学习标注样本的文件管理系统及方法 Download PDFInfo
- Publication number
- CN110532224A CN110532224A CN201910746337.XA CN201910746337A CN110532224A CN 110532224 A CN110532224 A CN 110532224A CN 201910746337 A CN201910746337 A CN 201910746337A CN 110532224 A CN110532224 A CN 110532224A
- Authority
- CN
- China
- Prior art keywords
- mark sample
- sample
- mark
- server
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 33
- 238000013434 data augmentation Methods 0.000 claims abstract description 38
- 238000007689 inspection Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000012217 deletion Methods 0.000 claims abstract description 12
- 230000037430 deletion Effects 0.000 claims abstract description 12
- 238000012372 quality testing Methods 0.000 claims abstract description 11
- 238000007726 management method Methods 0.000 claims description 78
- 239000006002 Pepper Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007812 deficiency Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 11
- 230000002452 interceptive effect Effects 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 abstract description 3
- 230000003416 augmentation Effects 0.000 description 8
- 238000012800 visualization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 241000736199 Paeonia Species 0.000 description 4
- 235000006484 Paeonia officinalis Nutrition 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012946 outsourcing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/122—File system administration, e.g. details of archiving or snapshots using management policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种深度学习标注样本的文件管理系统及方法,包括客户端以及与客户端交互连接的服务器;客户端包括标注样本重命名模块、标注样本管理模块、标注样本质检模块和数据增广模块,服务器包括数据库。本发明通过标注样本重命名模块将原始标注样本按照一定的命名方式进行重命名,便于用户选取快速的了解标注样本的基本信息,不需要再次开发代码分析数据,提高对标注样本分析评估的效率。通过标注样本管理模块能够在客户端文件管理界面查询、下载和删除标注样本;通过标注样本质检模块检查删除不符合要求的标注样本,通过数据增广模块对现有的标注样本进行数据增广。本发明在有效的时间内快速清洗深度学习训练样本,提高了工作效率。
Description
技术领域
本发明涉及计算机信息管理领域,尤其涉及一种深度学习标注样本的文件管理系统及方法。
背景技术
标注样本数据是AI的燃料,这充分说明样本数据在自动驾驶领域的重要性。虽然国内外有很多公开的数据供我们选择,但基本上所有的样本数据的表达方式和存储方式都不同,这些数据都是人工管理,并且管理方式不够统一,这样就会造成大量的人力资源浪费,而且人工作业数据录入的速度慢、准确率低。随着汽车自动驾驶规模的不断发展,描述道路信息的样本数量和种类在不断增加,对样本数据的管理挑战也比较大,但是传统的人工作业模式和样本数据采集的方法难以满足汽车自动驾驶对样本管理的快速、准确要求,严重减缓了相关研究人员的研发进程。
由于现有的标注工具针对图片标注的输出文档名称与图片名称是相关联的,利用多个不同的标注软件对同一张图片的标注样本输出也是一样的,当多个标注样本名类似时,如何正确高效的在深度学习标注样本数据库中查找同种类型的标注数据进行重新训练模型也是一个较为耗时的事情。在这种情况下如果不及时按照一定的方式对深度学习标注样本重命名管理就会混淆各个文件对应的标注方式,造成一些不必要的错误。
发明内容
本发明针对现有技术中存在的技术问题,提供一种深度学习标注样本的文件管理系统及方法,解决标注样本的标注方式混乱的问题,实现通过标注样本的名称快速的了解标注样本的基本信息,提高了对标注样本分析评估的效率。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供一种深度学习标注样本的文件管理系统,包括客户端以及与客户端交互连接的服务器;所述客户端包括:
标注样本重命名模块,用于根据原始标注样本的特征信息对原始标注样本进行重命名,并将重命名后的标注样本上传服务器;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
标注样本管理模块:用于在客户端文件管理界面中对服务器中的标注样本进行管理操作;所述管理操作至少包括查询、分析、下载、和删除;
标注样本质检模块,用于检查每一标注样本和样本图片的映射关系,根据检查结果删除或修改错误的标注样本;
数据增广模块,用于通过预设数据增广方式对标注样本进行数据增广;
所述服务器,用于存储客户端上传的标注样本。
本发明的有益效果是:本发明将原始标注样本按照一定的命名方式进行重命名,用户可以通过重命名后的标注样本名称快速了解该标注样本当中的图片张数、标注的对象、标注的方式、图片的场景等信息,便于用户选取快速的了解标注样本的基本信息,不需要再次开发代码分析数据,提高了对标注样本分析评估的效率。本发明能够在客户端文件管理界面中对服务器中的标注样本进行查询、下载、删除或修改,提高了标注样本的管理效率。
进一步,所述标注样本重命名模块包括:
标注单元,用于通过标注工具对样本图片进行标注,获得原始标注样本;
重命名单元,用于根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
标注样本上传单元,用于将重命名后获得的标注样本上传服务器。
进一步,所述标注样本管理模块包括:
样本查询单元,用于查询服务器中的标注样本;
样本下载单元,用于下载指定的标注样本;
样本修改单元,用于在判断获知指定标注样本的表达方式错误时,修改对应的标注样本;
样本删除单元,用于向服务器发送指定标注样本的删除指令,以供服务器根据所述删除指令,删除对应的标注样本。
进一步,所述标注样本质检模块包括:
映射关系检查单元,用于检查标注样本和样本图片的数量和名称是否一致,若判断获知标注样本和样本图片的数量或名称不一致,则根据检查结果删除对应的标注样本或样本图片;
文件属性检查单元,用于检查每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本;
标注信息检查单元,用于检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。
进一步,所述数据增广模块具体用于:
当标注样本的样本数量不足时,通过预设数据增广方式对标注样本进行数据增广;其中,预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
进一步,文件管理系统还包括:
格式转化模块,用于将标注样本转化为指定格式。
采用上述进一步方案的有益效果是:本发明将标注样本上传存储在服务器中统一管理,并能够在客户端文件管理界面查询、下载和删除标注样本;通过检查删除不符合要求的标注样本,对标注样本进行增广以及转化为特定格式的模块,本发明通过客户端和服务器交互式操作,在有效的时间内快速清洗深度学习训练样本,提高了工作效率。
第二方面,本发明提供一种深度学习标注样本的文件管理方法,包括:
根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
将重命名后的标注样本上传服务器;
通过预设数据增广方式对标注样本进行数据增广;其中,所述预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
进一步,在将重命名后的标注样本上传服务器之后,所述方法还包括:
在客户端文件管理界面中对服务器中的标注样本进行查询、下载、删除或修改。
进一步,在将重命名后的标注样本上传服务器之后,所述方法还包括:
检查服务器中每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本;
检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。
第三方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第二方面所提供的文件管理方法的步骤。
附图说明
图1为本发明实施例提供的音视频分离传输方法流程示意图;
图2为本发明实施例提供的标注样本管理模块的结构示意图;
图3为本发明实施例提供的深度学习标注样本的文件管理方法流程示意图。
附图中,各标号所代表的部件列表如下:
100、客户端,101、标注样本重命名模块,102、标注样本管理模块,103、标注样本质检模块,104、数据增广模块,105、服务器,106、数据库,201、样本查询单元,202、样本下载单元,203、样本修改单元,204、样本删除单元。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的深度学习标注样本的文件管理系统的结构示意图;本发明提供一种深度学习标注样本的文件管理系统,包括客户端100以及与客户端100交互连接的服务器105;所述客户端100包括:
标注样本重命名模块101,用于根据原始标注样本的特征信息对原始标注样本进行重命名,并将重命名后的标注样本上传服务器105;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象。
其中,原始标注样本是指重命名之前的标注样本。在对原始标注样本进行重命名之前,首先通过标注工具对样本图片进行标注,获得原始标注样本。
标注样本管理模块102:用于在客户端文件管理界面中对服务器105中的标注样本进行管理操作;所述管理操作至少包括查询样本、分析样本、下载样本、和删除样本。
标注样本质检模块103,用于检查每一标注样本和样本图片的映射关系,根据检查结果删除或修改错误的标注样本。
数据增广模块104,用于通过预设数据增广方式对标注样本进行数据增广。
所述服务器105,用于存储客户端100上传的标注样本。
具体地,参照图1,本发明提供的文件管理系统,包括客户端100以及与客户端100交互连接的服务器105。客户端100包括标注样本重命名模块101、标注样本管理模块102、标注样本质检模块103和数据增广模块104。服务器105包括数据库106,用于存储客户端100上传的标注样本。本实施例中,标注样本即为深度学习的训练样本,标注样本应用于自动驾驶。自动驾驶是需要汽车像人的大脑一样来辨识一些车前出现的事物并做出决策,深度学习网络相当于是人的大脑,对安装在车前的摄像头的图像进行采集,并通过卷积神经网络来提出图像的特征,通过模型计算来得出几个输出量,比如标志牌,方向箭头,立杆,车道下等信息。
本实施例提供对应用于深度学习的标注样本进行有效管理的系统,在对原始标注样本进行重命名之前,首先通过标注工具对样本图片进行标注,目前针对深度学习标注开源的工具主要labelme和labelImg,其中labelme是沿着物体的轮廓进行标注,即多边形标注,主要标注的对象有车道线,护栏,导流带和纵向减速标线等条状物目标。而labelImg是对物体的最小外包矩形框进行标注,即矩形标注,主要标注的对象有导向箭头,矩形标志牌,圆形标志牌,文字面等较小目标。对样本图片进行标注得到的原始标注样本主要以voc格式或者json格式输出。
可以理解的是,由于现有的标注工具针对样本图片标注的输出文档名称与样本图片的名称是相关联的,利用多个不同的标注软件对同一张样本图片进行标注所输出的标注样本也是一样的,当多个标注样本名称类似时,如何正确高效的在深度学习标注样本数据库106中查找同种类型的标注数据重新训练模型也是一个较为耗时的事情。在这种情况下若不及时按照一定的方式对深度学习标注样本重命名管理就会混淆各个标注样本对应的标注方式。因此,本实施例提供标注样本重命名模块101,根据原始标注样本的特征信息对原始标注样本进行重命名,并将重命名后的标注样本上传服务器105;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象。本实施例中,每一特征信息对应一个字段,上述8个特征信息构成8个字段,各字段的排列顺序可以根据实际需求确定。各个字段有多种表达方式,表1列举了重命名字段的5中表达方式,分别为分类、目标检测、语义分割、实例分割和关键点检测。如表1所示,重命名的名称包括8个字段,其中标注样本的图片场景包括白天、黑夜、下雨、曝光和偏色;而标注样本的序列号统一占用4个字符,其表达范围在0000-9999之间。
表1
字段名称 | 表达方式1 | 表达方式2 | 表达方式3 | 表达方式4 | 表达方式5 |
保密程度 | AA | BB | CC | ··· | ··· |
命名时间 | 20181209 | 20190106 | 20190116 | 20190421 | ··· |
图片宽x高 | 8000x4000 | 2048x2048 | 1920x1200 | 1280x720 | ··· |
标注方式 | 分类 | 实例分割 | 目标检测 | 语义分割 | 关键点检测 |
图片场景 | 白天 | 黑夜 | 下雨 | 曝光 | 偏色 |
序列号 | 0000 | 0009 | 0144 | 9999 | |
图片后缀名 | jpg | png | jpeg | ··· | |
标注对象 | 导向箭头 | 车道线 | 标志牌 | 全要素 |
进一步地,由于标注样本数据存储在服务器105中,无法对标注样本可视化。本实施例提供的文件管理系统包括标注样本管理模块102,在客户端文件管理界面中对服务器105中的标注样本进行管理操作,例如对标注样本进行查询、分析、下载或删除。该文件管理系统还包括标注样本质检模块103,用于检查每一标注样本和样本图片的映射关系,根据检查结果删除或修改错误的标注样本。当标注样本的样本数量不足时,本实施例通过预设数据增广方式对标注样本进行数据增广。
本发明实施例提供的深度学习标注样本的文件管理系统,将原始标注样本按照一定的命名方式进行重命名,用户可以通过重命名后的标注样本名称快速了解该标注样本当中的图片张数、标注的对象、标注的方式、图片的场景等信息,便于用户选取快速的了解标注样本的基本信息,不需要再次开发代码分析数据,提高了对标注样本分析评估的效率。本发明能够在客户端文件管理界面中对服务器105中的标注样本进行查询、下载、删除或修改,提高了标注样本的管理效率。
基于上述实施例的内容,作为一种可选实施例,标注样本重命名模块包括:
标注单元,用于通过标注工具对样本图片进行标注,获得原始标注样本。
重命名单元,用于根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象。
标注样本上传单元,用于将重命名后获得的标注样本上传服务器105。
图2为本发明实施例提供的标注样本管理模块的结构示意图,参照图2,所述标注样本管理模块102包括:
样本查询单元201,用于查询服务器105中的标注样本;
具体的,由于标注样本数据存储在服务器105中,无法对标注样本可视化。本实施例提供标注样本管理模块102,在客户端文件管理界面中对服务器105中的标注样本进行管理操作,例如对标注样本进行查询、分析、下载或删除。标注样本管理模块102既可以显示原始的样本图片,也可以显示带有标注信息的标注样本,便于快速查看评估数据库106的标注文件。
需要说明的是,在服务器105的数据库106中,每一个文件夹中存储了同一种类型的标注样本,用户在客户端100可以通过点击分析某类型的标注样本数据集,客户端100会向服务器发送一个分析该数据集的指令,服务器接收到上述指令后对该数据集进行分析并将分析结果发送至客户端100的可视化界面。其中,可视化界面即是客户端文件管理界面。数据集的分布主要是以柱状图和饼状图的方式呈现的。
本实施例以对标注样本的查询为例对标注样本管理模块102的功能进行说明,当上传到服务器105中的标注样本个数较多时,为了便于客户端用户方便快捷的查看到某一类型的标注样本,用户可以在客户端文件管理界面输入需要查询的标注样本的某一个字段的名称,在客户端文件管理界面点击开始查询后,系统会在服务器105的数据库106中查询相关的模型,并将查询的结果显示在客户端文件管理界面,用户根据查询结果进行下一步的操作。
样本下载单元202,用于下载指定的标注样本;
在对标注样本进行查询后,用户可以通过样本下载单元202在客户端100选择合适的标注样本下载到本地电脑中。
样本修改单元203,用于在判断获知指定标注样本的表达方式错误时,修改对应的标注样本。
当用户发现客户端100某类标注样本的表达方式错误时,可以通过样本修改单元203在客户端100修改标注样本某个字段的表达方式。
样本删除单元204,用于向服务器105发送指定标注样本的删除指令,以供服务器105根据所述删除指令,删除对应的标注样本。
若查询到服务器105的数据库106中不需要使用的标注样本,可以在客户端文件管理界面点击删除按钮,客户端100会向服务器105发送指定标注样本的删除指令,服务器105接收删除指令后删除指定标注样本。
基于上述实施例的内容,作为一种可选实施例,所述标注样本质检模块包括:
映射关系检查单元,用于检查标注样本和样本图片的数量和名称是否一致,若判断获知标注样本和样本图片的数量或名称不一致,则根据检查结果删除对应的标注样本或样本图片。
文件属性检查单元,用于检查每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本。
其中,文件属性是指将文件分为不同类型的文件,以便存放和传输,它定义了文件的某种独特性质。常见的文件属性有系统属性、隐藏属性、只读属性和归档属性。属性是一些描述性的信息,可用来帮助查找和整理文件。属性未包含在文件的实际内容中,而是提供了有关文件的信息。而是提供了有关文件的信息。除了标记属性之外,文件还包括了修改日期、作者和分级等许多其他属性。
标注信息检查单元,用于检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。其中,本实施例标注的对象有车道线,护栏,导流带和纵向减速标线等目标。
具体地,由于上传到服务器105中的标注样本可能会存在标注样本的文件属性不一致或标注信息错误等问题,本发明实施例通过样本质检模块对不符合要求的标注样本进行清洗。本实施例通过映射关系检查单元检查标注样本和样本图片的数量和名称是否一致,若判断获知标注样本和样本图片的数量或名称不一致,则根据检查结果删除对应的标注样本或样本图片。最终确保标注图片和标注样本为一一对应的映射关系。
当需要标注的目标个数较多时,标注人员可能会混淆目标的属性分类,导致不同文件属性的标注样本出现在同一文件夹。本实施例通过文件属性检查单元检查每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本。确保同一文件属性的标注样本存放在同一个文件夹当中。
由于标注人员的操作失误或者对标注规范理解的偏差,可能会出现对标注样本进行错误的标注,本实施例通过标注信息检查单元检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。例如,将所有标注样本中矩形标注目标的宽或高小于30个像素的目标直接删除。
本发明将标注样本上传存储在服务器中统一管理,并能够在客户端文件管理界面查询、下载和删除标注样本;通过检查删除不符合要求的标注样本,对标注样本进行增广以及转化为特定格式的模块,本发明通过客户端和服务器交互式操作,在有效的时间内快速清洗深度学习训练样本,提高了工作效率。
基于上述实施例的内容,作为一种可选实施例,所述数据增广模块104具体用于:
当标注样本的样本数量不足时,通过预设数据增广方式对标注样本进行数据增广;其中,预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
具体地,当深度学习算法需求的训练样本较多时,需要对现有的标注样本进行数据增广,本发明实施例提供的增广方式像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换,用户可以根据需求选择其中的一种或者几种对标注样本进行增广。
基于上述实施例的内容,作为一种可选实施例,文件管理系统还包括格式转化模块,用于将标注样本转化为指定格式。
本实施例中,标注样本的输出格式为voc格式,由于不同深度学习算法针对训练文件的格式不同,本发明通过将标注样本voc格式数据集转化为coco格式数据集和mask数据集。
图3为本发明实施例提供的深度学习标注样本的文件管理方法流程示意图,如图3所示,本发明提供一种深度学习标注样本的文件管理方法,包括:
步骤301,根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
其中,原始标注样本是指重命名之前的标注样本。在对原始标注样本进行重命名之前,首先通过标注工具对样本图片进行标注,获得原始标注样本。
步骤302,将重命名后的标注样本上传服务器;
步骤303,通过预设数据增广方式对标注样本进行数据增广;其中,所述预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
具体地,本实施例中,标注样本即为深度学习的训练样本,标注样本应用于自动驾驶。自动驾驶是需要汽车像人的大脑一样来辨识一些车前出现的事物并做出决策,深度学习网络相当于是人的大脑,对安装在车前的摄像头的图像进行采集,并通过卷积神经网络来提出图像的特征,通过模型计算来得出几个输出量,比如加速、减速、刹车、方向盘的角度等信息。
在对原始标注样本进行重命名之前,首先通过标注工具对样本图片进行标注,目前针对深度学习标注开源的工具主要labelme和labelImg,其中labelme是沿着物体的轮廓进行标注,即多边形标注,主要标注的对象有车道线,护栏,导流带和纵向减速标线等条状物目标。而labelImg是对物体的最小外包矩形框进行标注,即矩形标注,主要标注的对象有导向箭头,矩形标志牌,圆形标志牌,文字面等较小目标。对样本图片进行标注得到的原始标注样本主要以voc格式或者json格式输出。
可以理解的是,由于现有的标注工具针对样本图片标注的输出文档名称与样本图片的名称是相关联的,利用多个不同的标注软件对同一张样本图片进行标注所输出的标注样本也是一样的,当多个标注样本名称类似时,如何正确高效的在深度学习标注样本的数据库中查找同种类型的标注数据重新训练模型也是一个较为耗时的事情。在这种情况下若不及时按照一定的方式对深度学习标注样本重命名管理就会混淆各个标注样本对应的标注方式。因此,本实施例提供标注样本重命名模块,根据原始标注样本的特征信息对原始标注样本进行重命名,并将重命名后的标注样本上传服务器;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象。本实施例中,上述8个特征信息构成8个字段,各字段的排列顺序可以根据实际需求确定。
进一步的,步骤303中,当深度学习算法需求的训练样本较多时,需要对现有的标注样本进行数据增广,本发明实施例提供的增广方式像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换,用户可以根据需求选择其中的一种或者几种对标注样本进行增广。
本发明实施例提供的深度学习标注样本的文件管理方法,将原始标注样本按照一定的命名方式进行重命名,用户可以通过重命名后的标注样本名称快速了解该标注样本当中的图片张数、标注的对象、标注的方式、图片的场景等信息,便于用户选取快速的了解标注样本的基本信息,不需要再次开发代码分析数据,提高了标注样本的管理效率。
基于上述实施例的内容,作为一种可选实施例,在将重命名后的标注样本上传服务器之后,所述方法还包括:
在客户端文件管理界面中对服务器中的标注样本进行查询、下载、删除或修改。
具体的,由于标注样本数据存储在服务器中,无法对标注样本可视化。本实施例提供标注样本管理模块,在客户端文件管理界面中对服务器中的标注样本进行管理操作,例如对标注样本进行查询、分析、下载或删除。标注样本管理模块既可以显示原始的样本图片,也可以显示带有标注信息的标注样本,便于快速查看评估数据库的标注文件。
需要说明的是,在服务器的数据库中,每一个文件夹中存储了同一种类型的标注样本,用户在客户端可以通过点击分析某类型标注样本的数据集,客户端会向服务器发送一个分析该数据集的指令,服务器接收到上述指令后对该数据集进行分析并将分析结果发送至客户端的可视化界面。其中,可视化界面即是客户端文件管理界面。数据集的分布主要是以柱状图和饼状图的方式呈现的。
本实施例以对标注样本的查询为例进行说明,当上传到服务器中的标注样本个数较多时,为了便于客户端用户方便快捷的查看到某一类型的标注样本,用户可以在客户端文件管理界面输入需要查询的标注样本的某一个字段的名称,在客户端文件管理界面点击开始查询后,系统会在服务器的数据库中查询相关的模型,并将查询的结果显示在客户端文件管理界面,用户根据查询结果进行下一步的操作。
在对标注样本进行查询后,用户可以通过样本下载单元在客户端选择合适的标注样本下载到本地电脑中。
当用户发现客户端某类标注样本的表达方式错误时,可以通过样本修改单元在客户端修改标注样本某个字段的表达方式。
若查询到服务器的数据库中不需要使用的标注样本,可以在客户端文件管理界面点击删除按钮,客户端会向服务器发送指定标注样本的删除指令,服务器接收删除指令后删除指定标注样本。
基于上述实施例的内容,作为一种可选实施例,在将重命名后的标注样本上传服务器之后,所述方法还包括:
检查服务器中每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本;
检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的深度学习标注样本的文件管理方法,例如包括:根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;将重命名后的标注样本上传服务器;通过预设数据增广方式对标注样本进行数据增广;其中,所述预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种深度学习标注样本的文件管理系统,其特征在于,包括客户端以及与客户端交互连接的服务器;所述客户端包括:
标注样本重命名模块,用于根据原始标注样本的特征信息对原始标注样本进行重命名,并将重命名后的标注样本上传服务器;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
标注样本管理模块:用于在客户端文件管理界面中对服务器中的标注样本进行管理操作;所述管理操作至少包括查询、分析、下载和删除;
标注样本质检模块,用于检查每一标注样本和样本图片的映射关系,根据检查结果删除或修改错误的标注样本;
数据增广模块,用于通过预设数据增广方式对标注样本进行数据增广;
所述服务器,用于存储客户端上传的标注样本。
2.根据权利要求1所述的文件管理系统,其特征在于,所述标注样本重命名模块包括:
标注单元,用于通过标注工具对样本图片进行标注,获得原始标注样本;
重命名单元,用于根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
标注样本上传单元,用于将重命名后获得的标注样本上传服务器。
3.根据权利要求1所述的文件管理系统,其特征在于,所述标注样本管理模块包括:
样本查询单元,用于查询服务器中的标注样本;
样本下载单元,用于下载指定的标注样本;
样本修改单元,用于在判断获知指定标注样本的表达方式错误时,修改对应的标注样本;
样本删除单元,用于向服务器发送指定标注样本的删除指令,以供服务器根据所述删除指令,删除对应的标注样本。
4.根据权利要求1所述的文件管理系统,其特征在于,所述标注样本质检模块包括:
映射关系检查单元,用于检查标注样本和样本图片的数量和名称是否一致,若判断获知标注样本和样本图片的数量或名称不一致,则根据检查结果删除对应的标注样本或样本图片;
文件属性检查单元,用于检查每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本;
标注信息检查单元,用于检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。
5.根据权利要求1所述的文件管理系统,其特征在于,所述数据增广模块具体用于:
当标注样本的样本数量不足时,通过预设数据增广方式对标注样本进行数据增广;其中,预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
6.根据权利要求1所述的文件管理系统,其特征在于,还包括:
格式转化模块,用于将标注样本转化为指定格式。
7.一种深度学习标注样本的文件管理方法,其特征在于,包括:
根据原始标注样本的特征信息对原始标注样本进行重命名;其中,所述特征信息包括保密级别、重命名时间、图片宽×高、标注方式、图片场景、图片序列号、图片后缀名和标注对象;
将重命名后的标注样本上传服务器;
通过预设数据增广方式对标注样本进行数据增广;其中,所述预设数据增广方式包括像素反转、椒盐噪声、高斯滤波、调节亮度、调节对比度、调节色彩饱和度和旋转变换。
8.根据权利要求7所述的文件管理方法,其特征在于,在将重命名后的标注样本上传服务器之后,所述方法还包括:
在客户端文件管理界面中对服务器中的标注样本进行查询、下载、删除或修改。
9.根据权利要求7所述的文件管理方法,其特征在于,在将重命名后的标注样本上传服务器之后,所述方法还包括:
检查服务器中每一标注样本的文件属性,根据检查结果修改或删除文件属性错误的标注样本;
检查每一标注样本的标注信息,根据检查结果修改或删除标注信息错误的标注样本。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求7至9任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910746337.XA CN110532224A (zh) | 2019-08-13 | 2019-08-13 | 一种深度学习标注样本的文件管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910746337.XA CN110532224A (zh) | 2019-08-13 | 2019-08-13 | 一种深度学习标注样本的文件管理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532224A true CN110532224A (zh) | 2019-12-03 |
Family
ID=68663197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910746337.XA Pending CN110532224A (zh) | 2019-08-13 | 2019-08-13 | 一种深度学习标注样本的文件管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532224A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651270A (zh) * | 2020-05-19 | 2020-09-11 | 南京擎盾信息科技有限公司 | 对法律数据完成多任务语义标注的可视化方法和装置 |
CN112488222A (zh) * | 2020-12-05 | 2021-03-12 | 武汉中海庭数据技术有限公司 | 一种众包数据标注方法、系统、服务器及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101754056A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 支持海量数据自动处理的数字内容编目管理系统及方法 |
CN107516005A (zh) * | 2017-07-14 | 2017-12-26 | 上海交通大学 | 一种数字病理图像标注的方法和系统 |
CN108564587A (zh) * | 2018-03-07 | 2018-09-21 | 浙江大学 | 一种基于全卷积神经网络的大范围遥感影像语义分割方法 |
CN108572952A (zh) * | 2017-03-07 | 2018-09-25 | 纬衡浩建科技(深圳)有限公司 | 一种工程电子文件的结构化处理方法和系统 |
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注系统和方法 |
CN109271871A (zh) * | 2018-08-22 | 2019-01-25 | 平安科技(深圳)有限公司 | 样本存储路径生成方法、装置、计算机设备及存储介质 |
CN109710788A (zh) * | 2018-12-28 | 2019-05-03 | 斑马网络技术有限公司 | 图像样本标注和管理方法及设备 |
-
2019
- 2019-08-13 CN CN201910746337.XA patent/CN110532224A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101754056A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 支持海量数据自动处理的数字内容编目管理系统及方法 |
CN108572952A (zh) * | 2017-03-07 | 2018-09-25 | 纬衡浩建科技(深圳)有限公司 | 一种工程电子文件的结构化处理方法和系统 |
CN107516005A (zh) * | 2017-07-14 | 2017-12-26 | 上海交通大学 | 一种数字病理图像标注的方法和系统 |
CN108564587A (zh) * | 2018-03-07 | 2018-09-21 | 浙江大学 | 一种基于全卷积神经网络的大范围遥感影像语义分割方法 |
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注系统和方法 |
CN109271871A (zh) * | 2018-08-22 | 2019-01-25 | 平安科技(深圳)有限公司 | 样本存储路径生成方法、装置、计算机设备及存储介质 |
CN109710788A (zh) * | 2018-12-28 | 2019-05-03 | 斑马网络技术有限公司 | 图像样本标注和管理方法及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651270A (zh) * | 2020-05-19 | 2020-09-11 | 南京擎盾信息科技有限公司 | 对法律数据完成多任务语义标注的可视化方法和装置 |
CN112488222A (zh) * | 2020-12-05 | 2021-03-12 | 武汉中海庭数据技术有限公司 | 一种众包数据标注方法、系统、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DeCost et al. | UHCSDB: ultrahigh carbon steel micrograph database: tools for exploring large heterogeneous microstructure datasets | |
DE102012218966B4 (de) | Verfahren und System zum Kennzeichnen von durch Dinge im Internet der Dinge erzeugten Originaldaten | |
CN108830466A (zh) | 一种基于云平台的图像内容语义标注系统和方法 | |
DE112018002208T5 (de) | System und Verfahren zum Zuordnen von Stilattributen | |
DE202015009255U1 (de) | Automatische Bildorganisation | |
CN101853299A (zh) | 一种基于感性认知的图像检索结果排序方法 | |
CN110532224A (zh) | 一种深度学习标注样本的文件管理系统及方法 | |
DE102012221251A1 (de) | Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern | |
DE112015005985T5 (de) | Klassifizierung und speicherung von dokumenten | |
CN109934242A (zh) | 图片识别方法和装置 | |
CN109840087B (zh) | 界面设计系统及方法、计算机可读存储介质 | |
CN110851630A (zh) | 一种深度学习标注样本的管理系统及方法 | |
CN112331348A (zh) | 集标注、数据、项目管理和无编程化建模的分析方法和系统 | |
CN105912739A (zh) | 一种相似图片检索系统及其方法 | |
CN109409421A (zh) | 基于卷积神经网络的机动车、驾驶人档案图像识别方法 | |
CN105930391A (zh) | 超解像系统中图像样本数据库的更新方法及图像服务器 | |
DE102017006557A1 (de) | Verwenden von Markierungen zum Verfolgen von hochfrequenten Offsets für Patchabgleichsalgorithmen | |
CN110968596A (zh) | 一种基于标签系统的数据处理方法 | |
Bolettieri et al. | An image retrieval system for video | |
CN105045845B (zh) | 一种文档分类管理方法及装置 | |
CN104778253B (zh) | 一种提供数据的方法和装置 | |
CN110162654A (zh) | 一种基于融合特征与检索结果优化的现勘图像检索算法 | |
CN106446192A (zh) | 签核文件管理方法及装置 | |
CN105488146A (zh) | 一种计算机辅助训练系统课件素材管理方法及系统 | |
Saito et al. | Representation of plant structure using XML and its application to cultivation management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |