基于人工智能的交通数据标注方法、装置、设备及介质
技术领域
本发明涉及人工智能、图像处理及智慧交通技术领域,尤其涉及一种基于人工智能的交通数据标注方法、装置、设备及介质。
背景技术
随着人工智能技术在交通领域实现技术落地和应用普及,不同的主体,如人工智能公司、科技公司、科研机构和行业企业等,对数据采集和标注需求量也越来越大。并且,在需求量上,人工智能公司和科技公司占主要份额。
具体而言,人工智能公司更关注于视觉、语音、自然语言理解、文本识别等某一类型的基础数据;科技公司结合集团自身优势,向人工智能方向整体发力和靠近,因此,不同的部门会产生多种类型的业务数据需求;科研机构以理论算法研究为主,由于财力资源、硬件资源等约束对标注数据需求占比较小,但仍然希望有大量标注数据。
而面对越来越巨大的数据标注需求,目前标注行业大多采用众包模式,即由人工进行标注。但是,许多标注人员是兼职的,未受过专业训练,标注出的数据质量达不到需求方的要求。尤其对于交通领域而言,还需要标注人员对业务有一定的理解,如违法行为、车纹识别等,而大多数标注人员显然并不具备此方面的业务知识,导致标注并不准确,且效率较低。
发明内容
鉴于以上内容,有必要提供一种基于人工智能的交通数据标注方法、装置、设备及介质,能够基于人工智能,以少量的标注数据辅助执行自动化标注,节省了大量人力,进而在更短的时间内完成标注,提高了标注的效率,模型的反复优化也不断提升模型的效果,进一步提升了标注的准确度。
一种基于人工智能的交通数据标注方法,所述基于人工智能的交通数据标注方法包括:
获取交通数据构建图像数据集;
对所述图像数据集进行拆分,得到至少一组子数据集;
从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集;
对所述基础数据集进行扩展,得到训练数据集;
利用所述训练数据集训练卷积神经网络,得到初始网络模型;
从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集;
将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果;
将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息;
利用所述修正结果优化所述初始网络模型;
从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注。
根据本发明优选实施例,所述从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集包括:
将抽取的子数据集发送至指定人员的终端设备;
向所述终端设备发送提示信息,所述提示信息用于提示所述指定人员对所述抽取的子数据集进行标注;
接收从所述终端设备返回的数据构建所述基础数据集。
根据本发明优选实施例,所述对所述基础数据集进行扩展,得到训练数据集包括:
采用GAN网络对所述基础数据集进行扩展,得到所述训练数据集;及/或
对所述基础数据集中的数据进行随机翻转,得到翻转后的数据,整合所述翻转后的数据至所述基础数据集,得到所述训练数据集;及/或
对所述基础数据集中的数据进行随机裁剪,得到裁剪后的数据,整合所述裁剪后的数据至所述基础数据集,得到所述训练数据集。
根据本发明优选实施例,所述利用所述训练数据集训练卷积神经网络,得到初始网络模型包括:
利用卷积神经网络提取所述训练数据集中数据的特征信息以及所述特征信息对应的位置信息;
将所述特征信息及所述位置信息与所述训练数据集中数据的标注信息进行比对,得到损失函数;
调整所述卷积神经网络的权重,直至所述损失函数收敛,得到所述初始网络模型。
根据本发明优选实施例,所述将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果包括:
通过卷积运算提取出所述第一数集中数据的特征并生成特征图;
将所述特征图输入至所述初始网络模型中的全连接层,输出每个特征对应的特征标识及位置信息;
将每个特征对应的特征标识及位置信息确定为所述第一数据集的模型标注结果。
根据本发明优选实施例,所述利用所述修正结果优化所述初始网络模型包括:
将所述模型标注结果与所述修正结果进行比对,得到损失函数;
调整所述初始网络模型的权重,直至所述损失函数收敛。
根据本发明优选实施例,所述基于人工智能的交通数据标注方法还包括:
获取所述图像数据集中所有数据的标注信息;
从所述标注信息中获取每个特征标识对应的位置信息中的最大横坐标、最小横坐标、最大纵坐标及最小纵坐标;
以每个特征标识对应的位置信息中的最大横坐标、最小横坐标、最大纵坐标及最小纵坐标构建每个特征标识对应的数组信息;
以所述每个特征标识对应的数组信息生成标注文件,并保存所述标注文件至区块链中。
一种基于人工智能的交通数据标注装置,所述基于人工智能的交通数据标注装置包括:
获取单元,用于获取交通数据构建图像数据集;
拆分单元,用于对所述图像数据集进行拆分,得到至少一组子数据集;
标注单元,用于从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集;
扩展单元,用于对所述基础数据集进行扩展,得到训练数据集;
训练单元,用于利用所述训练数据集训练卷积神经网络,得到初始网络模型;
抽取单元,用于从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集;
输入单元,用于将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果;
修正单元,用于将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息;
优化单元,用于利用所述修正结果优化所述初始网络模型;
所述标注单元,还用于从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注。
一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现所述基于人工智能的交通数据标注方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述基于人工智能的交通数据标注方法。
由以上技术方案可以看出,本发明能够获取交通数据构建图像数据集,对所述图像数据集进行拆分,得到至少一组子数据集,并从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集,以少量的标注数据辅助执行自动化标注,节省了大量人力,进而在更短的时间内完成标注,提高了标注的效率,对所述基础数据集进行扩展,得到训练数据集,利用所述训练数据集训练卷积神经网络,得到初始网络模型,对所述基础数据集的扩展能够有效提高训练模型时的数据量,进而提高了模型的精确度,从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集,将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果,将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息,并利用所述修正结果优化所述初始网络模型,实现对初始网络模型的修正,以提高所述初始网络模型的准确度,进一步从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注,进而实现对数据的自动标注,模型的反复优化也不断提升模型的效果,进一步提升了标注的准确度。本发明还可应用于智慧交通场景中,从而推动智慧城市的建设。
附图说明
图1是本发明基于人工智能的交通数据标注方法的较佳实施例的流程图。
图2是本发明基于人工智能的交通数据标注装置的较佳实施例的功能模块图。
图3是本发明实现基于人工智能的交通数据标注方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明基于人工智能的交通数据标注方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述基于人工智能的交通数据标注方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,获取交通数据构建图像数据集。
优选地,所述获取交通数据构建图像数据集包括:
与配置服务器建立连接,并从所述配置服务器上获取所述交通数据构建所述图像数据集。
其中,所述配置服务器可以是交通管理部门的服务器等。
另外,也可以直接连接交警数据采集设备,如卡口、电警摄像头等前端数据采集设备,进而获取所述交通数据构建所述图像数据集,本发明不限制。
S11,对所述图像数据集进行拆分,得到至少一组子数据集。
具体地,可以将所述图像数据集中的数据均分为指定组数,本发明不限制。
需要说明的是,拆分后,每个子数据集中的数据数量相同,但是数据内容不重复。
S12,从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集。
具体地,所述从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集包括:
将抽取的子数据集发送至指定人员的终端设备;
向所述终端设备发送提示信息,所述提示信息用于提示所述指定人员对所述抽取的子数据集进行标注;
接收从所述终端设备返回的数据构建所述基础数据集。
其中,所述指定人员是指专业的标注人员。
在本实施例中,以专业的标注人员对数据进行少量标注,以辅助后续的自动化标注,而非通过人工进行大量标注,有效节约了标注时间,并减少了人工标注数据的复杂工作量,数据标注是一个需要高精度以及大量人力的工作,通过本实施例节省了大量人力,进而在更短的时间内完成标注,提高了标注的效率。
S13,对所述基础数据集进行扩展,得到训练数据集。
优选地,所述对所述基础数据集进行扩展,得到训练数据集包括:
采用GAN网络(Generative Adversarial Networks,生成式对抗网络)对所述基础数据集进行扩展,得到所述训练数据集;及/或
对所述基础数据集中的数据进行随机翻转,得到翻转后的数据,整合所述翻转后的数据至所述基础数据集,得到所述训练数据集;及/或
对所述基础数据集中的数据进行随机裁剪,得到裁剪后的数据,整合所述裁剪后的数据至所述基础数据集,得到所述训练数据集。
通过上述实施方式,能够实现对数据集的自动扩展,扩展后的所述训练数据集中的每个数据也都是具有标注的,因此,对所述基础数据集的扩展能够有效提高训练模型时的数据量,进而提高了模型的精确度,使模型的训练效果更佳。
S14,利用所述训练数据集训练卷积神经网络,得到初始网络模型。
优选地,所述利用所述训练数据集训练卷积神经网络,得到初始网络模型包括:
利用卷积神经网络提取所述训练数据集中数据的特征信息以及所述特征信息对应的位置信息;
将所述特征信息及所述位置信息与所述训练数据集中数据的标注信息进行比对,得到损失函数;
调整所述卷积神经网络的权重,直至所述损失函数收敛,得到所述初始网络模型。
例如:所述特征信息可以包括,但不限于:车轮廓、车型、车牌等特征,相应地,所述位置信息则为上述特征分别对应的位置。
可以理解的是,通过上述训练得到的所述初始网络模型受限于标注量等的影响,模型的精确度等还有待提高,因此,需要后续进一步地修正。
S15,从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集。
其中,所述第一子数据集中的数据未被标注。
由于所述至少一组子数据集的标注顺序不限,因此,可以随机抽取一组子数据集作为所述第一数据集。
S16,将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果。
优选地,所述将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果包括:
通过卷积运算提取出所述第一数集中数据的特征并生成特征图;
将所述特征图输入至所述初始网络模型中的全连接层,输出每个特征对应的特征标识及位置信息;
将每个特征对应的特征标识及位置信息确定为所述第一数据集的模型标注结果。
其中,卷积运算就是通过矩阵运算,比如用一个三乘三的卷积核扫描过一遍所述第一数据集中每个数据(图像)的二维矩阵(图像可以表示成一个二维矩阵),卷积核经过每个像素时,与以该像素点为中心的3x3矩阵的每个点进行乘积再求和,然后再滑动至下一个像素,进而提取出所述第一数集中数据的特征并生成所述特征图。
通过上述实施方式,能够利用所述初始网络模型实现对所述第一数据集中数据的自动标注。
S17,将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息。
优选地,所述指定平台与所述指定人员的终端设备相通信,所述指定平台采集所述指定人员的修正结果,并反馈所述修正结果。
具体地,可以进行以下修正:
1.类别识别错误修正。例如:识别出是什么车辆等。
2.位置偏移的修正,尽可能保证物体的外接框是最小外接框。
3.不必要的标注,包括,但不限于:模型误识别出来的物体,不在标注计划内的,或根据实际业务需要不需要标注的物体,比如距离较远或不在目标区域的物体等。
通过上述实施方式,能够结合专业人员对采用所述初始网络模型进行标注的结果进行修正,人工对标注数据进行了审核集修正,保证了标注的准确率。
S18,利用所述修正结果优化所述初始网络模型。
优选地,所述利用所述修正结果优化所述初始网络模型包括:
将所述模型标注结果与所述修正结果进行比对,得到损失函数;
调整所述初始网络模型的权重,直至所述损失函数收敛。
通过上述实施方式,实现对所述初始网络模型的修正,以提高所述初始网络模型的准确度。
S19,从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注。
通过上述实施方式,对于其他没有进行人工标注的数据,先用修正后的模型进行标注,然后再进行人工修正作为最终的标注信息,再利用修正后得到的标注信息优化模型,反复执行上述过程,直至所有的数据都被标注完成。
也就是说,所有的数据都先利用上一轮修正后的模型进行标注,再由人工修正得到最终的标注信息。而在此过程中,模型也在不断地进行优化,即以当前得到的修正后的标注信息进行模型的修正,再用于下一轮的标注,模型地反复优化不断提升模型的效果,进一步提升了标注的准确度。
优选地,所述基于人工智能的交通数据标注方法还包括:
获取所述图像数据集中所有数据的标注信息;
从所述标注信息中获取每个特征标识对应的位置信息中的最大横坐标、最小横坐标、最大纵坐标及最小纵坐标;
以每个特征标识对应的位置信息中的最大横坐标、最小横坐标、最大纵坐标及最小纵坐标构建每个特征标识对应的数组信息;
以所述每个特征标识对应的数组信息生成标注文件,并保存所述标注文件至区块链中。
其中,所述标注文件可以是xml、json、txt、csv等文件类型,本发明不限制。
需要说明的是,通过保存所述标注文件至区块链中,能够进一步确保数据的安全性及隐私性。
在本实施例中,训练的标注模型还可以被移植到其他场景做数据的预标注,比如在交通卡口摄像头数据下获得的自动标注车辆模型,可以放在行车记录仪拍摄的数据中进行预标注。
在本实施例中,训练的标注模型还可以在相同的场景下进行AI(ArtificialIntelligence,人工智能)应用的落地,如在交通卡口摄像头数据下获取的自动标注车型识别模型,可以被用在交通违法智能审核场景中。
由以上技术方案可以看出,本发明能够获取交通数据构建图像数据集,对所述图像数据集进行拆分,得到至少一组子数据集,并从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集,以少量的标注数据辅助执行自动化标注,节省了大量人力,进而在更短的时间内完成标注,提高了标注的效率,对所述基础数据集进行扩展,得到训练数据集,利用所述训练数据集训练卷积神经网络,得到初始网络模型,对所述基础数据集的扩展能够有效提高训练模型时的数据量,进而提高了模型的精确度,从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集,将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果,将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息,并利用所述修正结果优化所述初始网络模型,实现对初始网络模型的修正,以提高所述初始网络模型的准确度,进一步从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注,进而实现对数据的自动标注,模型的反复优化也不断提升模型的效果,进一步提升了标注的准确度。本发明还可应用于智慧交通场景中,从而推动智慧城市的建设。
如图2所示,是本发明基于人工智能的交通数据标注装置的较佳实施例的功能模块图。所述基于人工智能的交通数据标注装置11包括获取单元110、拆分单元111、标注单元112、扩展单元113、训练单元114、抽取单元115、输入单元116、修正单元117、优化单元118、构建单元119、生成单元120。本发明所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
获取单元110获取交通数据构建图像数据集。
优选地,所述获取单元110获取交通数据构建图像数据集包括:
与配置服务器建立连接,并从所述配置服务器上获取所述交通数据构建所述图像数据集。
其中,所述配置服务器可以是交通管理部门的服务器等。
另外,也可以直接连接交警数据采集设备,如卡口、电警摄像头等前端数据采集设备,进而获取所述交通数据构建所述图像数据集,本发明不限制。
拆分单元111对所述图像数据集进行拆分,得到至少一组子数据集。
具体地,可以将所述图像数据集中的数据均分为指定组数,本发明不限制。
需要说明的是,拆分后,每个子数据集中的数据数量相同,但是数据内容不重复。
标注单元112从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集。
具体地,所述标注单元112从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集包括:
将抽取的子数据集发送至指定人员的终端设备;
向所述终端设备发送提示信息,所述提示信息用于提示所述指定人员对所述抽取的子数据集进行标注;
接收从所述终端设备返回的数据构建所述基础数据集。
其中,所述指定人员是指专业的标注人员。
在本实施例中,以专业的标注人员对数据进行少量标注,以辅助后续的自动化标注,而非通过人工进行大量标注,有效节约了标注时间,并减少了人工标注数据的复杂工作量,数据标注是一个需要高精度以及大量人力的工作,通过本实施例节省了大量人力,进而在更短的时间内完成标注,提高了标注的效率。
扩展单元113对所述基础数据集进行扩展,得到训练数据集。
优选地,所述扩展单元113对所述基础数据集进行扩展,得到训练数据集包括:
采用GAN网络(Generative Adversarial Networks,生成式对抗网络)对所述基础数据集进行扩展,得到所述训练数据集;及/或
对所述基础数据集中的数据进行随机翻转,得到翻转后的数据,整合所述翻转后的数据至所述基础数据集,得到所述训练数据集;及/或
对所述基础数据集中的数据进行随机裁剪,得到裁剪后的数据,整合所述裁剪后的数据至所述基础数据集,得到所述训练数据集。
通过上述实施方式,能够实现对数据集的自动扩展,扩展后的所述训练数据集中的每个数据也都是具有标注的,因此,对所述基础数据集的扩展能够有效提高训练模型时的数据量,进而提高了模型的精确度,使模型的训练效果更佳。
训练单元114利用所述训练数据集训练卷积神经网络,得到初始网络模型。
优选地,所述训练单元114利用所述训练数据集训练卷积神经网络,得到初始网络模型包括:
利用卷积神经网络提取所述训练数据集中数据的特征信息以及所述特征信息对应的位置信息;
将所述特征信息及所述位置信息与所述训练数据集中数据的标注信息进行比对,得到损失函数;
调整所述卷积神经网络的权重,直至所述损失函数收敛,得到所述初始网络模型。
例如:所述特征信息可以包括,但不限于:车轮廓、车型、车牌等特征,相应地,所述位置信息则为上述特征分别对应的位置。
可以理解的是,通过上述训练得到的所述初始网络模型受限于标注量等的影响,模型的精确度等还有待提高,因此,需要后续进一步地修正。
抽取单元115从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集。
其中,所述第一子数据集中的数据未被标注。
由于所述至少一组子数据集的标注顺序不限,因此,可以随机抽取一组子数据集作为所述第一数据集。
输入单元116将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果。
优选地,所述输入单元116将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果包括:
通过卷积运算提取出所述第一数集中数据的特征并生成特征图;
将所述特征图输入至所述初始网络模型中的全连接层,输出每个特征对应的特征标识及位置信息;
将每个特征对应的特征标识及位置信息确定为所述第一数据集的模型标注结果。
其中,卷积运算就是通过矩阵运算,比如用一个三乘三的卷积核扫描过一遍所述第一数据集中每个数据(图像)的二维矩阵(图像可以表示成一个二维矩阵),卷积核经过每个像素时,与以该像素点为中心的3x3矩阵的每个点进行乘积再求和,然后再滑动至下一个像素,进而提取出所述第一数集中数据的特征并生成所述特征图。
通过上述实施方式,能够利用所述初始网络模型实现对所述第一数据集中数据的自动标注。
修正单元117将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息。
优选地,所述指定平台与所述指定人员的终端设备相通信,所述指定平台采集所述指定人员的修正结果,并反馈所述修正结果。
具体地,所述修正单元117可以进行以下修正:
1.类别识别错误修正。例如:识别出是什么车辆等。
2.位置偏移的修正,尽可能保证物体的外接框是最小外接框。
3.不必要的标注,包括,但不限于:模型误识别出来的物体,不在标注计划内的,或根据实际业务需要不需要标注的物体,比如距离较远或不在目标区域的物体等。
通过上述实施方式,能够结合专业人员对采用所述初始网络模型进行标注的结果进行修正,人工对标注数据进行了审核集修正,保证了标注的准确率。
优化单元118利用所述修正结果优化所述初始网络模型。
优选地,所述优化单元118利用所述修正结果优化所述初始网络模型包括:
将所述模型标注结果与所述修正结果进行比对,得到损失函数;
调整所述初始网络模型的权重,直至所述损失函数收敛。
通过上述实施方式,实现对所述初始网络模型的修正,以提高所述初始网络模型的准确度。
所述标注单元112从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注。
通过上述实施方式,对于其他没有进行人工标注的数据,先用修正后的模型进行标注,然后再进行人工修正作为最终的标注信息,再利用修正后得到的标注信息优化模型,反复执行上述过程,直至所有的数据都被标注完成。
也就是说,所有的数据都先利用上一轮修正后的模型进行标注,再由人工修正得到最终的标注信息。而在此过程中,模型也在不断地进行优化,即以当前得到的修正后的标注信息进行模型的修正,再用于下一轮的标注,模型地反复优化不断提升模型的效果,进一步提升了标注的准确度。
优选地,所述获取单元110获取所述图像数据集中所有数据的标注信息,并从所述标注信息中获取每个特征标识对应的位置信息中的最大横坐标、最小横坐标、最大纵坐标及最小纵坐标;
构建单元119以每个特征标识对应的位置信息中的最大横坐标、最小横坐标、最大纵坐标及最小纵坐标构建每个特征标识对应的数组信息;
生成单元120以所述每个特征标识对应的数组信息生成标注文件,并保存所述标注文件至区块链中。
其中,所述标注文件可以是xml、json、txt、csv等文件类型,本发明不限制。
需要说明的是,通过保存所述标注文件至区块链中,能够进一步确保数据的安全性及隐私性。
在本实施例中,训练的标注模型还可以被移植到其他场景做数据的预标注,比如在交通卡口摄像头数据下获得的自动标注车辆模型,可以放在行车记录仪拍摄的数据中进行预标注。
在本实施例中,训练的标注模型还可以在相同的场景下进行AI(ArtificialIntelligence,人工智能)应用的落地,如在交通卡口摄像头数据下获取的自动标注车型识别模型,可以被用在交通违法智能审核场景中。
由以上技术方案可以看出,本发明能够获取交通数据构建图像数据集,对所述图像数据集进行拆分,得到至少一组子数据集,并从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集,以少量的标注数据辅助执行自动化标注,节省了大量人力,进而在更短的时间内完成标注,提高了标注的效率,对所述基础数据集进行扩展,得到训练数据集,利用所述训练数据集训练卷积神经网络,得到初始网络模型,对所述基础数据集的扩展能够有效提高训练模型时的数据量,进而提高了模型的精确度,从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集,将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果,将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息,并利用所述修正结果优化所述初始网络模型,实现对初始网络模型的修正,以提高所述初始网络模型的准确度,进一步从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注,进而实现对数据的自动标注,模型的反复优化也不断提升模型的效果,进一步提升了标注的准确度。本发明还可应用于智慧交通场景中,从而推动智慧城市的建设。
如图3所示,是本发明实现基于人工智能的交通数据标注方法的较佳实施例的电子设备的结构示意图。
所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于人工智能的交通数据标注程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,所述电子设备1既可以是总线型结构,也可以是星形结构,所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如所述电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,所述电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的交通数据标注程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于人工智能的交通数据标注程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于人工智能的交通数据标注方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成获取单元110、拆分单元111、标注单元112、扩展单元113、训练单元114、抽取单元115、输入单元116、修正单元117、优化单元118、构建单元119、生成单元120。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述基于人工智能的交通数据标注方法的部分。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
进一步地,计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
图3仅示出了具有组件12-13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种基于人工智能的交通数据标注方法,所述处理器13可执行所述多个指令从而实现:
获取交通数据构建图像数据集;
对所述图像数据集进行拆分,得到至少一组子数据集;
从所述至少一组子数据集中随机抽取一组子数据集进行标注,得到基础数据集;
对所述基础数据集进行扩展,得到训练数据集;
利用所述训练数据集训练卷积神经网络,得到初始网络模型;
从排除所述基础数据集后的所述至少一组子数据集中随机抽取一组子数据集作为第一数据集;
将所述第一数据集输入至所述初始网络模型,输出所述第一数据集的模型标注结果;
将所述第一数据集的模型标注结果发送至指定平台进行修正,并接收修正结果,将所述修正结果确定为所述第一数据集中数据的标注信息;
利用所述修正结果优化所述初始网络模型;
从所述至少一组子数据集中随机获取任意未标注的子数据集作为待标注数据集,并利用优化后的初始网络模型对所述待标注数据集进行标注,得到所述待标注数据集的模型标注结果,将所述待标注数据集的模型标注结果发送至所述指定平台进行修正,得到所述待标注数据集中数据的标注信息,并利用所述待标注数据集中数据的标注信息继续优化所述初始网络模型以利用优化后的初始网络模型进行下一次标注,直至所述图像数据集中的所有数据都被标注。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。