CN109803108A - 一种图像识别方法和装置 - Google Patents

一种图像识别方法和装置 Download PDF

Info

Publication number
CN109803108A
CN109803108A CN201910057993.9A CN201910057993A CN109803108A CN 109803108 A CN109803108 A CN 109803108A CN 201910057993 A CN201910057993 A CN 201910057993A CN 109803108 A CN109803108 A CN 109803108A
Authority
CN
China
Prior art keywords
target object
video image
image data
data
pixel number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910057993.9A
Other languages
English (en)
Inventor
白景坡
廖逍
杨旭升
刘柱
曾令康
张喆
李温静
卢大伟
李文璞
吴庆
吴立刚
余江斌
梁翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201910057993.9A priority Critical patent/CN109803108A/zh
Publication of CN109803108A publication Critical patent/CN109803108A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种图像识别方法和装置,通过将获取的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,基于预设的图像识别模型对第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,根据目标对象的坐标位置信息确定的图像框,提取第二视频图像数据中对应图像框的坐标像素点数据,并标注坐标像素点数据,将标注坐标像素点数据的第二视频图像数据转换为第三视频图像数据输出。通过上述方法,根据目标对象的坐标位置信息确定的图像框,提取图像框的坐标像素点数据并标注,实现将故障信息或其它信息经过图像框进行标注的目的,从而及时将故障信息或其他信息进行反馈。

Description

一种图像识别方法和装置
技术领域
本发明涉及输电线路运维领域,更具体地说,涉及一种图像识别方法和装置。
背景技术
随着科技的发展,我国输电线路规模不断扩大,对输电线路运维与检修工作提出了严峻的挑战。
使用直升机或无人机巡检被广泛运用于输电线路巡检业务中,传统的直升机、无人机巡检是通过搭载摄像机对输电线路及关键节点进行航拍,将拍摄好的视频及图像数据上传到服务器端,通过下载服务器的视频数据及图像数据后,对视频数据及图像数据进行处理分析及识别诊断。
现有技术中,使用直升机、无人机巡检的诊断周期长,需要及时处理的故障问题不能及时反馈。
发明内容
有鉴于此,本申请提供了一种图像识别方法和装置,实现将故障信息或其它信息经过图像框进行标注的目的,从而及时将故障信息或其他信息进行反馈。
为了实现上述目的,现提出的方案如下:
本发明第一方面公开了一种图像识别方法,包括:
将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,所述第一视频图像数据为HDMI格式;
基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框;
根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据;
将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据输出,所述第三视频图像数据为HDMI格式。
优选的,所述图像识别模型的预设过程,包括:
获取样本数据,所述样本数据包括目标对象数据;
基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,所述图像识别模型用于识别目标对象。
优选的,所述基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,包括:
基于预设的图像识别模型对所述第二视频图像数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据;
根据所述目标对象的数据,确定所述目标对象以及所述目标对象的坐标位置信息。
优选的,所述根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据,包括:
根据所述目标对象的坐标位置信息确定的图像框,确定所述图像框在所述第二视频图像数据对应的视频图像中的位置;
提取所述第二视频图像数据中对应所述位置的坐标像素点数据;
对所述坐标像素点数据进行标注。
优选的,所述标注所述坐标像素点数据,包括:
获取所述坐标像素点数据对应的颜色分量,所述颜色分量包括灰度值和色度值;
更改所述坐标像素点数据中的色度值,完成对所述坐标像素点的标注。
本发明第二方面公开了一种图像识别装置,包括:
AI处理单元、视频格式转换单元和主控单元;
所述视频格式转换单元,用于将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,并将所述第二视频图像数据通过BT1120接口发送至所述主控单元,所述第一视频图像数据为HDMI格式,以及将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据,通过HDMI接口输出;
所述AI处理单元,用于基于所述BT1120接口接收所述主控单元转发的第二视频图像数据,基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,并将所述目标对象的坐标位置信息发送至所述主控单元;所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框;
所述主控单元,用于通过BT1120接口接收所述视频格式转换单元发送的第二视频图像数据,并通过所述BT1120接口转发至所述AI处理单元,以及接收所述AI处理单元发送的所述目标对象的坐标位置信息,根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据。
优选的,所述图像识别模型的预设过程的所述AI处理单元,包括:
第一获取模块,用于获取样本数据,所述样本数据包括目标对象数据;
训练模块,用于基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,所述图像识别模型用于识别目标对象。
优选的,所述基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息的所述AI处理单元,包括:
第一确定模块,用于基于预设的图像识别模型对所述第二视频数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据;
第二确定模块,用于根据所述目标对象的数据,确定目标对象以及所述目标对象的坐标位置信息。
优选的,所述根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据的所述主控单元,包括:
第三确定模块,用于根据所述目标对象的坐标位置信息确定图像框,确定所述图像框在所述第二视频图像数据对象的视频对象的位置;
提取模块,用于提取所述第二视频图像数据中对应所述位置的坐标像素点的数据;
标注模块,用于对所述坐标像素点数据进行标注。
优选的,所述标注所述坐标像素点数据的所述主控单元,包括:
第二获取模块,用于获取所述坐标像素点数据对应的颜色分量,所述颜色分量包括灰度值和色度值;
更改模块,用于更改所述坐标像素点数据中的色度值,完成对所述坐标像素点的标注。
经由上述技术方案可知,本发明公开了一种图像识别方法和装置,通过将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,第一视频图像数据为HDMI格式,基于预设的图像识别模型对第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,根据目标对象的坐标位置信息确定的图像框,提取第二视频图像数据中对应图像框的坐标像素点数据,并标注坐标像素点数据,将标注坐标像素点数据的第二视频图像数据转换为第三视频图像数据输出,第三视频图像数据为HDMI格式。通过上述方法,根据目标对象的坐标位置信息确定的图像框,提取图像框的坐标像素点数据并标注,实现将故障信息或其它信息经过图像框进行标注的目的,从而及时将故障信息或其他信息进行反馈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种图像识别方法的流程示意图;
图2为本发明实施例公开的图像识别模型预设过程的流程示意图;
图3为本发明实施例公开的对深度学习神经网络压缩的流程示意图;
图4为本发明实施例公开的另一种图像识别方法的流程示意图;
图5为本发明实施例公开的另一种图像识别方法的流程示意图;
图6为本发明实施例公开的标注坐标像素点数据的流程示意图;
图7为本发明实施例公开的YUV422视频数据采集示意图;
图8为本发明实施例公开的YUV422视频数据存储格式示意图
图9为本发明实施例公开的一种图像识别装置的结构示意图;
图10为本发明实施例公开的一种图像识别装置连接结构示意图;
图11为本发明实施例公开的一种图像识别装置的AI处理单元结构示意图;
图12为本发明实施例公开的一种图像识别装置的主控单元结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,现有技术中,使用直升机或无人机巡检被广泛运用于输电线路巡检业务中,传统的直升机、无人机巡检是通过搭载摄像机对输电线路及关键节点进行航拍,将拍摄好的视频及图像数据上传到服务器端,通过下载服务器的视频数据及图像数据后,对视频数据及图像数据进行处理分析及识别诊断。使用直升机、无人机巡检的诊断周期长,需要及时处理的故障问题不能及时反馈。因此,本发明公开了一种图像识别方法,以实现将故障信息或其它信息经过图像框进行标注并及时反馈出来的目的。
如图1所示,为本发明实施例公开的一种图像识别方法的流程示意图,包括如下步骤:
步骤S101:将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,所述第一视频图像数据为HDMI格式。
需要说明的是,由于本发明的AI处理单元选用BT1120接口作为视频数据输入接口,所以将HDMI格式的第一视频图像数据转换为YUV422格式的第二视频图像数据。
需要说明的是,基于BT.1120协议将YUV422格式的视频数据编码成内嵌同步定时基准码的视频数据进行传输。其中,所述BT.1120协议是高清数字视频传输协议。
步骤S102:基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框。
在执行步骤S102的过程中,所述图像识别模型是预先设定的,基于所述图像识别模型对所述第二视频图像数据进行深度学习计算,并确定所述目标对象的数据确定所述目标对象以及所述目标对象的坐标位置信息。
需要说明的是,将所述目标对象的坐标点位置信息中的坐标点位置进行连接构成图像框,所述图像框可以是圆形框、三角形框、矩形框或其它形状的框等,具体可以根据实际需求进行设置。
上述图像识别模型预设的具体过程,如图2所示,包括:
步骤S201:获取样本数据,所述样本数据包括目标对象数据。
步骤S202:基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,所述图像识别模型用于识别目标对象。
通过执行上述步骤S201-步骤S202基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,基于所述图像识别模型对第二视频图像进行数据处理,从而确定目标对象以及所述目标对象的坐标位置信息。
需要说明的是,基于所述图像识别模型对第二视频图像进行数据处理,基于预设的图像识别模型对所述第二视频图像数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据,根据所述目标对象的数据,确定所述目标对象以及所述目标对象的坐标位置信息。
基于所述图像识别模型对第二视频图像进行数据处理,从而确定目标对象以及所述目标对象的坐标位置信息,该过程包括通过对深度神经网络模型压缩,深度学习神经网络压缩的流程示意图,如图3所示,包括:
步骤S301:对原始神经网络进行训练。
步骤S302:通过网络删减对所述原始神经网络中权重值小于阈值的连接进行删减。
需要说明的是,删减所述原始神经网络中权重小于阈值的连接,将其权重值重置零。
步骤S303:使用K-means聚类算法将删减后所述原始神经网络中的每层参数进行聚类,将每个相同类的多个参数共享值作为权重值,并优化K的取值。
需要说明的是,基于网络删减结合参数共享对深度学习神经网络进行压缩包括:对原始神经网络进行训练,删减掉权重值小于阈值的连接,将其权重值置零,保留信息量较大的连接权重值不变,为了保持其网络准确率不变,基于删减后的网络上进行训练微调,然后,针对每一层的参数进行K-means聚类,落于每个相同簇的多个参数共享中心值作为权重值,在保持准确率不变的前提下,优化k的取值。
需要说明的是,优化K的取值的作用是尽可能减少由于权重值共享带来的识别精度的损失,使得经过K-means聚类后的计算与原矩阵计算保持一致。
需要说明的是,网络删减结合参数共享可以在可控的精度损失下有效的压缩神经网络模型的参数,两者共同作用提高神经网络模型的压缩率。
通过执行上述步骤S301-步骤S303对深度学习神经网络进行压缩,通过减少由于权重值共享带来的识别精度的损失,使得经过K-means聚类后的计算与原矩阵计算保持一致,达到了兼顾压缩效果与模型功能精度的目的。
步骤S103:根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据。
在执行步骤S103的过程中,根据所述目标对象的坐标位置信息确定的图像框,确定所述图像框在所述第二视频图像数据对应的视频图像中的位置,对所述第二视频图像数据中对应的视频图像中的位置的坐标像素点数据进行提取,并对所述坐标像素点数据进行标注。
步骤S104:将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据输出,所述第三视频图像数据为HDMI格式。
需要说明的是,为了不改变原有机载设备接口状态,将标注所述坐标像素点数据的所述第二视频图像数据转换为HDMI格式的第三视频图像数据进行输出。
本发明实施例通过上述公开的图像识别方法,将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,第一视频图像数据为HDMI格式,基于预设的图像识别模型对第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,根据目标对象的坐标位置信息确定的图像框,提取第二视频图像数据中对应图像框的坐标像素点数据,并标注坐标像素点数据,将标注坐标像素点数据的第二视频图像数据转换为第三视频图像数据输出,第三视频图像数据为HDMI格式。通过上述方法,根据目标对象的坐标位置信息确定的图像框,提取图像框的坐标像素点数据并标注,实现将故障信息或其它信息经过图像框进行标注的目的,从而及时将故障信息或其他信息进行反馈。
基于图1所述的方法,本发明实施例提供了另一种图像识别方法,如图4所示,具体包括:
步骤S401:将获取到的第一视频数据转换为YUV422格式,得到第二视频图像数据,所述第一视频图像数据为HDMI格式。
上述步骤S401的执行过程与图1示出的步骤S101的执行过程相同,且执行原理也相同,可参见,这里不再进行赘述。
步骤S402:基于预设的图像识别模型对所述第二视频图像数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据。
在执行步骤S402的过程中,基于预设的图像识别模型对所述第二视频图像数据进行数据处理,并确定所述第二视频图像数据中所对应的目标对象的数据。
步骤S403:根据所述目标对象的数据,确定所述目标对象以及所述目标对象的坐标位置信息,所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框。
上述步骤S403的执行过程与图1示出的步骤S102的执行过程相同,且执行原理也相同,可参见,这里不再进行赘述。
步骤S404:根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点的数据,并标注所述坐标像素点数据。
步骤S405:将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据输出,所述第三视频图像数据为HDMI格式。
上述步骤S404-步骤S405的执行过程与图1示出的步骤S103-步骤S104的执行过程相同,且执行原理也相同,可参见,这里不再进行赘述。
本发明实施例通过上述公开的图像识别方法,通过将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,第一视频图像数据为HDMI格式,基于预设的图像识别模型对第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,根据目标对象的坐标位置信息确定的图像框,提取第二视频图像数据中对应图像框的坐标像素点数据,并标注坐标像素点数据,将标注坐标像素点数据的第二视频图像数据转换为第三视频图像数据输出,第三视频图像数据为HDMI格式。通过上述方法,根据目标对象的坐标位置信息确定的图像框,提取图像框的坐标像素点数据并进行标注,实现将故障信息或其它信息经过图像框进行标注的目的,从而及时将故障信息或其他信息进行反馈。
如图5所示,为本发明实施例公开的另一种图像识别方法的流程示意图,包括如下步骤:
步骤S501:将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,所述第一视频图像数据为HDMI格式。
步骤S502:基于预设的图像识别模型对所述第二视频图像数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据。
上述步骤S501-步骤S502的执行过程与图4示出的步骤S401-步骤S402的执行过程相同,且执行原理也相同,可参见,这里不再进行赘述。
步骤S503:根据所述目标对象的数据,确定所述目标对象以及所述目标对象的坐标位置信息,所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框。
上述步骤S503的执行过程与图4示出的步骤S403的执行过程相同,且执行原理也相同,可参见,这里不再进行赘述。
步骤S504:根据所述目标对象的坐标位置信息确定的图像框,确定所述图像框在所述第二视频图像数据对应的视频图像中的位置。
需要说明的是,确定所述图像框在所述第二视频图像数据对应的视频图像中的位置,通过图相框使得人眼可以轻松捕获视频图像中关注的目标,也更容易对一些模糊的目标进行补拍。
步骤S505:提取所述第二视频图像数据中对应所述位置的坐标像素点数据。
需要说明的是,不同的视频图像数据所对应的位置的坐标像素点数据也不同。
步骤S506:对所述坐标像素点数据进行标注。
需要说明的是,对所述坐标像素点数据进行标注是更改所述坐标像素点数据中的色度值。
在具体实现中,执行步骤S506的具体过程,如图6所示,主要包括以下步骤:
步骤S601:获取所述坐标像素点数据对应的颜色分量,所述颜色分量包括灰度值和色度值。
步骤S602:更改所述坐标像素点的色度值,完成对所述坐标像素点的标注。
需要说明的是,根据目标对象的坐标位置信息确定的图像框,提取相应视频数中对应所述图像框的坐标像素点数据,视频数据存储格式为YUV422格式,YUV格式视频数据,分为三个分量,“Y”表示明亮度(Luminance或Luma),也就是灰度值;而“U”和“V”表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色,每两个Y共用一组UV分量。
通过执行上述步骤S601-步骤S602获取所述坐标像素点数据对应的颜色分量,并对所述颜色分量重的色度值进行更改,达到对所述坐标像素点的标注效果。
步骤S507:将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据输出,所述第三视频图像数据为HDMI格式。
上述步骤S507的执行过程与图1示出的步骤S104的执行过程相同,且执行原理也相同,可参见,这里不再进行赘述。
本发明实施例通过上述公开的图像识别方法,通过将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,第一视频图像数据为HDMI格式,基于预设的图像识别模型对第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,根据目标对象的坐标位置信息确定的图像框,提取第二视频图像数据中对应图像框的坐标像素点数据,并标注坐标像素点数据,将标注坐标像素点数据的第二视频图像数据转换为第三视频图像数据输出,第三视频图像数据为HDMI格式。通过上述方法,根据目标对象的坐标位置信息确定的图像框,提取图像框的坐标像素点数据并标注,实现将故障信息或其它信息经过图像框进行标注的目的,从而及时将故障信息或其他信息进行反馈。
进一步的,YUV422视频数据采集示意图,如图7所示。
需要说明的是,有外圈的黑点表示亮度“Y”,无外圈的黑点表示色度“UV”。
需要说明的是,YUV4:2:2采样,表示每两个Y共用一组UV分量。
需要说明的是,根据目标对象的坐标位置信息确定的图像框,提取相应视频数中对应所述图像框的坐标像素点数据,视频数据存储格式为YUV422格式。YUV格式视频数据,分为三个分量,“Y”表示明亮度(Luminance或Luma),也就是灰度值;而“U”和“V”表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色,每两个Y共用一组UV分量。
需要说明的是,将提取的坐标像素点数据中的UV数据进行更改,更改UV数据的效果将要识别的目标用另外一种颜色的框标记出来,从而达到图像标注的效果。图像标注是指在一帧图像中将要识别的目标用相对应颜色的框标记处理。由于视频转换速度较快,人眼对目标的识别难以覆盖全面,通过图像框观察,人眼可以轻松捕获到视频中关注的目标,而且方便对模糊目标进行补拍查证。
本发明实施例通过获取所述坐标像素点数据对应的颜色分量更改所述坐标像素点的色度值,完成对所述坐标像素点的标注,从而达到图像标注的效果。
进一步的,YUV422视频数据存储格式示意图,如图8所示。
需要说明的是,Cb的含义等同于U,Cr的含义等同于V,都表示色度。
需要说明的是,UYVY格式是YUV422采样的存储格式中的一种,相邻的两个Y共用其相邻的两个Cb、Cr,比如,对于像素点Y'00、Y'01而言,其Cb、Cr的值均为Cb00、Cr00,其他的像素点的YUV取值依次类推。
基于上述本发明实施例公开的一种图像识别方法,本发明实施例还对应公开了一种图像识别装置,如图9所示,该图像识别装置900主要包括:
视频格式转换单元901,用于将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,并将所述第二视频图像数据通过BT1120接口发送至所述主控单元,所述第一视频图像数据为HDMI格式,以及将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据,通过HDMI接口输出。
需要说明的是,第二层装置包括:所述视频格式转换单元901、电源管理单元、HDMI接口输入端子、电源接口和HDMI接口输出端子;所述视频格式转换单元901通过标准电路将HDMI格式的视频数据转换成YUV422格式并通过所述BT1120接口输出;所述电源管理单元通过DC/DC电源芯片将外部输入电压转换成5V、3.3V、1.2V等其他装置各部件所需电压。
AI处理单元902,用于基于所述BT1120接口接收所述主控单元转发的第二视频图像数据,基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,并将所述目标对象的坐标位置信息发送至所述主控单元;所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框。
需要说明的是,AI处理单元902选用BT1120作为视频数据输入接口,将机载摄像机的HDMI接口数据转成成标准YUV422格式数据并通过第二BT1120接口传输到ARM处理器。
需要说明的是,所述AI处理单元902为第一层装置,所述第一层装置包括:BT1120接口、串口和电源三个接口,可以通过FFC36排线形式对外连接,所述AI处理单元902接收BT1120接口输入的YUV422视频数据后,基于深度学习算法通过串口输出目标对象以及所述目标对象的坐标位置信息。
需要说明的是,所述AI处理单元902通过深度学习计算确定目标对象及所述目标对象的坐标位置信息并输出,该过程分为三个层次:底层采用基于FPGA的定制化板卡,采用嵌入式Linux操作系统,支持USB、Ethernet、VUSB、DMI等多种数据接口,方便嵌入各种目标系统;中间层首先对训练后的深度学习算法进行深度神经网络模型压缩,然后采用数据流处理模型固化为硬件模块,于底层硬件系统运行,提供顶层应用所需的高处理性能、低功耗及低延时;顶层应用根据不同目标调整深度学习网络架构,自动探索硬件设计空间,将图像识别模型转换成可编程逻辑语言,并烧录到FPGA可编辑逻辑器件中,保证最优硬件性能。优化后顶层应用实时接入视觉数据,采用硬件深度学习模块支持目标检测,将检测后的结果通过串口及底层操作系统输出至处理器。三层系统的紧密配合保证顶层的目标检测应用可以同时享有定制硬件的高性能及深度学习的精确性。
需要说明的是,本发明中所述FPGA是深度学习算法的硬件载体,深度学习的人工智能图像识别算法是在FPGA芯片上实现的。
主控单元903,用于通过BT1120接口接收所述视频格式转换单元发送的第二视频图像数据,并通过所述BT1120接口转发至所述AI处理单元902,以及接收所述AI处理单元902发送的所述目标对象的坐标位置信息,根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据。
需要说明的是,所述主控单元903为第三层装置,所述第三层装置包括:两个BT1120接口、串口、电源接口、USB接口及ARM处理器,所述第三层装置功能主要包括:所述BT1120接口视频数据预处理转发功能和标注所述坐标像素点数据功能;所述BT1120接口视频数据预处理转发功能,通过所述ARM处理器接收视频格式转换单元输出的YUV422视频数据,基于预处理后通过所述BT1120接口转发到所述AI处理单元902,基于此方法解决BT1120接口分路造成的驱动能力不足的问题。所述标注所述坐标像素点数据,通过所述ARM处理器接收到所述AI处理单元902输出的目标对象以及所述目标对象的坐标位置信息,根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据,将标注后的所述坐标像素点数据转换成视频数据,将所述像素点的视频数据通过HDMI接口输出。
需要说明的是,所述驱动能力不足,由于所述视频格式转换单元901将HDMI格式的视频转换成YUV422格式视频,通过BT1120接口发送,将数据分别发送到所述AI处理单元902和ARM处理器,如果直接将BT1120接口一分为二分别发送搭配所述AI处理单元902和所述ARM处理器,则会造成驱动不足,导致所述AI处理单元902和所述ARM处理器接收BT1120接口的视频数据不稳定,从而影响后续图像识别和处理工作。此处先将BT1120接口接入所述ARM处理器,通过所述ARM处理器对视频数据进行转发,通过所述ARM处理的另一路BT1120输出接口将视频数据发送到所述AI处理单元902,可以解决驱动不足的问题。
所述第一层装置与所述第二层装置通过FFC36排线进行连接,所述第二层装置与所述第三层装置之间通过双排插针接口进行连接。图像识别装置连接结构示意图,如图10所示。
需要说明的是,本发明实施例中,存在多种可以实现装置之间连接的器件或排线,可以根据实际情况进行使用,只要能够实现图像识别装置的连接均可视为本发明的保护范围之内。
进一步的,所述AI处理单元902,如图11所示,包括:
第一获取模块1101,用于获取样本数据,所述样本数据包括目标对象数据;
训练模块1102,用于基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,所述图像识别模型用于识别目标对象;
第一确定模块1103,用于基于预设的图像识别模型对所述第二视频数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据;
第二确定模块1104,用于根据所述目标对象的数据,确定目标对象以及所述目标对象的坐标位置信息。
进一步的,所述主控单元903,如图12所示,包括:
第三确定模块1201,用于根据所述目标对象的坐标位置信息确定图像框,确定所述图像框在所述第二视频图像数据对象的视频对象的位置。
提取模块1202,用于提取所述第二视频图像数据中对应所述位置的坐标像素点的数据。
标注模块1203,用于对所述坐标像素点数据进行标注。
第二获取模块1204,用于获取所述坐标像素点数据对应的颜色分量,所述颜色分量包括灰度值和色度值。
更改模块1205,用于更改所述坐标像素点数据中的色度值,完成对所述坐标像素点的标注。
上述本发明实施例公开的电子控制设备中的各个模块和设备具体的原理和执行过程,与上述本发明实施例公开的图像识别方法相同,可参见上述本发明实施例公开的图像识别方法中相应的部分,这里不再进行赘述。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种图像识别方法,其特征在于,包括:
将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,所述第一视频图像数据为HDMI格式;
基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框;
根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据;
将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据输出,所述第三视频图像数据为HDMI格式。
2.根据权利要求1所述的方法,其特征在于,所述图像识别模型的预设过程,包括:
获取样本数据,所述样本数据包括目标对象数据;
基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,所述图像识别模型用于识别目标对象。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,包括:
基于预设的图像识别模型对所述第二视频图像数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据;
根据所述目标对象的数据,确定所述目标对象以及所述目标对象的坐标位置信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据,包括:
根据所述目标对象的坐标位置信息确定的图像框,确定所述图像框在所述第二视频图像数据对应的视频图像中的位置;
提取所述第二视频图像数据中对应所述位置的坐标像素点数据;
对所述坐标像素点数据进行标注。
5.根据权利要求1-3中任意一项所述的方法,其特征在于,所述标注所述坐标像素点数据,包括:
获取所述坐标像素点数据对应的颜色分量,所述颜色分量包括灰度值和色度值;
更改所述坐标像素点数据中的色度值,完成对所述坐标像素点的标注。
6.一种图像识别装置,其特征在于,包括:AI处理单元、视频格式转换单元和主控单元;
所述视频格式转换单元,用于将获取到的第一视频图像数据转换为YUV422格式,得到第二视频图像数据,并将所述第二视频图像数据通过BT1120接口发送至所述主控单元,所述第一视频图像数据为HDMI格式,以及将标注所述坐标像素点数据的所述第二视频图像数据转换为第三视频图像数据,通过HDMI接口输出;
所述AI处理单元,用于基于所述BT1120接口接收所述主控单元转发的第二视频图像数据,基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息,并将所述目标对象的坐标位置信息发送至所述主控单元;所述坐标位置信息至少包括三个坐标点位置,所述三个坐标点位置构成一图像框;
所述主控单元,用于通过BT1120接口接收所述视频格式转换单元发送的第二视频图像数据,并通过所述BT1120接口转发至所述AI处理单元,以及接收所述AI处理单元发送的所述目标对象的坐标位置信息,根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据。
7.根据权利要求6所述的装置,其特征在于,所述图像识别模型的预设过程的所述AI处理单元,包括:
第一获取模块,用于获取样本数据,所述样本数据包括目标对象数据;
训练模块,用于基于所述样本数据对深度学习神经网络模型进行训练,得到图像识别模型,所述图像识别模型用于识别目标对象。
8.根据权利要求7所述的装置,其特征在于,所述基于预设的图像识别模型对所述第二视频图像数据进行数据处理,确定目标对象以及所述目标对象的坐标位置信息的所述AI处理单元,包括:
第一确定模块,用于基于预设的图像识别模型对所述第二视频数据进行深度学习计算,确定所述第二视频图像数据中对应目标对象的数据;
第二确定模块,用于根据所述目标对象的数据,确定目标对象以及所述目标对象的坐标位置信息。
9.根据权利要求6所述的装置,其特征在于,所述根据所述目标对象的坐标位置信息确定的图像框,提取所述第二视频图像数据中对应所述图像框的坐标像素点数据,并标注所述坐标像素点数据的所述主控单元,包括:
第三确定模块,用于根据所述目标对象的坐标位置信息确定图像框,确定所述图像框在所述第二视频图像数据对象的视频对象的位置;
提取模块,用于提取所述第二视频图像数据中对应所述位置的坐标像素点的数据;
标注模块,用于对所述坐标像素点数据进行标注。
10.根据权利要6-8中任意一项所述的装置,其特征在于,所述标注所述坐标像素点数据的所述主控单元,包括:
第二获取模块,用于获取所述坐标像素点数据对应的颜色分量,所述颜色分量包括灰度值和色度值;
更改模块,用于更改所述坐标像素点数据中的色度值,完成对所述坐标像素点的标注。
CN201910057993.9A 2019-01-22 2019-01-22 一种图像识别方法和装置 Pending CN109803108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910057993.9A CN109803108A (zh) 2019-01-22 2019-01-22 一种图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910057993.9A CN109803108A (zh) 2019-01-22 2019-01-22 一种图像识别方法和装置

Publications (1)

Publication Number Publication Date
CN109803108A true CN109803108A (zh) 2019-05-24

Family

ID=66559916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910057993.9A Pending CN109803108A (zh) 2019-01-22 2019-01-22 一种图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN109803108A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782692A (zh) * 2019-10-31 2020-02-11 青岛海信网络科技股份有限公司 一种信号灯故障检测方法及系统
CN111064994A (zh) * 2019-12-25 2020-04-24 广州酷狗计算机科技有限公司 视频图像处理方法及装置、存储介质
CN112241669A (zh) * 2019-07-18 2021-01-19 杭州海康威视数字技术股份有限公司 目标识别方法、装置、系统及设备、存储介质
CN113518205A (zh) * 2021-06-11 2021-10-19 南京和贤电子科技有限公司 一种基于ai分析的视频巡查处理方法
CN113542842A (zh) * 2021-07-14 2021-10-22 国网信息通信产业集团有限公司 一种适用于边缘计算的视频同步处理方法及系统
CN115866298A (zh) * 2022-11-24 2023-03-28 苏州睿芯通量科技有限公司 一种视频处理方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976400A (zh) * 2016-05-10 2016-09-28 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
CN106941602A (zh) * 2017-03-07 2017-07-11 中国铁道科学研究院 机车司机行为识别方法、装置及系统
US20180181822A1 (en) * 2016-12-27 2018-06-28 Automotive Research & Testing Center Hierarchical system for detecting object with parallel architecture and hierarchical method thereof
CN108416294A (zh) * 2018-03-08 2018-08-17 南京天数信息科技有限公司 一种基于深度学习的风机叶片故障智能识别方法
CN109147254A (zh) * 2018-07-18 2019-01-04 武汉大学 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976400A (zh) * 2016-05-10 2016-09-28 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
US20180181822A1 (en) * 2016-12-27 2018-06-28 Automotive Research & Testing Center Hierarchical system for detecting object with parallel architecture and hierarchical method thereof
CN106941602A (zh) * 2017-03-07 2017-07-11 中国铁道科学研究院 机车司机行为识别方法、装置及系统
CN108416294A (zh) * 2018-03-08 2018-08-17 南京天数信息科技有限公司 一种基于深度学习的风机叶片故障智能识别方法
CN109147254A (zh) * 2018-07-18 2019-01-04 武汉大学 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241669A (zh) * 2019-07-18 2021-01-19 杭州海康威视数字技术股份有限公司 目标识别方法、装置、系统及设备、存储介质
CN110782692A (zh) * 2019-10-31 2020-02-11 青岛海信网络科技股份有限公司 一种信号灯故障检测方法及系统
CN111064994A (zh) * 2019-12-25 2020-04-24 广州酷狗计算机科技有限公司 视频图像处理方法及装置、存储介质
CN111064994B (zh) * 2019-12-25 2022-03-29 广州酷狗计算机科技有限公司 视频图像处理方法及装置、存储介质
CN113518205A (zh) * 2021-06-11 2021-10-19 南京和贤电子科技有限公司 一种基于ai分析的视频巡查处理方法
CN113542842A (zh) * 2021-07-14 2021-10-22 国网信息通信产业集团有限公司 一种适用于边缘计算的视频同步处理方法及系统
CN115866298A (zh) * 2022-11-24 2023-03-28 苏州睿芯通量科技有限公司 一种视频处理方法、系统、电子设备及存储介质
CN115866298B (zh) * 2022-11-24 2023-12-19 苏州睿芯通量科技有限公司 一种视频处理方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109803108A (zh) 一种图像识别方法和装置
KR102050865B1 (ko) 이미지에 대한 동기화 디스플레이 방법 및 장치
CN108010037B (zh) 图像处理方法、装置及存储介质
CN109783182A (zh) 一种页面主题色调的调整方法、装置、设备及介质
CN103731583A (zh) 用于拍照智能化合成、打印的一体化设备及其处理方法
CN107993238A (zh) 一种基于注意力模型的头肩部分图像分割方法及装置
CN110472494A (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
CN112132197A (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN110135215B (zh) 一种基于Avatar表情移植的虚拟社交方法
US20210209330A1 (en) Method for correction of the eyes image using machine learning and method for machine learning
CN105574896B (zh) 一种面向高分辨率视频的高效背景建模方法
CN103426194B (zh) 一种动画表情的制作方法
US11334973B2 (en) Image colorizing method and device
CN100505840C (zh) 一种人脸合成视频传输的方法及装置
CN112562019A (zh) 图像色彩调整方法及装置、计算机可读介质和电子设备
CN113763296A (zh) 图像处理方法、设备以及介质
WO2017003031A1 (ko) 감성 아바타 이모티콘 기반의 초경량 데이터 애니메이션 방식 제공 방법, 그리고 이를 구현하기 위한 감성 아바타 이모티콘 제공 단말장치
CN109801209A (zh) 参数预测方法、人工智能芯片、设备及系统
CN110532959A (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN108353127A (zh) 基于深度相机的图像稳定
CN105183269A (zh) 自动辨识游标所在屏幕的方法
CN106407906B (zh) 人脸面部识别方法
CN114360018A (zh) 三维人脸表情的渲染方法及装置、存储介质及电子装置
CN109194942A (zh) 一种裸眼3d视频播放方法、终端和服务器
CN112561782B (zh) 一种提高海上场景仿真图片真实度的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524