CN113505796A - 一种实时的高精度全景分割方法 - Google Patents
一种实时的高精度全景分割方法 Download PDFInfo
- Publication number
- CN113505796A CN113505796A CN202110839304.7A CN202110839304A CN113505796A CN 113505796 A CN113505796 A CN 113505796A CN 202110839304 A CN202110839304 A CN 202110839304A CN 113505796 A CN113505796 A CN 113505796A
- Authority
- CN
- China
- Prior art keywords
- image data
- data
- network
- resnet
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明实施例涉及一种实时的高精度全景分割方法,所述方法包括:创建并训练像素级实例语义分割模型;像素级实例语义分割模型包括第一列ResNet网络、第二列ResNet网络、第一聚合网络、第一数据融合模块、实例分割网络和语义分割网络;获取第一高精度图像数据;将第一高精度图像数据,输入训练成熟的像素级实例语义分割模型进行运算,得到像素级的实例分割图像数据和语义分割图像数据;使用第二数据融合模块,对实例分割图像数据和语义分割图像数据进行融合处理,得到像素级实例语义分割图像。通过本发明方法,可以极大地缩短整体任务的处理时间,为车辆在行驶过程中对实时高清图像的解析效率提供有效保障。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种实时的高精度全景分割方法。
背景技术
自动驾驶技术领域中,如要对高清图像进行像素级的实例语义分割,就需先使用一个像素级的语义识别模型对图像进行像素级的语义标注从而得到一个带有语义标签的二维图像,再使用一个实例分割模型对带有语义标签的二维图像进一步进行实例分割得到一个带有实例标注框(中心点和角点偏移位置)信息的二维图像,再使用带有语义标签的二维图像与带有实例标注框信息的二维图像进行融合才能得到最终的带有实例特征的像素级语义标注图像。这种处理方法整个计算过程都是串行的,所以计算时间较长,若在车辆行驶过程中使用上述方法对实时高清图像进行解析,常常会出现计算超时的问题。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种实时的高精度全景分割方法、电子设备及计算机可读存储介质,创建并使用一种基于并行计算逻辑的像素级实例语义分割模型对实时高精度全景图像进行实例语义分割处理;该模型不同于常规模型的编码器-解码器串行计算方式而是采用两路分支并行计算的方式,从而有效缩短了计算时间;该模型一路分支使用低降采样率的残差网络(Residual Network,ResNet)对原图做连续卷积,从而在降低高清图数据量的同时确保原图特征不丢失,以便用于后续的实例分割;另一路分支使用高降采样率的ResNet对原图做连续卷积,并使用聚合网络对连续卷积结果进行感受野扩大处理,从而为后续的语义分割做好了数据准备;将两路分支计算输出的数据进行融合,并将融合数据分别输入两路并行的实例分割网络和语义分割网络进行并行运算,从而得到两张不同分割目的输出图像也就是实例分割图像和语义分割图像,再将二者进行融合即可得到像素级实例语义分割图像。本发明方法,将两种串行模型的数据准备+运算处理时间,转换为单个模型的两路并行数据+运算处理时间,可以极大地缩短整体任务的处理时间,为车辆在行驶过程中对实时高清图像的解析效率提供有效保障。
为实现上述目的,本发明实施例第一方面提供了一种实时的高精度全景分割方法,所述方法包括:
创建并训练像素级实例语义分割模型;所述像素级实例语义分割模型包括第一列ResNet网络、第二列ResNet网络、第一聚合网络、第一数据融合模块、实例分割网络和语义分割网络;
获取第一高精度图像数据;
将所述第一高精度图像数据,输入训练成熟的所述像素级实例语义分割模型进行运算,得到像素级的实例分割图像数据和语义分割图像数据;
使用第二数据融合模块,对所述实例分割图像数据和所述语义分割图像数据进行融合处理,得到像素级实例语义分割图像。
优选的,所述第一列ResNet网络包括第一一ResNet网络、第一二ResNet网络、第一三ResNet网络、第一四ResNet网络和第一五ResNet网络;所述第二列ResNet网络包括第二一ResNet网络、第二二ResNet网络和第二三ResNet网络;
所述第一一ResNet网络与模型数据输入通道和所述第一二ResNet网络连接;
所述第一二ResNet网络与所述第一三ResNet网络和所述第二一ResNet网络连接;
所述第一三ResNet网络与所述第一四ResNet网络和所述第二二ResNet网络连接;
所述第一四ResNet网络与所述第一五ResNet网络和所述第二三ResNet网络连接;
所述第一五ResNet网络与所述第一数据融合模块连接;
所述第二一ResNet网络与所述第二二ResNet网络和所述第一四ResNet网络连接;
所述第二二ResNet网络与所述第二三ResNet网络和所述第一五ResNet网络连接;
所述第二三ResNet网络与所述第一聚合网络连接;
所述第一聚合网络与所述第一数据融合模块连接;
所述第一数据融合模块与所述实例分割网络和所述语义分割网络连接。
优选的,所述第一聚合网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层;还包括第一上采样反卷积层、第二上采样反卷积层、第三上采样反卷积层和第四上采样反卷积层;还包括第一数据级联单元、第二数据级联单元、第三数据级联单元、第四数据级联单元、第五数据级联单元和第六数据级联单元;
所述第一卷积层与网络数据输入通道、所述第一数据级联单元、所述第五数据级联单元和所述第六数据级联单元连接;
所述第二卷积层与所述网络数据输入通道和所述第一上采样反卷积层连接;
所述第三卷积层与所述网络数据输入通道和所述第二上采样反卷积层连接;
所述第四卷积层与所述网络数据输入通道和所述第三上采样反卷积层连接;
所述第五卷积层与所述网络数据输入通道和所述第四上采样反卷积层连接;
所述第一上采样反卷积层与所述第一数据级联单元连接;
所述第二上采样反卷积层与所述第二数据级联单元连接;
所述第三上采样反卷积层与所述第三数据级联单元连接;
所述第四上采样反卷积层与所述第四数据级联单元连接;
所述第一数据级联单元与所述第六卷积层连接;
所述第六卷积层与所述第二数据级联单元和所述第五数据级联单元连接;
所述第二数据级联单元与所述第七卷积层连接;
所述第七卷积层与所述第三数据级联单元和所述第五数据级联单元连接;
所述第三数据级联单元与所述第八卷积层连接;
所述第八卷积层与所述第四数据级联单元和所述第五数据级联单元连接;
所述第四数据级联单元与所述第九卷积层连接;
所述第九卷积层与所述第五数据级联单元连接;
所述第五数据级联单元与所述第十卷积层连接;
所述第十卷积层与所述第六数据级联单元连接。
进一步的,所述第一卷积层的卷积核小于所述第二卷积层的卷积核,所述第一卷积层的步长小于所述第二卷积层的步长;所述第二卷积层的卷积核小于所述第三卷积层的卷积核,所述第二卷积层的步长小于所述第三卷积层的步长;所述第三卷积层的卷积核小于所述第四卷积层的卷积核,所述第三卷积层的步长小于所述第四卷积层的步长;所述第四卷积层的卷积核小于所述第五卷积层的卷积核,所述第四卷积层的步长小于所述第五卷积层的步长;
所述第一上采样反卷积层、所述第二上采样反卷积层、所述第三上采样反卷积层和所述第四上采样反卷积层在处理图像的上采样反卷积时,采用双线性插值模式对扩大的图像区域的像素点数据进行填充。
优选的,所述将所述第一高精度图像数据,输入训练成熟的所述像素级实例语义分割模型进行运算,得到像素级的实例分割图像数据和语义分割图像数据,具体包括:
使用所述像素级实例语义分割模型的所述第一一ResNet网络对所述第一高精度图像数据,按第一一下采样率进行第一一下采样处理生成第一一图像数据,并将所述第一一图像数据发送至所述第一二ResNet网络;
使用所述第一二ResNet网络对所述第一一图像数据,按第一二下采样率进行第一二下采样处理生成第一二图像数据,并将所述第一二图像数据发送至所述第一三ResNet网络和所述第二一ResNet网络;
使用所述第一三ResNet网络对所述第一二图像数据,按第一三下采样率进行第一三下采样处理生成第一三图像数据,并将所述第一三图像数据发送至所述第一四ResNet网络和所述第二二ResNet网络;
并使用所述第二一ResNet网络对所述第一二图像数据,按第二一下采样率进行第二一下采样处理生成第二一图像数据,并将所述第二一图像数据发送至所述第二二ResNet网络;并按第一上采样参数对所述第二一图像数据进行上第一上采样处理生成第二一上采样图像数据,并将所述第二一上采样图像数据发送至所述第一四ResNet网络;
使用所述第一四ResNet网络对所述第一三图像数据与所述第二一上采样图像数据进行融合处理,并对融合结果按第一四下采样率进行第一四下采样处理生成第一四图像数据,并将所述第一四图像数据发送至所述第一五ResNet网络和所述第二三ResNet网络;
并使用所述第二二ResNet网络对所述第一三图像数据与所述第二一图像数据进行融合处理,并对融合结果按第二二下采样率进行第二二下采样处理生成第二二图像数据,并将所述第二二图像数据发送至所述第二三ResNet网络;并按第二上采样参数对所述第二二图像数据进行上第二上采样处理生成第二二上采样图像数据,并将所述第二二上采样图像数据发送至所述第一五ResNet网络;
使用所述第一五ResNet网络对所述第一四图像数据与所述第二二上采样图像数据进行融合处理,并对融合结果按第一五下采样率进行第一五下采样处理生成第一五图像数据,并将所述第一五图像数据发送至所述第一数据融合模块;
并使用所述第二三ResNet网络对所述第一四图像数据与所述第二二图像数据进行融合处理,并对融合结果按第二三下采样率进行第二三下采样处理生成第二三图像数据,并将所述第二三图像数据发送至所述第一聚合网络;并使用所述第一聚合网络对所述第二三图像数据进行感受野扩大处理生成第二四图像数据,并将所述第二四图像数据发送至所述第一数据融合模块;
使用所述第一数据融合模块对所述第一五图像数据和所述第二四图像数据进行数据融合处理生成第一融合图形数据;并将所述第一融合图形数据,分别发送至所述实例分割网络和所述语义分割网络;
使用所述实例分割网络对所述第一融合图形数据进行像素级的实例分割处理,生成对应的所述实例分割图像数据;
并使用所述语义分割网络对所述第一融合图形数据进行像素级的语义分割处理,生成对应的所述语义分割图像数据。
进一步的,所述第一一下采样率、所述第一二下采样率、所述第一三下采样率、所述第一四下采样率和所述第一五下采样率均小于所述第二一下采样率、所述第二二下采样率和所述第二三下采样率。
本发明实施例第二方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种实时的高精度全景分割方法、电子设备及计算机可读存储介质,创建并使用一种基于并行计算逻辑的像素级实例语义分割模型对实时高精度全景图像进行实例语义分割处理;该模型不同于常规模型的编码器-解码器串行计算方式而是采用两路分支并行计算的方式,从而有效缩短了计算时间;该模型一路分支使用低降采样率的ResNet对原图做连续卷积,从而在降低高清图数据量的同时确保原图特征不丢失,以便用于后续的实例分割;另一路分支使用高降采样率的ResNet对原图做连续卷积,并使用聚合网络对连续卷积结果进行感受野扩大处理,从而为后续的语义分割做好了数据准备;将两路分支计算输出的数据进行融合,并将融合数据分别输入两路并行的实例分割网络和语义分割网络进行并行运算,从而得到两张不同分割目的输出图像也就是实例分割图像和语义分割图像,再将二者进行融合即可得到像素级实例语义分割图像。本发明方法,将两种串行模型的数据准备+运算处理时间,转换为单个模型的两路并行数据+运算处理时间,大大缩短了整体任务的处理时间,为车辆在行驶过程中对实时高清图像的解析效率提供了有效保障。
附图说明
图1为本发明实施例一提供的一种实时的高精度全景分割方法示意图;
图2为本发明实施例一提供的一种像素级实例语义分割模型的网络结构示意图;
图3为本发明实施例一提供的一种像素级实例语义分割模型的第一聚合网络的结构示意图;
图4为本发明实施例二提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供的一种实时的高精度全景分割方法,如图1为本发明实施例一提供的一种实时的高精度全景分割方法示意图所示,本方法主要包括如下步骤:
步骤1,创建并训练像素级实例语义分割模型。
这里,像素级实例语义分割模型是用于对高清图像进行像素级的实例语义分割的,本发明实施例创建的模型结构并未采用传统的两类模型串行结构(语义识别模型+实例分割模型),如图2为本发明实施例一提供的一种像素级实例语义分割模型的网络结构示意图所示,本发明实施例创建的模型结构是采用两路分支并行计算的方式,有效缩短了计算时间。在对该模型进行训练时,使用多组高清图像-实例分割图像对和多组高清图像-语义分割图像对进行训练。
其中,像素级实例语义分割模型的结构如图2所示,包括第一列ResNet网络、第二列ResNet网络、第一聚合网络、第一数据融合模块、实例分割网络和语义分割网络;第一列ResNet网络包括第一一ResNet网络、第一二ResNet网络、第一三ResNet网络、第一四ResNet网络和第一五ResNet网络;第二列ResNet网络包括第二一ResNet网络、第二二ResNet网络和第二三ResNet网络;实例分割网络由三层卷积神经网络组成,其输出图像结构为带实例中心位置和角点偏移信息的实例图像;语义分割网络由两层卷积神经网络组成,其输出图像结构为带语义标签的语义图像。
像素级实例语义分割模型内各网络的连接关系如图2所示,第一一ResNet网络与模型数据输入通道和第一二ResNet网络连接;第一二ResNet网络与第一三ResNet网络和第二一ResNet网络连接;第一三ResNet网络与第一四ResNet网络和第二二ResNet网络连接;第一四ResNet网络与第一五ResNet网络和第二三ResNet网络连接;第一五ResNet网络与第一数据融合模块连接;第二一ResNet网络与第二二ResNet网络和第一四ResNet网络连接;第二二ResNet网络与第二三ResNet网络和第一五ResNet网络连接;第二三ResNet网络与第一聚合网络连接;第一聚合网络与第一数据融合模块连接;第一数据融合模块与实例分割网络和语义分割网络连接。
上文中的残差网络也就是ResNet网络出自论文《Deep Residual Learning forImage Recognition》,残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。上文中的第一聚合网络并行连接高分辨率与低分辨率网络,通过一个低到高的上采样融合过程恢复分辨率,使得产生的图像聚类信息在空间上更精确。
这里,本发明实施例的像素级实例语义分割模型首先通过第一列ResNet网络的第一一ResNet+第一二ResNet网络对输入的高清数据进行基础降采样,这样可以减少高清图像的数据量。
接着,将完成基础降采样的图像分别输入并行的第一分支(第一三ResNet+第一四ResNet+第一五ResNet)和第二分支(第二一ResNet+第二二ResNet+第二三ResNet+第一聚合网络),进行数据准备。其中,第一分支使用连续的三个低降采样率的ResNet对原图做运算,由ResNet原理我们可知,在降低高清图数据量的同时可以确保原图梯度信息、特征信息不丢失;第二分支使用连续三个高降采样率的ResNet对原图进行大尺寸压缩,并使用一个聚合网络对压缩图像进行感受野扩大处理,从而为后续的语义分割做好了数据准备;在第一列ResNet网络和第二列ResNet网络分别进行卷积运算的时候,两路分支还会通过数据融合来实现数据处理流程与结果共享。因为第一分支是用于为像素级的实例分割网络做数据准备的、要保留足够多的特征信息、不会对图像进行大幅度压缩,又因为第二分支是用于为像素级的语义分割网络做数据准备的、为提高计算效率会对图像进行大比例压缩,所以第一列ResNet网络的第一一到第一五ResNet网络的下采样率都不应过大,且第二列ResNet网络的下采样率都不应过小,因此在对本发明实施例的像素级实例语义分割模型进行具体配置时,应将第一列ResNet网络各子网络的下采样率都设定小于第二列ResNet网络各子网络的下采样率。例如,如图2所示,将第一列ResNet网络的第一一到第一五ResNet网络的下采样率都设为1/8,将第二列ResNet网络的第二一ResNet网络的下采样率设为1/16、第二二ResNet网络的下采样率设为1/32、第二三ResNet网络的下采样率设为1/64。
在第一分支与第二分支完成并行的两路数据准备之后,本发明实施例会使用第一数据融合模块对两路输出的数据进行图像通道数据融合处理,并将融合后的数据再向并行的实例分割网络和语义分割网络发送,并由实例分割网络和语义分割网络进行并行的像素级实例分割预测与语义分割预测处理。
综上,本发明实施例提供的模型将传统操作中由两种模型串行工作才能完成的任务转由单个模型经两路并行分支计算进行处理,从而极大地缩短了整体任务的处理时间,为车辆在行驶过程中对实时高清图像的解析效率提供有效保障。
另外,本发明实施例的像素级实例语义分割模型中的第一聚合网络,从其公知的网络结构我们可知其实际作用就是对图像进行特征点聚类处理,得到的图形常被称作热图(heatmap)。本发明实施例构建的第一聚合网络如图3为本发明实施例一提供的一种像素级实例语义分割模型的第一聚合网络的结构示意图所示,包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层;还包括第一上采样反卷积层、第二上采样反卷积层、第三上采样反卷积层和第四上采样反卷积层;还包括第一数据级联单元、第二数据级联单元、第三数据级联单元、第四数据级联单元、第五数据级联单元和第六数据级联单元。
第一聚合网络内各处理单元的连接关系如图3所示,第一卷积层与网络数据输入通道、第一数据级联单元、第五数据级联单元和第六数据级联单元连接;第二卷积层与网络数据输入通道和第一上采样反卷积层连接;第三卷积层与网络数据输入通道和第二上采样反卷积层连接;第四卷积层与网络数据输入通道和第三上采样反卷积层连接;第五卷积层与网络数据输入通道和第四上采样反卷积层连接;第一上采样反卷积层与第一数据级联单元连接;第二上采样反卷积层与第二数据级联单元连接;第三上采样反卷积层与第三数据级联单元连接;第四上采样反卷积层与第四数据级联单元连接;第一数据级联单元与第六卷积层连接;第六卷积层与第二数据级联单元和第五数据级联单元连接;第二数据级联单元与第七卷积层连接;第七卷积层与第三数据级联单元和第五数据级联单元连接;第三数据级联单元与第八卷积层连接;第八卷积层与第四数据级联单元和第五数据级联单元连接;第四数据级联单元与第九卷积层连接;第九卷积层与第五数据级联单元连接;第五数据级联单元与第十卷积层连接;第十卷积层与第六数据级联单元连接。
在本发明实施例的第一聚合网络中,由第一卷积层到第五卷积层对应同一张图像同时输出5个分辨率从高到低的图像,因此,第一卷积层的卷积核应小于第二卷积层的卷积核,第一卷积层的步长应小于第二卷积层的步长;第二卷积层的卷积核应小于第三卷积层的卷积核,第二卷积层的步长应小于第三卷积层的步长;第三卷积层的卷积核应小于第四卷积层的卷积核,第三卷积层的步长应小于第四卷积层的步长;第四卷积层的卷积核应小于第五卷积层的卷积核,第四卷积层的步长应小于第五卷积层的步长;例如,如图3所示,第一卷积层的卷积核设为1×1;第二卷积层的卷积核设为5×5,步长为2;第三卷积层的卷积核设为9×9,步长为4;第四卷积层的卷积核设为17×17,步长为8;第五卷积层的卷积核设为H×W,步长为16,H和W可根据实际情况自行设定;
在本发明实施例中,高分辨率网络要与低分辨率网络多级融合,在进行融合时就需要进行上采样,本发明实施例模型中所有上采样操作都采用反卷积方式,并采用双线性插值模式对扩大的图像区域的像素点数据进行填充;如图3所示,第一聚合网络中,第一上采样反卷积层是低分辨率网络第二卷积层对应高分辨率网络的上采样层,第二上采样反卷积层是低分辨率网络第三卷积层对应高分辨率网络的上采样层,第三上采样反卷积层低分辨率网络第四卷积层对应高分辨率网络的上采样层,第四上采样反卷积层第五卷积层对应高分辨率网络的上采样层。
步骤2,获取第一高精度图像数据。
步骤3,将第一高精度图像数据,输入训练成熟的像素级实例语义分割模型进行运算,得到像素级的实例分割图像数据和语义分割图像数据;
具体的包括:步骤31,使用像素级实例语义分割模型的第一一ResNet网络对第一高精度图像数据,按第一一下采样率进行第一一下采样处理生成第一一图像数据,并将第一一图像数据发送至第一二ResNet网络;
这里,如图2所示,第一一下采样率为1/8,第一一下采样处理实际就是通过第一一ResNet网络的卷积神经网络做卷积运算达到下采样目的;
步骤32,使用第一二ResNet网络对第一一图像数据,按第一二下采样率进行第一二下采样处理生成第一二图像数据,并将第一二图像数据发送至第一三ResNet网络和第二一ResNet网络;
这里,如图2所示,第一二下采样率为1/8,第一二下采样处理实际就是通过第一二ResNet网络的卷积神经网络做卷积运算达到下采样目的;
步骤33,使用第一三ResNet网络对第一二图像数据,按第一三下采样率进行第一三下采样处理生成第一三图像数据,并将第一三图像数据发送至第一四ResNet网络和第二二ResNet网络;
这里,如图2所示,第一三下采样率为1/8,第一三下采样处理实际就是通过第一三ResNet网络的卷积神经网络做卷积运算达到下采样目的;
步骤34,并使用第二一ResNet网络对第一二图像数据,按第二一下采样率进行第二一下采样处理生成第二一图像数据,并将第二一图像数据发送至第二二ResNet网络;并按第一上采样参数对第二一图像数据进行上第一上采样处理生成第二一上采样图像数据,并将第二一上采样图像数据发送至第一四ResNet网络;
这里,如图2所示,第二一下采样率为1/16,第二一下采样处理就是通过第二一ResNet网络的卷积神经网络做卷积运算达到下采样目的;并且此处不仅会将第二一ResNet网络输出到下一级第二二ResNet网络,还会对其进行上采样后送至第一四ResNet网络与第一三ResNet网络的输出数据进行融合;
步骤35,使用第一四ResNet网络对第一三图像数据与第二一上采样图像数据进行融合处理,并对融合结果按第一四下采样率进行第一四下采样处理生成第一四图像数据,并将第一四图像数据发送至第一五ResNet网络和第二三ResNet网络;
这里,如图2所示第一四下采样率为1/8,第一四下采样处理就是通过第一四ResNet网络的卷积神经网络做卷积运算达到下采样目的;并且此处不仅会将第一四ResNet网络输出到下一级第一五ResNet网络,还会送至第二三ResNet网络与第二二ResNet网络的输出数据进行融合;
步骤36,并使用第二二ResNet网络对第一三图像数据与第二一图像数据进行融合处理,并对融合结果按第二二下采样率进行第二二下采样处理生成第二二图像数据,并将第二二图像数据发送至第二三ResNet网络;并按第二上采样参数对第二二图像数据进行上第二上采样处理生成第二二上采样图像数据,并将第二二上采样图像数据发送至第一五ResNet网络;
这里,如图2所示第二二下采样率为1/32,第二二下采样处理就是通过第二二ResNet网络的卷积神经网络做卷积运算达到下采样目的;并且此处不仅会将第二二ResNet网络输出到下一级第二三ResNet网络,还对其进行上采样后送至第一五ResNet网络与第一四ResNet网络的输出数据进行融合;
步骤37,使用第一五ResNet网络对第一四图像数据与第二二上采样图像数据进行融合处理,并对融合结果按第一五下采样率进行第一五下采样处理生成第一五图像数据,并将第一五图像数据发送至第一数据融合模块;
这里,如图2所示第一五下采样率为1/8,第一五下采样处理就是通过第一五ResNet网络的卷积神经网络做卷积运算达到下采样目的;
步骤38,并使用第二三ResNet网络对第一四图像数据与第二二图像数据进行融合处理,并对融合结果按第二三下采样率进行第二三下采样处理生成第二三图像数据,并将第二三图像数据发送至第一聚合网络;并使用第一聚合网络对第二三图像数据进行感受野扩大处理生成第二四图像数据,并将第二四图像数据发送至第一数据融合模块;
这里,如图2所示第二三下采样率为1/64,第二三下采样处理就是通过第二三ResNet网络的卷积神经网络做卷积运算达到下采样目的,并且此处会将第二三ResNet网络输出到下一级第一聚合网络进行特征点聚类操作;第二四图像数据就是完成了特征点聚类的图像,也被叫做热图;
步骤39,使用第一数据融合模块对第一五图像数据和第二四图像数据进行数据融合处理生成第一融合图形数据;并将第一融合图形数据,分别发送至实例分割网络和语义分割网络;
步骤40,使用实例分割网络对第一融合图形数据进行像素级的实例分割处理,生成对应的实例分割图像数据;
这里,因为本发明实施例的模型已经通过前述第一分支(第一三ResNet+第一四ResNet+第一五ResNet)完成了数据准备工作,因此实例分割网络中无需设置编码器网络,而是直接对融合数据进行实例中心点与角点解码即可;
步骤41,并使用语义分割网络对第一融合图形数据进行像素级的语义分割处理,生成对应的语义分割图像数据。
这里,因为本发明实施例的模型已经通过前述第二分支(第二一ResNet+第二二ResNet+第二三ResNet+第一聚合网络)完成了数据准备工作,因此语义分割网络中无需设置编码器网络,而是直接对融合数据进行语义标签解码即可。
步骤4,使用第二数据融合模块,对实例分割图像数据和语义分割图像数据进行融合处理,得到像素级实例语义分割图像。
这里,从步骤3得到的实例分割图像数据中不包含像素语义信息,语义分割图像数据中不包含像素实例信息,对二者按像素级进行通道级联,则可得到既包含了像素语义信息又包含了像素实例信息的二维图像也就是像素级实例语义分割图像。
本发明实施例提供的模型在处理高精度全景分割时,效率将得到很大提高,这里以一个具体示例进行说明。在公开数据集cityscapes上,当输入的图片大小为1024*2048时,本发明实施例提供的模型的语义分割精度指标(Mean Intersection over Union,MIoU)能达到76.43,全景分割精度指标能达到55.61;并在V100GPU上,即使只使用Pytorch作为推理引擎且不进行任何算子融合优化,步骤2-4的处理时间也能控制在10ms及以下,若使用TensorRT作为推理那么在3080Ti GPU上则会进一步降至5ms及以下。
图4为本发明实施例二提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图4所示,该电子设备可以包括:处理器401(例如CPU)、存储器402、收发器403;收发器403耦合至处理器401,处理器401控制收发器403的收发动作。存储器402中可以存储各种指令,以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源404、系统总线405以及通信端口406。系统总线405用于实现元件之间的通信连接。上述通信端口406用于电子设备与其他外设之间进行连接通信。
在图4中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、图形处理器(Graphics Processing Unit,GPU)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。
本发明实施例提供了一种实时的高精度全景分割方法、电子设备及计算机可读存储介质,创建并使用一种基于并行计算逻辑的像素级实例语义分割模型对实时高精度全景图像进行实例语义分割处理;该模型不同于常规模型的编码器-解码器串行计算方式而是采用两路分支并行计算的方式,从而有效缩短了计算时间;该模型一路分支使用低降采样率的ResNet对原图做连续卷积,从而在降低高清图数据量的同时确保原图特征不丢失,以便用于后续的实例分割;另一路分支使用高降采样率的ResNet对原图做连续卷积,并使用聚合网络对连续卷积结果进行感受野扩大处理,从而为后续的语义分割做好了数据准备;将两路分支计算输出的数据进行融合,并将融合数据分别输入两路并行的实例分割网络和语义分割网络进行并行运算,从而得到两张不同分割目的输出图像也就是实例分割图像和语义分割图像,再将二者进行融合即可得到像素级实例语义分割图像。本发明方法,将两种串行模型的数据准备+运算处理时间,转换为单个模型的两路并行数据+运算处理时间,大大缩短了整体任务的处理时间,为车辆在行驶过程中对实时高清图像的解析效率提供了有效保障。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种实时的高精度全景分割方法,其特征在于,所述方法包括:
创建并训练像素级实例语义分割模型;所述像素级实例语义分割模型包括第一列ResNet网络、第二列ResNet网络、第一聚合网络、第一数据融合模块、实例分割网络和语义分割网络;
获取第一高精度图像数据;
将所述第一高精度图像数据,输入训练成熟的所述像素级实例语义分割模型进行运算,得到像素级的实例分割图像数据和语义分割图像数据;
使用第二数据融合模块,对所述实例分割图像数据和所述语义分割图像数据进行融合处理,得到像素级实例语义分割图像。
2.根据权利要求1所述的实时的高精度全景分割方法,其特征在于,
所述第一列ResNet网络包括第一一ResNet网络、第一二ResNet网络、第一三ResNet网络、第一四ResNet网络和第一五ResNet网络;所述第二列ResNet网络包括第二一ResNet网络、第二二ResNet网络和第二三ResNet网络;
所述第一一ResNet网络与模型数据输入通道和所述第一二ResNet网络连接;
所述第一二ResNet网络与所述第一三ResNet网络和所述第二一ResNet网络连接;
所述第一三ResNet网络与所述第一四ResNet网络和所述第二二ResNet网络连接;
所述第一四ResNet网络与所述第一五ResNet网络和所述第二三ResNet网络连接;
所述第一五ResNet网络与所述第一数据融合模块连接;
所述第二一ResNet网络与所述第二二ResNet网络和所述第一四ResNet网络连接;
所述第二二ResNet网络与所述第二三ResNet网络和所述第一五ResNet网络连接;
所述第二三ResNet网络与所述第一聚合网络连接;
所述第一聚合网络与所述第一数据融合模块连接;
所述第一数据融合模块与所述实例分割网络和所述语义分割网络连接。
3.根据权利要求1所述的实时的高精度全景分割方法,其特征在于,
所述第一聚合网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层;还包括第一上采样反卷积层、第二上采样反卷积层、第三上采样反卷积层和第四上采样反卷积层;还包括第一数据级联单元、第二数据级联单元、第三数据级联单元、第四数据级联单元、第五数据级联单元和第六数据级联单元;
所述第一卷积层与网络数据输入通道、所述第一数据级联单元、所述第五数据级联单元和所述第六数据级联单元连接;
所述第二卷积层与所述网络数据输入通道和所述第一上采样反卷积层连接;
所述第三卷积层与所述网络数据输入通道和所述第二上采样反卷积层连接;
所述第四卷积层与所述网络数据输入通道和所述第三上采样反卷积层连接;
所述第五卷积层与所述网络数据输入通道和所述第四上采样反卷积层连接;
所述第一上采样反卷积层与所述第一数据级联单元连接;
所述第二上采样反卷积层与所述第二数据级联单元连接;
所述第三上采样反卷积层与所述第三数据级联单元连接;
所述第四上采样反卷积层与所述第四数据级联单元连接;
所述第一数据级联单元与所述第六卷积层连接;
所述第六卷积层与所述第二数据级联单元和所述第五数据级联单元连接;
所述第二数据级联单元与所述第七卷积层连接;
所述第七卷积层与所述第三数据级联单元和所述第五数据级联单元连接;
所述第三数据级联单元与所述第八卷积层连接;
所述第八卷积层与所述第四数据级联单元和所述第五数据级联单元连接;
所述第四数据级联单元与所述第九卷积层连接;
所述第九卷积层与所述第五数据级联单元连接;
所述第五数据级联单元与所述第十卷积层连接;
所述第十卷积层与所述第六数据级联单元连接。
4.根据权利要求3所述的实时的高精度全景分割方法,其特征在于,
所述第一卷积层的卷积核小于所述第二卷积层的卷积核,所述第一卷积层的步长小于所述第二卷积层的步长;所述第二卷积层的卷积核小于所述第三卷积层的卷积核,所述第二卷积层的步长小于所述第三卷积层的步长;所述第三卷积层的卷积核小于所述第四卷积层的卷积核,所述第三卷积层的步长小于所述第四卷积层的步长;所述第四卷积层的卷积核小于所述第五卷积层的卷积核,所述第四卷积层的步长小于所述第五卷积层的步长;
所述第一上采样反卷积层、所述第二上采样反卷积层、所述第三上采样反卷积层和所述第四上采样反卷积层在处理图像的上采样反卷积时,采用双线性插值模式对扩大的图像区域的像素点数据进行填充。
5.根据权利要求2所述的实时的高精度全景分割方法,其特征在于,所述将所述第一高精度图像数据,输入训练成熟的所述像素级实例语义分割模型进行运算,得到像素级的实例分割图像数据和语义分割图像数据,具体包括:
使用所述像素级实例语义分割模型的所述第一一ResNet网络对所述第一高精度图像数据,按第一一下采样率进行第一一下采样处理生成第一一图像数据,并将所述第一一图像数据发送至所述第一二ResNet网络;
使用所述第一二ResNet网络对所述第一一图像数据,按第一二下采样率进行第一二下采样处理生成第一二图像数据,并将所述第一二图像数据发送至所述第一三ResNet网络和所述第二一ResNet网络;
使用所述第一三ResNet网络对所述第一二图像数据,按第一三下采样率进行第一三下采样处理生成第一三图像数据,并将所述第一三图像数据发送至所述第一四ResNet网络和所述第二二ResNet网络;
并使用所述第二一ResNet网络对所述第一二图像数据,按第二一下采样率进行第二一下采样处理生成第二一图像数据,并将所述第二一图像数据发送至所述第二二ResNet网络;并按第一上采样参数对所述第二一图像数据进行上第一上采样处理生成第二一上采样图像数据,并将所述第二一上采样图像数据发送至所述第一四ResNet网络;
使用所述第一四ResNet网络对所述第一三图像数据与所述第二一上采样图像数据进行融合处理,并对融合结果按第一四下采样率进行第一四下采样处理生成第一四图像数据,并将所述第一四图像数据发送至所述第一五ResNet网络和所述第二三ResNet网络;
并使用所述第二二ResNet网络对所述第一三图像数据与所述第二一图像数据进行融合处理,并对融合结果按第二二下采样率进行第二二下采样处理生成第二二图像数据,并将所述第二二图像数据发送至所述第二三ResNet网络;并按第二上采样参数对所述第二二图像数据进行上第二上采样处理生成第二二上采样图像数据,并将所述第二二上采样图像数据发送至所述第一五ResNet网络;
使用所述第一五ResNet网络对所述第一四图像数据与所述第二二上采样图像数据进行融合处理,并对融合结果按第一五下采样率进行第一五下采样处理生成第一五图像数据,并将所述第一五图像数据发送至所述第一数据融合模块;
并使用所述第二三ResNet网络对所述第一四图像数据与所述第二二图像数据进行融合处理,并对融合结果按第二三下采样率进行第二三下采样处理生成第二三图像数据,并将所述第二三图像数据发送至所述第一聚合网络;并使用所述第一聚合网络对所述第二三图像数据进行感受野扩大处理生成第二四图像数据,并将所述第二四图像数据发送至所述第一数据融合模块;
使用所述第一数据融合模块对所述第一五图像数据和所述第二四图像数据进行数据融合处理生成第一融合图形数据;并将所述第一融合图形数据,分别发送至所述实例分割网络和所述语义分割网络;
使用所述实例分割网络对所述第一融合图形数据进行像素级的实例分割处理,生成对应的所述实例分割图像数据;
并使用所述语义分割网络对所述第一融合图形数据进行像素级的语义分割处理,生成对应的所述语义分割图像数据。
6.根据权利要求5所述的实时的高精度全景分割方法,其特征在于,
所述第一一下采样率、所述第一二下采样率、所述第一三下采样率、所述第一四下采样率和所述第一五下采样率均小于所述第二一下采样率、所述第二二下采样率和所述第二三下采样率。
7.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-6任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-6任一项所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839304.7A CN113505796A (zh) | 2021-07-23 | 2021-07-23 | 一种实时的高精度全景分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839304.7A CN113505796A (zh) | 2021-07-23 | 2021-07-23 | 一种实时的高精度全景分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505796A true CN113505796A (zh) | 2021-10-15 |
Family
ID=78013859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110839304.7A Withdrawn CN113505796A (zh) | 2021-07-23 | 2021-07-23 | 一种实时的高精度全景分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505796A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114745516A (zh) * | 2022-04-11 | 2022-07-12 | Oppo广东移动通信有限公司 | 全景视频的生成方法、装置、存储介质及电子设备 |
CN114758128A (zh) * | 2022-04-11 | 2022-07-15 | 西安交通大学 | 基于受控像素嵌入表征显式交互的场景全景分割方法及系统 |
-
2021
- 2021-07-23 CN CN202110839304.7A patent/CN113505796A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114745516A (zh) * | 2022-04-11 | 2022-07-12 | Oppo广东移动通信有限公司 | 全景视频的生成方法、装置、存储介质及电子设备 |
CN114758128A (zh) * | 2022-04-11 | 2022-07-15 | 西安交通大学 | 基于受控像素嵌入表征显式交互的场景全景分割方法及系统 |
CN114758128B (zh) * | 2022-04-11 | 2024-04-16 | 西安交通大学 | 基于受控像素嵌入表征显式交互的场景全景分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614574B2 (en) | Generating image segmentation data using a multi-branch neural network | |
CN112699937B (zh) | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111292330A (zh) | 基于编解码器的图像语义分割方法及装置 | |
CN113343778B (zh) | 一种基于LaneSegNet的车道线检测方法及系统 | |
CN113505796A (zh) | 一种实时的高精度全景分割方法 | |
CN109816659B (zh) | 图像分割方法、装置及系统 | |
CN110163801A (zh) | 一种图像超分辨和着色方法、系统及电子设备 | |
CN110544214A (zh) | 一种图像修复方法、装置及电子设备 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
WO2022206414A1 (zh) | 三维目标检测方法及装置 | |
CN111898539A (zh) | 一种多目标检测方法、装置、系统、设备及可读存储介质 | |
CN112700460B (zh) | 图像分割方法及系统 | |
CN111914654A (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN114782787A (zh) | 一种对点云与图像数据进行特征融合的处理方法和装置 | |
CN117315406B (zh) | 一种样本图像处理方法、装置及设备 | |
CN114661028A (zh) | 智能驾驶控制器测试方法、装置、计算机设备和存储介质 | |
CN118038053A (zh) | 一种双分辨率交互注意的实时语义分割方法与系统 | |
CN113313162A (zh) | 一种多尺度特征融合目标检测的方法及系统 | |
CN113361537A (zh) | 基于通道注意力的图像语义分割方法及装置 | |
CN115082371B (zh) | 图像融合方法、装置、移动终端设备及可读存储介质 | |
CN115115577A (zh) | 一种基于混合感知的多阶段器官分割方法及装置 | |
CN113947521A (zh) | 基于深度神经网络的图像分辨率转换方法及装置、终端设备 | |
CN110544256B (zh) | 基于稀疏特征的深度学习图像分割方法及装置 | |
CN111860349A (zh) | 一种智能车辆车道线语义分割的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211015 |