CN108986100B

CN108986100B - 影像切割方法及装置

Info

Publication number: CN108986100B
Application number: CN201810545910.6A
Authority: CN
Inventors: 林政宪; 卓柏全; 杨宏毅
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2017-06-02
Filing date: 2018-05-25
Publication date: 2022-04-19
Anticipated expiration: 2038-05-25
Also published as: CN108986100A; TW201903714A; US10706547B2; US20180350077A1; TWI689894B

Abstract

一种影像切割方法，用以通过由影像切割装置实现的神经网络执行影像切割，并包括：由神经网络的当下卷积神经网络单元接收由神经网络的先前卷积神经网络单元根据影像数据中对应先前时间点的先前影像产生的先前卷积神经网络权重数据；由当下卷积神经网络单元接收影像数据中对应当下时间点的当下影像，其中当下时间点邻接于先前时间点后；及由当下卷积神经网络单元根据先前卷积神经网络权重数据及当下影像进行卷积，以产生当下影像切割结果。本发明的影像切割方法及装置根据时序信息进行处理，而具有平滑的边缘及较少的抖动。

Description

影像切割方法及装置

技术领域

本发明涉及影像处理技术，且特别涉及一种影像切割方法及装置。

背景技术

语意(semantic)影像切割在影像辨识中占有重要的角色，使电脑得以辨识影像中的物件。物件的辨识与描绘(delineation)可由对影像中的各像素进行分类而实现。这样的处理方式在电脑视觉以及各种成长中的领域如自动驾驶和医学影像上有广泛的应用。然而，现在的影像切割技术，是对于影像数据中的不同影像画面分别进行影像切割。因此，由这样的方式所产生的整体影像数据的切割结果中，边缘容易产生抖动的现象。

因此，如何设计一个新的影像切割方法及装置，以解决上述的缺失，乃为此一业界亟待解决的问题。

发明内容

本发明的目的在于通过影像切割方法及装置，以根据时序信息进行影像切割，而产生具有平滑的边缘及较少的抖动的切割结果。

因此，本发明的一实施方式是在提供一种影像切割(image segmentation)方法，用以通过由影像切割装置实现的神经网络(neural network)执行影像切割，影像切割方法包括：由神经网络的当下卷积神经网络(convolution neural network；CNN)单元接收先前卷积神经网络权重数据，其中先前卷积神经网络权重数据是由神经网络的先前卷积神经网络单元根据影像数据中对应先前时间点的先前影像产生；由当下卷积神经网络单元接收影像数据中对应当下时间点的当下影像，其中当下时间点邻接于先前时间点后；以及由当下卷积神经网络单元根据先前卷积神经网络权重数据以及当下影像进行卷积，以产生当下影像切割结果。

在本发明的一实施例中，先前卷积神经网络权重数据包含由先前卷积神经网络单元的输出层所输出的多个先前输出层运算结果，或是由先前卷积神经网络单元的隐藏层(hidden layer)所输出的多个先前隐藏层运算结果。

在本发明的一实施例中，影像切割方法还包含：由当下卷积神经网络单元的输入层接收先前卷积神经网络权重数据以及当下影像；以及根据先前卷积神经网络权重数据以及当下影像进行卷积，以由当下卷积神经网络单元的输出层产生当下影像切割结果。

在本发明的一实施例中，影像切割方法还包含：由当下卷积神经网络单元的输入层接收该当下影像；由当下卷积神经网络单元的隐藏层接收先前卷积神经网络权重数据；以及根据先前卷积神经网络权重数据以及当下影像进行卷积，以由当下卷积神经网络单元的输出层产生当下影像切割结果。

在本发明的一实施例中，影像切割方法还包含：选择多个当下运算结果中其中之一具有最大值者以产生当下影像切割结果，其中当下运算结果是由当下卷积神经网络单元的输出层产生；以及传送当下卷积神经网络权重数据至下一卷积神经网络单元，其中当下卷积神经网络权重数据为当下运算结果或是由当下卷积神经网络单元的隐藏层所输出的多个当下隐藏层运算结果。

在本发明的一实施例中，神经网络为递归神经网络(recurrent neural network；RNN)，包含多个卷积神经网络单元，卷积神经网络单元包含先前卷积神经网络单元以及当下卷积神经网络单元。

在本发明的一实施例中，当先前卷积神经网络单元不存在时，先前卷积神经网络权重数据为预设虚拟数据(dummy data)。

本发明的另一实施方式是在提供一种影像切割装置，包括：存储单元以及处理单元。存储单元配置以存储多个电脑可执行指令。处理单元电性耦接于存储单元，并配置以获取并执行电脑可执行指令，以执行影像切割方法，影像切割方法用以通过由处理单元执行电脑可执行指令时实现的神经网络执行影像切割，影像切割方法包括：由神经网络的当下卷积神经网络单元接收先前卷积神经网络权重数据，其中先前卷积神经网络权重数据是由神经网络的先前卷积神经网络单元根据影像数据中对应先前时间点的先前影像产生；由当下卷积神经网络单元接收影像数据中对应当下时间点的当下影像，其中当下时间点邻接于先前时间点后；以及由当下卷积神经网络单元根据先前卷积神经网络权重数据以及当下影像进行卷积，以产生当下影像切割结果。

在本发明的一实施例中，先前卷积神经网络权重数据包含由先前卷积神经网络单元的输出层所输出的多个先前输出层运算结果，或是由先前卷积神经网络单元的隐藏层所输出的多个先前隐藏层运算结果。

在本发明的一实施例中，神经网络为递归神经网络，包含多个卷积神经网络单元，卷积神经网络单元包含先前卷积神经网络单元以及当下卷积神经网络单元。

在本发明的一实施例中，当先前卷积神经网络单元不存在时，先前卷积神经网络权重数据为预设虚拟数据。

本发明的影像分割装置及影像分割方法中，卷积神经网络单元形成递归神经网络，以使各卷积神经网络单元可根据对应当下时间点的当下影像以及对应先前时间点的先前卷积神经网络权重数据进行影像切割。根据上述方法所产生的影像切割结果，将具有较平滑的边缘，并因为时序的信息而具有较少的抖动。更进一步地，因为时序的信息，随时间逐渐改变角度的物件亦可被辨识出。

附图说明

图1为本发明一实施例中，一种影像切割装置的方框图；

图2为本发明一实施例中，影像切割方法的流程图；

图3为本发明一实施例中，由影像切割装置实现的神经网络的方框图；

图4为本发明一实施例中，卷积神经网络单元的范例性示意图；以及

图5为本发明一实施例中，卷积神经网络单元的范例性示意图。

附图标记说明：

1：影像切割装置

10：存储单元

12：处理单元

100：电脑可执行指令

102：影像数据

200：影像切割方法

201-203：步骤

3：神经网络

400、500：卷积神经网络单元

401、501：输入层

402、502：隐藏层

403、503：输出层

CNN₀-CNN_N：卷积神经网络单元

D_d、D₁-D_N-1：先前卷积神经网络权重数据

D_d,0,0,0-D_d,A-1,B-1,2：数据

D_0,0,0,0-D_0,A-1,B-1,2：数据

h₀-h_N：当下影像切割结果

h_0,0,0,0-h_0,A-1,B-1,2：运算结果

T₀-T_N：时间点

X₀-X_N：影像

X_0,0,0,0-X_0,A-1,B-1,2：数据

具体实施方式

请参照图1。图1为本发明一实施例中，一种影像切割装置1的方框图。影像切割装置1包含存储单元10以及处理单元12。

于一实施例中，存储单元10可为例如，但不限于光盘、随机存取存储器(randomaccess memory；RAM)、只读存储器(read only memory；ROM)、软盘、硬盘或光学磁盘片。存储单元10配置以存储多个电脑可执行指令100。

处理单元12电性耦接于存储单元10。于一实施例中，处理单元12配置以获取并执行电脑可执行指令100，并据以执行影像切割装置1的功能。

更详细地说，处理单元12接收影像数据102，以对影像数据102的各影像执行影像切割。于一实施例中，处理单元12接收存储于存储单元10中的影像数据102，如图1所示。于其他实施例中，处理单元12可利用例如，但不限于通信单元(未示出)，通过有线或是无线的方式自远端服务器(未示出)接收影像数据102。

请同时参照图2及图3。影像切割装置1的详细功能将在后续段落搭配图2及图3进行说明。

图2为本发明一实施例中，影像切割方法200的流程图。影像切割方法200可应用于图1的影像切割装置1中。

图3为本发明一实施例中，由影像切割装置1实现的神经网络3的方框图。其中当电脑可执行指令100由处理单元12执行时，将运行为神经网络3以执行影像切割方法200。

于一实施例中，神经网络3为递归神经网络，包含多个串联的卷积神经网络单元CNN₀、CNN₁、CNN₂、…及CNN_N。

影像切割方法200包含下列步骤(应了解到，在本实施方式中所提及的步骤，除特别叙明其顺序者外，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行)。

于步骤201，由当下卷积神经网络单元接收先前卷积神经网络权重数据。

于一实施例中当，当下卷积神经网络单元为卷积神经网络单元CNN₀时，由于不存在有先前的卷积神经网络单元，因此先前卷积神经网络权重数据，亦即卷积神经网络权重数据D_d，为预设虚拟数据。

而如当下卷积神经网络单元为卷积神经网络单元CNN₁、CNN₂、…或CNN_N其中之一时，先前卷积神经网络权重数据是由先前卷积神经网络单元根据影像数据，例如图1中的影像数据102中，对应先前时间点的先前影像产生。

举例而言，如当下卷积神经网络单元为卷积神经网络单元CNN₁时，先前卷积神经网络权重数据是由卷积神经网络单元CNN₀根据影像数据中对应时间点T₀的影像X₀。

于步骤202，由当下卷积神经网络单元接收影像数据中对应当下时间点的当下影像，其中当下时间点邻接于先前时间点后。

以卷积神经网络单元CNN₀为例，如卷积神经网络单元CNN₀为当下卷积神经网络单元时，卷积神经网络单元CNN₀接收对应时间点T₀的影像X₀为当下影像。另一方面，如卷积神经网络单元CNN₁为当下卷积神经网络单元时，卷积神经网络单元CNN₁接收对应时间点T₁的影像X₁为当下影像。

于步骤203，由当下卷积神经网络单元根据先前卷积神经网络权重数据以及当下影像进行卷积，以产生当下影像切割结果。

以卷积神经网络单元CNN₀为例，如卷积神经网络单元CNN₀为当下卷积神经网络单元时，卷积神经网络单元CNN₀根据先前卷积神经网络权重数据D_d以及当下影像X₀进行卷积，以产生当下影像切割结果h₀。另一方面，如卷积神经网络单元CNN₁为当下卷积神经网络单元时，卷积神经网络单元CNN₁根据先前卷积神经网络权重数据D₁以及当下影像X₁进行卷积，以产生当下影像切割结果h₁。

类似地，影像切割方法200中的步骤可应用于卷积神经网络单元CNN₂…及CNN_N，以使各卷积神经网络单元CNN₂…及CNN_N根据先前卷积神经网络权重数据D₁…及D_N-1以及对应时间点T₂…及T_N的当下影像X₂…及X_N进行卷积，以产生当下影像切割结果h₂…及h_N。

请参照图4。图4为本发明一实施例中，卷积神经网络单元400的范例性示意图。于一实施例中，于图3所示出的各卷积神经网络单元CNN₀、CNN₁、CNN₂、…或CNN_N可由卷积神经网络单元400所实现。

于一实施例中，卷积神经网络单元400包括输入层401、隐藏层402以及输出层403。于一实施例中，各输入层401、隐藏层402以及输出层403包括多个运算节点。

当卷积神经网络单元400被用来实现卷积神经网络单元CNN₀时，输入层401配置以接收具有例如，但不限于A×B的尺寸且具有三个数据通道的影像X₀，其中影像X₀的各个像素具有三个通道的数据。举例而言，对应于位置(0,0)的像素具有三个通道的数据，包括X_0,0,0,0、X_0,0,0,1及X_0,0,0,2。其中，下标的第一位数代表影像，第二位数及第三位数代表像素的坐标，第四位数代表通道数目。

因此，本实施例中的输入层401具有A×B×3个运算点，分别对应X_0,0,0,0、X_0,0,0,1、X_0,0,0,2、…、X_0,A-1,B-1,0、X_0,A-1,B-1,1至X_0,A-1,B-1,2，以接收影像X₀的所有数据。于本实施例中，隐藏层402接收具有A×B×3的尺寸的先前卷积神经网络权重数据D_d，包括D_d,0,0,0、D_d,0,0,1、D_d,0,0,2、…、D_d,A-1,B-1,0、D_d,A-1,B-1,1至D_d,A-1,B-1,2的数据。

因此，卷积神经网络单元CNN₀根据影像X₀以及先前卷积神经网络权重数据D_d进行卷积，以使输出层403产生包含h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、…、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2的运算结果。

于一实施例中，各运算结果h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、…、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2的数值表示切割物件的类别的几率。因此，对各像素来说，运算结果，例如h_0,0,0,0、h_0,0,0,1、h_0,0,0,2的其中之一具有最大值者，将被选择输出为当下影像切割结果h₀的其中一个像素。举例而言，当运算结果h_0,0,0,1具有大于运算结果h_0,0,0,0以及运算结果h_0,0,0,2的数值时，运算结果h_0,0,0,1将被选择为当下影像切割结果h₀的输出像素。

于一实施例中，图3所示出的递归神经网络3为Elman网络，其中隐藏层402亦产生隐藏层运算结果，做为下一个卷积神经网络单元，例如卷积神经网络单元CNN₁的先前卷积神经网络权重数据D₀，包含D_0,0,0,0、D_0,0,0,1、D_0,0,0,2、…、D_0,A-1,B-1,0、D_0,A-1,B-1,1至D_0,A-1,B-1,2的数据，以使下一个卷积神经网络单元(例如卷积神经网络单元CNN₁)的输入层以及隐藏层分别接收影像X₁及先前卷积神经网络权重数据D₀据以进行卷积。

需注意的是，图4中所示出的各输入层401、隐藏层402以及输出层403的运算节点的数目仅为一范例。于其他实施例中，运算节点的数目可依实际应用而有所不同。

请参照图5。图5为本发明一实施例中，卷积神经网络单元500的范例性示意图。于一实施例中，于图3所示出的各卷积神经网络单元CNN₀、CNN₁、CNN₂、…或CNN_N可由卷积神经网络单元500所实现。

于一实施例中，卷积神经网络单元500包括输入层501、隐藏层502以及输出层503。于一实施例中，各输入层501、隐藏层502以及输出层503包括多个运算节点。

当卷积神经网络单元500被用来实现卷积神经网络单元CNN₀时，输入层501配置以接收具有例如，但不限于A×B的尺寸且具有三个数据通道的影像X₀，其中影像X₀的各个像素具有三个通道的数据。举例而言，对应于位置(0,0)的像素具有三个通道的数据，包括X_0,0,0,0、X_0,0,0,1及X_0,0,0,2。其中，下标的第一位数代表影像，第二位数及第三位数代表像素的坐标，第四位数代表通道数目。

因此，本实施例中的输入层501具有A×B×3个运算点，分别对应X_0,0,0,0、X_0,0,0,1、X_0,0,0,2、…、X_0,A-1,B-1,0、X_0,A-1,B-1,1至X_0,A-1,B-1,2，以接收影像X₀的所有数据。于本实施例中，隐藏层502接收具有A×B×3的尺寸的先前卷积神经网络权重数据D_d，包括D_d,0,0,0、D_d,0,0,1、D_d,0,0,2、…、D_d,A-1,B-1,0、D_d,A-1,B-1,1至D_d,A-1,B-1,2的数据。

因此，卷积神经网络单元CNN₀根据影像X₀以及先前卷积神经网络权重数据D_d进行卷积，以使输出层503产生包含h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、…、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2的运算结果。

于一实施例中，图3所示出的递归神经网络3为Jordan网络，其中由输出层503产生的运算结果h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、…、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2做为下一个卷积神经网络单元，例如卷积神经网络单元CNN₁的先前卷积神经网络权重数据D₀，包含D_0,0,0,0、D_0,0,0,1、D_0,0,0,2、…、D_0,A-1,B-1,0、D_0,A-1,B-1,1至D_0,A-1,B-1,2的数据，以使下一个卷积神经网络单元(例如卷积神经网络单元CNN₁)的输入层以及隐藏层分别接收影像X₁及先前卷积神经网络权重数据D₀据以进行卷积。

需注意的是，图5中所示出的各输入层501、隐藏层502以及输出层503的运算节点的数目仅为一范例。于其他实施例中，运算节点的数目可依实际应用而有所不同。

需注意的是，在部分实施例中，先前卷积神经网络权重数据亦可由下一卷积神经网络单元的输入层接收，以使下一卷积神经网络单元据以进行卷积。

在本发明的影像分割装置1及影像分割方法200中，卷积神经网络单元CNN₀、CNN₁、CNN₂、…及CNN_N形成递归神经网络，以使各卷积神经网络单元CNN₀、CNN₁、CNN₂、…及CNN_N可根据对应当下时间点的当下影像以及对应先前时间点的先前卷积神经网络权重数据进行影像切割。根据上述方法所产生的影像切割结果，将具有较平滑的边缘，并因为时序的信息而具有较少的抖动。更进一步地，因为时序的信息，随时间逐渐改变角度的物件亦可被辨识出。

以上所述仅为本发明的优选实施例而已，并不用以限制本发明，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种影像切割方法，用以通过由一影像切割装置实现的一神经网络执行影像切割，其特征在于，该影像切割方法包括：

由该神经网络的一当下卷积神经网络单元接收一先前卷积神经网络权重数据，其中该先前卷积神经网络权重数据是由该神经网络的一先前卷积神经网络单元根据一影像数据中对应一先前时间点的一先前影像产生；

由该当下卷积神经网络单元接收该影像数据中对应一当下时间点的一当下影像，其中该当下时间点邻接于该先前时间点后；

由该当下卷积神经网络单元根据该先前卷积神经网络权重数据以及该当下影像进行卷积，由该当下卷积神经网络单元的一输出层产生多个当下运算结果，其中该当下影像包括多个像素，每个所述像素包括多个通道，每个所述像素的每个所述通道都对应至一个所述当下运算结果，对于每个所述像素，选择对应所述通道的所述当下运算结果中其中之一具有一最大值者做为一当下影像切割结果的输出像素；以及

传送一当下卷积神经网络权重数据至一下一卷积神经网络单元，其中该当下卷积神经网络权重数据为所述多个当下运算结果或是由该当下卷积神经网络单元的一隐藏层所输出的多个当下隐藏层运算结果。

2.如权利要求1所述的影像切割方法，其特征在于，该先前卷积神经网络权重数据包含由该先前卷积神经网络单元的一输出层所输出的多个先前输出层运算结果，或是由该先前卷积神经网络单元的一隐藏层所输出的多个先前隐藏层运算结果。

3.如权利要求1所述的影像切割方法，其特征在于，该影像切割方法还包含：

由该当下卷积神经网络单元的一输入层接收该先前卷积神经网络权重数据以及该当下影像；以及

根据该先前卷积神经网络权重数据以及该当下影像进行卷积，以由该当下卷积神经网络单元的一输出层产生该当下影像切割结果。

4.如权利要求1所述的影像切割方法，其特征在于，该影像切割方法还包含：

由该当下卷积神经网络单元的一输入层接收该当下影像；

由该当下卷积神经网络单元的一隐藏层接收该先前卷积神经网络权重数据；以及

5.如权利要求1所述的影像切割方法，其特征在于，该神经网络为一递归神经网络，包含多个卷积神经网络单元，所述多个卷积神经网络单元包含该先前卷积神经网络单元以及该当下卷积神经网络单元。

6.如权利要求1所述的影像切割方法，其特征在于，当该先前卷积神经网络单元不存在时，该先前卷积神经网络权重数据为一预设虚拟数据。

7.一种影像切割装置，其特征在于，包括：

一存储单元，配置以存储多个电脑可执行指令；以及

一处理单元，电性耦接于该存储单元，并配置以获取并执行所述多个电脑可执行指令，以执行一影像切割方法，该影像切割方法用以通过由该处理单元执行所述多个电脑可执行指令时实现的一神经网络执行影像切割，该影像切割方法包括：

8.如权利要求7所述的影像切割装置，其特征在于，该先前卷积神经网络权重数据包含由该先前卷积神经网络单元的一输出层所输出的多个先前输出层运算结果，或是由该先前卷积神经网络单元的一隐藏层所输出的多个先前隐藏层运算结果。

9.如权利要求7所述的影像切割装置，其特征在于，该影像切割方法还包含：