CN110880011A

CN110880011A - 影像切割方法、装置及其非暂态电脑可读取媒体

Info

Publication number: CN110880011A
Application number: CN201910811868.2A
Authority: CN
Inventors: 杨东庭; 王钧立; 林政宪; 杨宏毅
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2018-09-05
Filing date: 2019-08-30
Publication date: 2020-03-13
Anticipated expiration: 2039-08-30
Also published as: CN110880011B; TW202011350A; US20200074638A1; TWI738045B; US10957048B2

Abstract

一种影像切割方法、装置及其非暂态电脑可读取媒体，该影像切割方法，应用于影像切割装置中，并包括：自影像串流中接收对应于第一及第二时间点的第一及第二影像；由切割神经网络对第二影像进行影像切割，以产生标签几率组合；由相似度计算神经网络对第一影像以及第二影像进行相似度判断运算，以产生相似度几率组合；由串接单元串接标签几率组合以及相似度几率组合，以产生串接结果；以及由策略神经网络对串接结果进行进一步的推断运算，以产生标签遮罩。本发明的影像切割方法、装置及其非暂态电脑可读取媒体可将先前影像纳入考虑，以产生相似度的信息来增加循序的切割结果间的一致性。

Description

影像切割方法、装置及其非暂态电脑可读取媒体

技术领域

本发明涉及一种影像处理技术，且特别涉及一种影像切割方法、装置及其非暂态电脑可读取媒体。

背景技术

在电脑影像处理的领域中，影像切割是将数字影像切割为多个部分。影像切割的目标是为了简化及/或改变影像的表示方式，以成为更有意义或是更容易分析的部分。然而，传统的切割网络仅使用单一影像做为输入，对于影像串流来说，其相对先前影像的估测将无法维持良好的精确度。

因此，如何设计一个新的影像切割方法、装置及其非暂态电脑可读取媒体，以解决上述的缺失，乃为此一业界亟待解决的问题。

发明内容

本发明的影像切割方法、装置及其非暂态电脑可读取媒体可不仅根据当下影像，还根据先前影像执行分割，以增进循序分割结果的一致性。

本发明内容的一目的在于提供一种影像切割方法，应用于影像切割装置中，影像切割方法包括：自影像串流中接收对应于第一时间点的第一影像以及对应于第二时间点的第二影像；由切割神经网络对第二影像进行影像切割，以产生标签(label)几率组合；由相似度计算神经网络对第一影像以及第二影像进行相似度判断运算，以产生相似度几率组合；由串接单元串接标签几率组合以及相似度几率组合，以产生串接结果；以及由策略神经网络对串接结果进行进一步的推断运算(inference)，以产生标签遮罩(label mask)。

于一实施例中，切割神经网络、相似度计算神经网络以及策略神经网络分别为卷积神经网络(convolution neural network；CNN)，且切割神经网络配置以对第二影像进行卷积，相似度计算神经网络配置以对第一影像以及第二影像进行卷积，策略神经网络配置以对串接结果进行卷积。

于一实施例中，影像切割方法还包括：由切割神经网络的第一编码器以及第一解码器对第二影像进行影像切割，以产生标签几率组合；以及由相似度计算神经网络的第二编码器以及第二解码器对第一影像以及第二影像进行相似度判断运算，以产生相似度几率组合。

于一实施例中，第一编码器以及第二编码器实际上为同一编码器。

于一实施例中，切割神经网络在像素层次(pixel level)对第二影像进行影像切割，且影像切割方法还包括：由分类神经网络对该第二影像进行分类，以产生类别几率组合；判断类别几率组合中，对应所需类别的所需类别几率是否小于预设值；以及在所需类别几率小于预设值时，停止进行影像切割以及相似度判断运算，以产生空白遮罩。

于一实施例中，影像切割方法还包括：由串接单元串接标签几率组合、相似度几率组合以及先前标签遮罩，以产生串接结果；以及由策略神经网络对串接结果进行进一步的推断运算，以产生标签遮罩。

本发明内容的另一目的在于提供一种影像切割装置，包括：存储模块以及处理模块。存储模块配置以存储多个电脑可执行指令。处理模块电性耦接于存储模块，并配置以获取并执行电脑可执行指令，以执行影像切割方法。影像切割方法包括：自影像串流中接收对应于第一时间点的第一影像以及对应于第二时间点的第二影像；由切割神经网络对第二影像进行影像切割，以产生标签几率组合；由相似度计算神经网络对第一影像以及第二影像进行相似度判断运算，以产生相似度几率组合；由串接单元串接标签几率组合以及相似度几率组合，以产生串接结果；以及由策略神经网络对串接结果进行进一步的推断运算，以产生标签遮罩。

于一实施例中，切割神经网络在像素层次对第二影像进行影像切割，且影像切割方法还包括：由分类神经网络对该第二影像进行分类，以产生类别几率组合；判断类别几率组合中，对应所需类别的所需类别几率是否小于预设值；以及在所需类别几率小于预设值时，停止进行影像切割以及相似度判断运算，以产生空白遮罩。

本发明内容的又一目的在于提供一种非暂态电脑可读取记录媒体，配置以存储应用程序以通过影像切割装置执行影像切割方法。影像切割方法包括：自影像串流中接收对应于第一时间点的第一影像以及对应于第二时间点的第二影像；由切割神经网络对第二影像进行影像切割，以产生标签几率组合；由相似度计算神经网络对第一影像以及第二影像进行相似度判断运算，以产生相似度几率组合；由串接单元串接标签几率组合以及相似度几率组合，以产生串接结果；以及由策略神经网络对串接结果进行进一步的推断运算，以产生标签遮罩。

本发明的影像切割方法、装置及其非暂态电脑可读取媒体可将先前影像纳入考虑，以产生相似度的信息来增加循序的切割结果间的一致性。

附图说明

为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂，说明书附图的说明如下：

图1为本发明一实施例中，一种影像切割装置的方框图；

图2为本发明一实施例中，一种影像切割方法的流程图；

图3为本发明一实施例中，根据影像切割装置的运行所实现的系统的方框图；以及

图4为本发明另一实施例中，根据影像切割装置的运行所实现的系统的方框图。

附图标记说明：

1：影像切割装置 100：存储模块

105：电脑可执行指令 110：处理模块

200：影像切割方法 201-205：步骤

3：系统 300：切割神经网络

310：相似度计算神经网络 320：串接单元

330：策略神经网络 340、360：编码器

350、370：解码器 4：系统

400：分类神经网络 410：编码器

420：处理器 BM：空白遮罩

CPS：类别几率组合 CR：串接结果

IM1：第一影像 IM2：第二影像

LM：标签遮罩 LPS：标签几率组合

PLM：先前标签遮罩 SPS：相似度几率组合

VS：影像串流

具体实施方式

请参照本公开内容的实施例，其中以下的范例将搭配附图进行说明。在附图及说明中所使用相同的元件符号，将指称相同或类似的元件。

须注意的是，在说明书以及权利要求中所进行的叙述中，当元件被描述为“连接”或“耦接”至另一元件时，其可为直接连接或耦接至另一元件，或是可能存在有中间的元件。相对的，当元件被描述为“直接连接”或“直接耦接”至另一元件时，将不会有中间的元件存在。更进一步地，“电性连接”或“连接”可更用以指称两个或多个元件间的交互操作以及互动。

须注意的是，在说明书以及权利要求中所进行的叙述中，虽然“第一”、“第二”等用语可用以描述不同的元件，这些元件可不被这些用语所限制。这些用语仅用以区分不同的元件。举例来说，第一元件亦可被改称为第二元件，且类似地，第二元件亦可被改称第一元件，而不会悖离实施例的范围。

须注意的是，在说明书以及权利要求中所进行的叙述中，“包含”、“包括”、“具有”、“含有”及类似的用语是被理解为开放性的，例如表示“包含，但不限于”。

须注意的是，在说明书以及权利要求中所进行的叙述中，“及/或”的语句包含所列举的一个或多个相关事物中的任何以及全部的组合。

须注意的是，在说明书以及权利要求中所进行的叙述中，在以下的实施例的叙述中用以指称方向的词汇，例如“上”、“下”、“左”、“右”、“前”及“后”，是与附图中的方向相关。因此，这样指称方向的词汇是用以叙述，而非限制本公开内容。

须注意的是，在说明书以及权利要求中所进行的叙述中，除非另行定义，所有的用语(包含技术性或是科学性用语)具有任何本公开内容所属技术领域的通常知识者所普遍理解的相同意义。须更进一步了解的是，此些用语，例如定义于常用的字典者，除非特别定义，否则需解读为具有与在相关的技术领域所使用的相同意义，而不能被广泛地解读。

请参照图1。图1为本发明一实施例中，一种影像切割装置1的方框图。影像切割装置1包含存储模块100以及处理模块110。

于一实施例中，存储模块100可为例如，但不限于光盘、随机存取存储器(randomaccess memory；RAM)、只读存储器(read only memory；ROM)、软碟、硬盘或光学磁盘片。存储模块100配置以存储多个电脑可执行指令105。

处理模块110电性耦接于存储模块100。于一实施例中，处理模块110配置以获取并执行电脑可执行指令105，并据以执行脸部影像切割装置1的功能。更详细地说，处理模块110自一个影像串流接收第一影像IM1及第二影像IM2，以根据第一影像IM1及第二影像IM2进行影像切割。

影像切割装置1的运行将进一步于以下的段落详述。

请同时参照图2及图3。

图2为本发明一实施例中，一种影像切割方法200的流程图。影像切割方法200可应用于例如图1所示出的影像切割装置1中，或由其他硬件元件如数据库、一般处理器、计算机、服务器、或其他具特定逻辑电路的独特硬件装置或具特定功能的设备来实作，如将程序码和处理器/芯片整合成独特硬件。更详细地说，影像切割方法200可使用电脑程序实现，以控制影像切割装置1的各元件。电脑程序可存储于一非暂态电脑可读取记录媒体中，例如只读存储器、快闪存储器、软碟、硬盘、光盘、U盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的电脑可读取记录媒体。

图3为本发明一实施例中，根据影像切割装置1的运行所实现的系统3的方框图。更详细地说，当处理模块110执行电脑可执行指令105时，电脑可执行指令105运行为系统3的模块，以执行影像切割方法200。系统3包含切割神经网络300、相似度计算神经网络310、串接单元320以及策略神经网络330。

影像切割方法200包含下列步骤(应了解到，在本实施方式中所提及的步骤，除特别叙明其顺序者外，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行)。

于步骤201，自影像串流VS中接收对应于第一时间点的第一影像IM1以及对应于第二时间点的第二影像IM2。其中，第二时间点在第一时间点后。

于一实施例中，第一影像IM1对应于时间点T-1，而第二影像IM2对应于时间点T。换句话说，第一影像IM1以及第二影像IM2为在影像串流VS中相邻的两个影像画面。然而，第一影像IM1以及第二影像IM2亦可在影像串流VS中相隔一个以上的其他影像画面。本发明并不为此所限。

更进一步地，在不同的实施例中，影像串流VS可由处理模块110自存储模块100接收，或是通过有线或无线的方式自远端服务器接收。

于步骤202，由切割神经网络300对第二影像IM2进行影像切割，以产生标签几率组合LPS。

于一实施例中，切割神经网络300为卷积神经网络(convolution neuralnetwork；CNN)，以对第二影像IM2进行卷积，产生标签几率组合LPS。

切割神经网络300可分为编码器340以及解码器350。编码器340配置以做为特征获取元件，以逐步缩降(down scale)第二影像IM2直到像素层次，来获取特征。解码器350配置以做为特征产生元件，以逐步扩升(up scale)编码器340产生的像素来产生特征，进一步产生标签几率组合LPS。于一实施例中，标签几率组合LPS包含多个标签几率，各个标签几率对应一个标签的几率，且此标签对应于一个预先定义物件。

于步骤203，由相似度计算神经网络310对第一影像IM1以及第二影像IM2进行相似度判断运算，以产生相似度几率组合SPS。

于一实施例中，相似度计算神经网络310亦为卷积神经网络，以对第一影像IM1以及第二影像IM2进行卷积，产生相似度几率组合SPS。

类似地，相似度计算神经网络310亦可分为编码器360以及解码器370。编码器360以及解码器370的运行方式与编码器340以及解码器350类似但具有不同的拓墣结构，在此并不详述。

需注意的是，于一实施例中，编码器340以及编码器360可由同一个编码器实现。更详细地说，切割神经网络300以及相似度计算神经网络310共享一个编码器，而不需要拆分为两个独立网络运算。因此，对于切割神经网络300以及相似度计算神经网络310来说，仅需要一次缩降的运算即可。

于一实施例中，相似度几率组合SPS包含多个相似度几率，各相似度几率对应一个相似度的几率，且此相似度是第一影像IM1以及第二影像IM2间的一个对应像素间的相似度。

相似度计算神经网络310的技术效果在于，在循序(sequential)的影像切割中，当下影像与先前影像的差异很小，特别是当用以获取影像的摄像装置几乎停留在相同的位置时。如果影像中的大部分并未变动，而仅有一点噪声扰动，则未变动的像素对应的切割标签有很大的几率会相同。通过使用相似度计算神经网络310，各个像素与先前影像的相似度几率可被测量，并得到哪些部分的影像最有可能改变。最后，系统可据以调整预测的遮罩。

于步骤204，由串接单元320串接标签几率组合LPS以及相似度几率组合SPS，以产生串接结果CR。

于一实施例中，由于标签几率组合LPS以及相似度几率组合SPS是在像素层次产生，当第一影像IM1以及第二影像IM2各具有X×Y的大小时，标签几率组合LPS以及相似度几率组合SPS亦各具有X×Y的大小。因此，串接结果CR的大小将为X×Y×2。

于步骤205，由策略神经网络330对串接结果CR进行进一步的推断运算，以产生标签遮罩LM。

于一实施例中，策略神经网络330亦为卷积神经网络，以对串接结果CR进行卷积，产生同样具有大小X×Y的标签遮罩LM。

于一实施例中，策略神经网络330亦可包含编码器与解码器，以通过缩降与扩升串接结果CR进行卷积。于另一实施例中，策略神经网络330亦可在不缩降与扩升串接结果CR的情形下进行卷积。

由策略神经网络330产生的标签遮罩LM可识别对应不同预设物件的标签。更详细地说，标签遮罩LM即是影像切割的结果。

需注意的是，于一实施例中，具有大小X×Y的一个先前标签遮罩PLM可被传送至串接单元320，以使串接单元320将标签几率组合LPS、相似度几率组合SPS以及先前标签遮罩PLM均串接在一起，产生具有大小X×Y×3的串接结果CR。

在这样的情形下，策略神经网络330将对具有大小X×Y×3的串接结果CR进行进一步的推断运算，以产生标签遮罩LM。标签遮罩LM可作为新的先前标签遮罩PLM，反馈至串接单元320。

在部分技术中，影像切割是仅考虑当下的影像来进行。在精确度不够的情形下，估测结果将不会与先前影像一致。

然而，本发明的影像切割装置1以及影像切割方法200可将先前影像纳入考虑，以产生相似度的信息来增加循序的切割结果间的一致性。更进一步地，通过先前标签遮罩的使用，先前的切割结果信息亦可被纳入考虑，以提供更一致的切割结果。

图4为本发明另一实施例中，根据影像切割装置1的运行所实现的系统4的方框图。更详细地说，当处理模块110执行电脑可执行指令105时，电脑可执行指令105运行为系统4的模块，以执行影像切割方法200。类似于图3中的系统3，系统4包含切割神经网络300、相似度计算神经网络310、串接单元320以及策略神经网络330。因此，相同的元件将不在此赘述。

系统4还包含分类神经网络400。分类神经网络400配置以对第二影像IM2进行分类，以产生类别几率组合CPS。

于一实施例中，分类神经网络400亦为卷积神经网络，以对第二影像IM2进行卷积，产生类别几率组合CPS。其中，分类是在影像层次进行。

于一实施例中，分类神经网络400亦可包含对串接结果CR进行缩降的编码器410，以及包含处理缩降结果的传统全连结(fully-connected)层或是其他分类网络模块的处理器420。

于一实施例中，分类神经网络400的编码器410亦可与切割神经网络300的编码器340以及相似度计算神经网络310的编码器360共享，以减少计算量。

在产生类别几率组合CPS后，类别几率组合CPS可被传送至分割神经网络300以及相似度计算神经网络310，以判断对应一个所需类别是否存在，或是类别几率组合CPS中的一个所需类别的所需类别几率是否小于预设值。

举例而言，如果所需类别对应于人脸，对应人脸的所需类别几率是否小于预设值将被判断。

当所需类别几率小于预设值时，将停止进行影像切割以及相似度判断运算。更详细地说，切割神经网络300以及相似度计算神经网络310的运行将在所需类别几率小于预设值时停止。

于一实施例中，分类神经网络400、切割神经网络300以及相似度计算神经网络310共享同一个编码器。因此，在分类神经网络400产生类别几率组合CPS后，切割神经网络300以及相似度计算神经网络310的解码器350及370将停止后续的运算。

更进一步地，由于切割神经网络300以及相似度计算神经网络310的运行停止进行，策略神经网络330将产生空白遮罩BM。

由于切割神经网络300以及相似度计算神经网络310的运行相当耗时，分类神经网络400提供早期分类机制，以在所需类别的物件不存在时，减少耗时的运算。

总结来说，本发明的影像切割装置1以及影像切割方法200可不仅根据当下影像，还根据先前影像执行分割，以增进循序分割结果的一致性。

虽然上文实施方式中公开了本发明的具体实施例，然其并非用以限定本发明，本发明所属技术领域中技术人员，在不悖离本发明的原理与构思的情形下，当可对其进行各种变动与修饰，因此本发明的保护范围当以附随权利要求所界定者为准。

Claims

1.一种影像切割方法，应用于一影像切割装置中，其特征在于，该影像切割方法包括：

自一影像串流中接收对应于一第一时间点的一第一影像以及对应于一第二时间点的一第二影像；

由一切割神经网络对该第二影像进行影像切割，以产生一标签几率组合；

由一相似度计算神经网络对该第一影像以及该第二影像进行相似度判断运算，以产生一相似度几率组合；

由一串接单元串接该标签几率组合以及该相似度几率组合，以产生一串接结果；以及

由一策略神经网络对该串接结果进行进一步的推断运算，以产生一标签遮罩。

2.如权利要求1所述的影像切割方法，其特征在于，该切割神经网络、该相似度计算神经网络以及该策略神经网络分别为一卷积神经网络，且该切割神经网络配置以对该第二影像进行卷积，该相似度计算神经网络配置以对该第一影像以及该第二影像进行卷积，该策略神经网络配置以对该串接结果进行卷积。

3.如权利要求1所述的影像切割方法，其特征在于，该影像切割方法还包括：

由该切割神经网络的一第一编码器以及一第一解码器对该第二影像进行影像切割，以产生该标签几率组合；以及

由该相似度计算神经网络的一第二编码器以及一第二解码器对该第一影像以及该第二影像进行相似度判断运算，以产生该相似度几率组合。

4.如权利要求3所述的影像切割方法，其特征在于，该第一编码器以及该第二编码器实际上为同一编码器。

5.如权利要求3所述的影像切割方法，其特征在于，该切割神经网络在一像素层次对该第二影像进行影像切割，且该影像切割方法还包括：

由一分类神经网络对该第二影像进行分类，以产生一类别几率组合；

判断该类别几率组合中，对应一所需类别的一所需类别几率是否小于一预设值；以及

在该所需类别几率小于该预设值时，停止进行影像切割以及相似度判断运算，以产生一空白遮罩。

6.如权利要求1所述的影像切割方法，其特征在于，该影像切割方法还包括：

由该串接单元串接该标签几率组合、该相似度几率组合以及一先前标签遮罩，以产生该串接结果；以及

由该策略神经网络对该串接结果进行进一步的推断运算，以产生该标签遮罩。

7.一种影像切割装置，其特征在于，包括：

一存储模块，配置以存储多个电脑可执行指令；以及

一处理模块，电性耦接于该存储模块，并配置以获取并执行所述多个电脑可执行指令，以执行一影像切割方法，该影像切割方法包括：

8.如权利要求7所述的影像切割装置，其特征在于，该切割神经网络在一像素层次对该第二影像进行影像切割，且该影像切割方法还包括：

9.如权利要求7所述的影像切割装置，其特征在于，该影像切割方法还包括：

10.一种非暂态电脑可读取记录媒体，配置以存储一应用程序以通过一影像切割装置执行一影像切割方法，其特征在于，该影像切割方法包括：