用于生成信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
光流表达了图像的变化。光流不仅包含有被观察物体的运动信息,而且还包含有关景物三维结构的信息。因此,对光流的研究是计算机视觉及相关领域中的重要部分。
随着众多研究人员的不断研究,逐渐涌现出许多计算光流的方法。目前,光流计算方法主要包括:基于匹配的方法、基于频域的方法和基于梯度的方法。这些光流计算方法都涉及复杂的运算,计算量巨大,不适于对实时性和准确性要求较高的应用场景。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取第一图像,以及获取第二图像;将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至上述卷积神经网络,得到第二图像的输出特征图像;将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,其中,光流预测模型用于根据两幅图像分别对应的特征图像预测两幅图像之间的光流。
在一些实施例中,卷积神经网络包括第一特征提取网络和第二特征提取网络;以及上述将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至卷积神经网络,得到第二图像的输出特征图像,包括:将第一图像输入至第一特征提取网络,得到第一图像的初始特征图像,以及将第一图像的初始特征图像输入至第二特征提取网络,得到第一图像的输出特征图像;将第二图像输入至第一特征提取网络,得到第二图像的初始特征图像,以及将第二图像的初始特征图像输入至第二特征提取网络,得到第二图像的输出特征图像。
在一些实施例中,根据第一预测光流,对第二图像进行变换处理以预测第一图像,得到第一预测图像,以及确定第一预测图像与第一图像的差值图像作为第一差值图像;将第一图像、第二图像、第一图像的初始特征图像、第二图像的初始特征图像输入至预先训练的第二光流预测模型,得到第一图像和第二图像之间的第二预测光流;根据第二预测光流,对第二图像进行变换处理以预测第一图像,得到第二预测图像,以及确定第二预测图像与第一图像的差值图像作为第二差值图像;将第一图像、第一预测光流、第二预测光流、第一差值图像、第二差值图像输入至预先训练的第三光流预测模型,得到第一图像和第二图像之间的第三预测光流。
在一些实施例中,第一光流预测模型包括第一子模型和第二子模型;以及上述将第一图像的输出特征图像和第二图像的输出特征图像输入至第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,包括:将第一图像的输出特征图像和第二图像的输出特征图像输入至第一子模型,得到第一图像和第二图像之间的初始光流;根据初始光流,对第二图像进行变换处理以预测第一图像,得到初始预测图像,以及确定初始预测图像与第一图像的差值图像作为初始差值图像;将第一图像、第二图像、初始预测图像、初始光流、初始差值图像输入至第二子模型,得到第一图像和第二图像之间的第一预测光流。
在一些实施例中,第一光流预测模型通过如下步骤训练得到:获取样本集,其中,样本集中的样本包括第一样本图像、第二样本图像、第一样本图像和第二样本图像之间的光流;对于样本集中的样本包括的第一样本图像和第二样本图像,利用预先训练好的卷积神经网络得到该第一样本图像和该第二样本图像分别对应的输出特征图像;利用机器学习的方法,将样本集中的样本包括的第一样本图像和第二样本图像分别对应的输出特征图像作为输入,将样本集中的样本包括的第一样本图像和第二样本图像之间的光流作为期望输出,训练得到第一光流预测模型。
第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成获取第一图像,以及获取第二图像;特征图像提取单元,被配置成将第一图像输入至预先训练的、用于提取的特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至上述卷积神经网络,得到第二图像的输出特征图像;第一光流预测单元,被配置成将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,其中,光流预测模型用于根据两幅图像分别对应的特征图像预测两幅图像之间的光流。
在一些实施例中,卷积神经网络包括第一特征提取网络和第二特征提取网络;以及上述特征图像提取单元进一步被配置成:将第一图像输入至第一特征提取网络,得到第一图像的初始特征图像,以及将第一图像的初始特征图像输入至第二特征提取网络,得到第一图像的输出特征图像;将第二图像输入至第一特征提取网络,得到第二图像的初始特征图像,以及将第二图像的初始特征图像输入至第二特征提取网络,得到第二图像的输出特征图像。
在一些实施例中,上述装置还包括:第一差值图像确定单元,被配置成根据第一预测光流,对第二图像进行变换处理以预测第一图像,得到第一预测图像,以及确定第一预测图像与第一图像的差值图像作为第一差值图像;第二光流预测单元,被配置成将第一图像、第二图像、第一图像的初始特征图像、第二图像的初始特征图像输入至预先训练的第二光流预测模型,得到第一图像和第二图像之间的第二预测光流;第二差值图像确定单元,被配置成根据第二预测光流,对第二图像进行变换处理以预测第一图像,得到第二预测图像,以及确定第二预测图像与第一图像的差值图像作为第二差值图像;第三光流预测单元,被配置成将第一图像、第一预测光流、第二预测光流、第一差值图像、第二差值图像输入至预先训练的第三光流预测模型,得到第一图像和第二图像之间的第三预测光流。
在一些实施例中,第一光流预测模型包括第一子模型和第二子模型;以及上述第一光流预测单元进一步被配置成:将第一图像的输出特征图像和第二图像的输出特征图像输入至第一子模型,得到第一图像和第二图像之间的初始光流;根据初始光流,对第二图像进行变换处理以预测第一图像,得到初始预测图像,以及确定初始预测图像与第一图像的差值图像作为初始差值图像;将第一图像、第二图像、初始预测图像、初始光流、初始差值图像输入至第二子模型,得到第一图像和第二图像之间的第一预测光流。
在一些实施例中,第一光流预测模型通过如下步骤训练得到:获取样本集,其中,样本集中的样本包括第一样本图像、第二样本图像、第一样本图像和第二样本图像之间的光流;对于样本集中的样本包括的第一样本图像和第二样本图像,利用预先训练好的卷积神经网络得到该第一样本图像和该第二样本图像分别对应的输出特征图像;利用机器学习的方法,将样本集中的样本包括的第一样本图像和第二样本图像分别对应的输出特征图像作为输入,将样本集中的样本包括的第一样本图像和第二样本图像之间的光流作为期望输出,训练得到第一光流预测模型。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于生成信息的方法和装置,通过获取第一图像,以及获取第二图像;将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至卷积神经网络,得到第二图像的输出特征图像;将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,从而实现了基于两幅图像分别对应的特征图像,利用人工神经网络的方法预测两幅图像之间的光流。由于避免了对两幅图像过多的特征的分析和运算,从而有助于提升得到两幅图像之间的光流的速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于生成信息的方法的一个实施例的流程图;
图3是根据本申请的用于生成信息的方法的又一个实施例的流程图;
图4是根据本申请的用于生成信息的方法的又一个实施例的流程图;
图5是根据本申请实施例的用于生成信息的方法的一个应用场景的示意图;
图6是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的实施例的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如,图像处理类应用、摄像类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是支持图像处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103发送的两幅图像(如第一图像和第二图像)进行分析等处理的图像处理服务器。图像处理服务器可以分别提取两幅图像对应的特征图像,以及根据得到的两个特征图像预测两幅图像之间的光流。
需要说明的是,上述第一图像和第二图像也可以直接存储在服务器105的本地,服务器105可以直接提取本地所存储的第一图像和第二图像并进行处理,此时,可以不存在终端设备101、102、103和网络104)。
需要说明的是,本申请实施例所提供的用于生成信息的方法一般由服务器105执行,相应地,用于生成信息的装置一般设置于服务器105中。
还需要指出的是,终端设备101、102、103中也可以安装有图像处理类应用。此时,终端设备101、102、103也可以基于图像处理类应用对第一图像和第二图像进行处理。此时,用于生成信息的方法也可以由终端设备101、102、103执行,相应地,用于生成信息的装置也可以设置于终端设备101、102、103中。此时,示例性系统架构100可以不存在服务器105和网络104。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法包括以下步骤:
步骤201,获取第一图像,以及获取第二图像。
在本实施例中,用于生成信息的方法的执行主体(如图1所示的服务器105)可以利用有线或无线连接的方式从本地或其他存储设备获取第一图像,以及获取第二图像。其中,第一图像和第二图像可以均从本地获取,也可以均从其它存储设备获取。当然,第一图像和第二图像中的其中一个图像可以从本地获取,另一个图像可以从其它存储设备获取。
第一图像和第二图像可以是任意的图像。可选地,第一图像和第二图像可以是一段视频中的任意两帧分别对应的图像。
步骤202,将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至卷积神经网络,得到第二图像的输出特征图像。
在本实施例中,卷积神经网络可以由至少一个卷积层和至少一个池化层组成。卷积神经网络可以利用卷积层提取输入图像的特征,并利用池化层调整特征的空间维度,从而能够得到输入图像的特征图像。
实践中,可以根据实际的应用需求(如需要的特征图像的维度)确定卷积神经网络的部分参数(如卷积层和池化层的个数、卷积核的大小和数量、步长、填充等)。
卷积神经网络可以通过多种方式得到。例如,可以基于一些开源的、训练好的卷积神经网络得到上述卷积神经网络。具体地,可以根据预先设置的训练数据对获取的训练好的卷积神经网络再进行训练,以得到符合实际应用需求的卷积神经网络。
又例如,可以利用现有的一些深度学习框架,先根据实际的需求搭建初始模型,然后利用预先设置的训练数据进行训练,以得到上述卷积神经网络。
可选地,卷积神经网络可以包括第一特征提取网络和第二特征提取网络。应当可以理解,在卷积神经网络由大于一个的卷积层和大于一个的池化层组成时,该卷积神经网络可以拆分成两个或两个以上的子网络。每个子网络可以由不同个数的卷积层和池化层组成,以输出不同维度的特征图像。此时,每个子网络都可以看作是一个特征提取网络。
步骤203,将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流。
在本实施例中,第一光流预测模型可以用于根据两幅图像分别对应的特征图像预测两幅图像之间的光流。其中,第一光流预测模型的网络组成结构可以根据具体的实际应用需求设计。
可选地,第一光流预测模型可以先将输入的两个输出特征图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。
可选地,第一光流预测模型可以先分别提取第一图像的输出特征图像的特征和第二图像的输出特征图像的特征。然后将提取的两个输出特征图像的特征进行叠加,之后再对叠加后的特征进行卷积操作和/或池化操作以提取光流信息。
可选地,第一光流预测模型可以先将输入的两个输出特征图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。之后,还可以进一步地对提取的光流信息进行反卷积和/或反池化操作以提升输出的光流信息的信息量。
其中,第一光流预测模型可以通过多种方式得到。可选地,第一光流预测模型可以通过如下步骤训练得到:
步骤一,获取样本集。其中,样本可以包括第一样本图像、第二样本图像、第一样本图像和第二样本图像之间的光流。
在本步骤中,可以由技术人员采集样本,也可以利用第三方所公开的训练数据集构造样本集。
步骤二,对于样本集中的样本包括的第一样本图像和第二样本图像,可以利用预先训练好的卷积神经网络得到该第一样本图像对应的输出特征图像和该第二样本图像对应的输出特征图像。
在本步骤中,可以利用训练好的卷积神经网络得到输出特征图像,以用于训练第一光流预测模型。
步骤三,利用机器学习的方法,将样本集中的样本包括的第一样本图像的输出特征图像和第二样本图像的输出特征图像作为输入,将样本集中的样本包括的第一样本图像和第二样本图像之间的光流作为期望输出,训练得到第一光流预测模型。
在本步骤中,可以先根据实际的应用需求确定初始模型。具体地,可以利用开源的深度学习框架搭建初始模型,也可以获取开源的用于预测光流的神经网络模型作为初始模型。之后,可以基于训练样本和预设的损失函数,对初始模型进行训练以得到第一光流预测模型。
具体地,损失函数的值可以用来表示初始模型实际输出的第一预测光流和训练样本中的光流的差异程度。之后,可以基于损失函数的值,采用梯度下降和反向传播的方法调整初始模型的参数,并在满足预设的训练结束条件的情况下,结束训练。训练完成后,可以将训练完成的初始模型确定为第一光流预测模型。
其中,预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长、训练次数超过预设次数、损失函数的值小于预设差异阈值等等。
可选地,还可以同时训练得到卷积神经网络和第一光流预测模型。具体地,可以先搭建初始模型,其中,初始模型包括初始卷积神经网络和初始第一光流预测模型。其中,初始卷积神经网络的输出可以作为初始第一光流预测模型的输入。
之后,可以利用训练样本集对初始模型进行训练。其中,每个训练样本可以包括第一样本图像、第二样本图像,第一样本图像和第二样本图像之间的光流。在训练结束后,可以将训练完成的初始模型包含的训练完成的初始卷积神经网络确定为卷积神经网络,以及将训练完成的初始第一光流预测模型确定为第一光流预测模型。
本申请的上述实施例提供的方法通过提取两幅图像分别对应的特征图像,以及利用人工神经网络的方法根据提取的两幅特征图像预测两幅图像之间的光流。由于避免了对两幅图像过多的特征的分析和运算,从而有助于提升得到两幅图像之间的光流的速度。
进一步参考图3,其示出了用于生成信息的方法的又一个实施例的流程300。该用于生成信息的方法的流程300,包括以下步骤:
步骤301,获取第一图像,以及获取第二图像。
步骤302,将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至卷积神经网络,得到第二图像的输出特征图像。
上述步骤301和302的具体的执行过程可参考图2对应实施例中的步骤201和202的相关说明,在此不再赘述。
步骤303,将第一图像的输出特征图像和第二图像的输出特征图像输入至第一子模型,得到第一图像和第二图像之间的初始光流。
在本实施例中,上述第一光流预测模型可以包括第一子模型。其中,第一子模型可以用于根据两幅图像分别对应的特征图像预测两幅图像之间的光流。第一子模型的设计可以与上述第一光流预测模型类似。具体可参考图2对应实施例中的步骤203的相关说明,在此不再赘述。
步骤304,根据初始光流,对第二图像进行变换处理以预测第一图像,得到初始预测图像,以及确定初始预测图像与第一图像的差值图像作为初始差值图像。
在本实施例中,在得到初始光流之后,可以对第二图像进行对应的变换处理以预测第一图像。具体地,对第二图像中的各个像素点,按照得到的初始光流进行相应的平移变换以得到初始预测图像。
差值图像可以用于表示两幅图像中对应位置的像素点的亮度或灰度的差值。具体地,可以对初始预测图像和第一图像中对应位置的像素点的亮度或灰度进行作差,以得到初始预测图像与第一图像的差值图像作为初始差值图像。
步骤305,将第一图像、第二图像、初始预测图像、初始光流、初始差值图像输入至第二子模型,得到第一图像和第二图像之间的第一预测光流。
在本实施例中,上述第一光流预测模型还可以包括第二子模型。其中,第二子模型可以基于第一子模型得到的初始光流,进一步预测第一图像和第二图像之间的光流,以得到比初始光流更准确的光流信息。第二子模型的网络组成结构可以根据具体的实际应用需求设计。
可选地,第二子模型可以先将输入的各个图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。
可选地,第二子模型可以先分别提取输入的各个图像的特征。然后将提取的各个特征进行叠加,之后再对叠加后的特征进行卷积操作和/或池化操作以提取光流信息。
可选地,第二子模型可以先将输入的各个图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。之后,还可以进一步地对提取的光流信息进行反卷积和/或反池化操作以提升输出的光流信息的信息量。
需要说明的是,实践中,可以同时训练得到第一子模型和第二子模型,也可以先单独训练得到第一子模型,然后固定得到的第一子模型的参数,再训练得到第二子模型。具体地可以根据实际的应用场景进行选择不同的训练方式。
第二子模型和第一子模型相比,在通过第一子模型得到的初始光流的基础上,学习了根据初始光流得到的初始预测图像和第一图像之间的差别,从而使得得到的第一预测光流比初始光流更准确。
从图3中可以看出,与图2对应的实施例相比,本实施例中的用于生成信息的方法的流程300在得到两个输出特征图像之后,可以先根据两个输出特征图像预测初始光流。然后根据初始光流对第二图像进行变换处理得到初始预测图像,进而得到初始预测图像和第一图像的差值图像。然后进一步学习初始预测图像和第一图像之间的差别,并结合差值图像、初始光流,和第二图像,对第一图像和第二图像之间的光流进行更准确地的预测。
进一步参考图4,其示出了用于生成信息的方法的又一个实施例的流程400。该用于生成信息的方法的流程400,包括以下步骤:
步骤401,获取第一图像,以及获取第二图像。
步骤402,将第一图像输入至第一特征提取网络,得到第一图像的初始特征图像,以及将第一图像的初始特征图像输入至第二特征提取网络,得到第一图像的输出特征图像。
步骤403,将第二图像输入至第一特征提取网络,得到第二图像的初始特征图像,以及将第二图像的初始特征图像输入至第二特征提取网络,得到第二图像的输出特征图像。
步骤404,将第一图像的输出特征图像和第二图像的输出特征图像输入至第一子模型,得到第一图像和第二图像之间的初始光流。
步骤405,根据初始光流,对第二图像进行变换处理以预测第一图像,得到初始预测图像,以及确定初始预测图像与第一图像的差值图像作为初始差值图像。
步骤406,将第一图像、第二图像、初始预测图像、初始光流、初始差值图像输入至第二子模型,得到第一图像和第二图像之间的第一预测光流。
上述步骤401-406的具体的执行过程可参考图2对应实施例中的步骤201-203和图3对应实施例中的步骤301-305的相关说明,在此不再赘述。
步骤407,根据第一预测光流,对第二图像进行变换处理以预测第一图像,得到第一预测图像,以及确定第一预测图像与第一图像的差值图像作为第一差值图像。
在本实施例中,在得到第一预测光流之后,可以对第二图像进行对应的变换处理以预测第一图像。具体地,对第二图像中的各个像素点,按照得到的第一预测光流进行相应的平移变换以得到第一预测图像。之后,可以对第一预测图像和第一图像中对应位置的像素点的亮度或灰度进行作差,以得到第一预测图像和第一图像的差值图像作为第一差值图像。
步骤408,将第一图像、第二图像、第一图像的初始特征图像、第二图像的初始特征图像输入至预先训练的第二光流预测模型,得到第一图像和第二图像之间的第二预测光流。
在本实施例中,上述第二光流预测模型可以根据第一图像、第二图像以及分别对应的初始特征图像对第一图像和第二图像之间的光流进行预测。其中,第二光流预测模型的网络组成结构可以根据具体的实际应用需求设计。
可选地,第二光流预测模型可以先将输入的各个图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。
可选地,第二光流预测模型可以先分别提取输入的各个图像的特征。然后将提取的各个特征进行叠加,之后再对叠加后的特征进行卷积操作和/或池化操作以提取光流信息。
可选地,第二光流预测模型可以先将输入的各个图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。之后,还可以进一步地对提取的光流信息进行反卷积和/或反池化操作以提升输出的光流信息的信息量。
第二光流预测模型和第一光流预测模型相比,输入这两个模型的特征图像的维度不同。由于初始特征图像和输出特征图像分别表示不同维度的特征。因此,利用第一光流预测模型和第二光流预测模型可以从不同维度的特征对第一图像和第二图像之间的光流进行预测,以更全面的分析第一图像和第二图像之间的光流。
具体地,第二光流预测模型中的卷积核的步长可以较小。第二光流预测模型可以采用多个较小的卷积核。实践中,在第一光流预测模型的基础上,可以设置第二光流预测模型的卷积核的尺寸小于第一光流预测模型的卷积核的尺寸,以及设置第二光流预测模型的卷积核的数量多于第一光流预测模型的卷积核的数量。
步骤409,根据第二预测光流,对第二图像进行变换处理以预测第一图像,得到第二预测图像,以及确定第二预测图像与第一图像的差值图像作为第二差值图像。
在本实施例中,在得到第二预测光流之后,可以对第二图像进行对应的变换处理以预测第一图像。具体地,对第二图像中的各个像素点,按照得到的第二预测光流进行相应的平移变换以得到第二预测图像。之后,可以对第二预测图像和第一图像中对应位置的像素点的亮度或灰度进行作差,以得到第二预测图像和第一图像的差值图像作为第二差值图像。
步骤410,将第一图像、第一预测光流、第二预测光流、第一差值图像、第二差值图像输入至预先训练的第三光流预测模型,得到第一图像和第二图像之间的第三预测光流。
在本实施例中,上述第三光流预测模型可以在第一光流预测模型和第二光流预测模型的分别预测的结果的基础上,进一步更准确的预测第一图像和第二图像之间的光流。第三光流预测模型的网络组成结构可以根据具体的实际应用需求设计。
可选地,第三光流预测模型可以先将输入的各个图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。
可选地,第三光流预测模型可以先分别提取输入的各个图像的特征。然后将提取的各个特征进行叠加,之后再对叠加后的特征进行卷积操作和/或池化操作以提取光流信息。
可选地,第三光流预测模型可以先将输入的各个图像叠加在一起,然后对叠加后的图像进行卷积操作和/或池化操作以提取光流信息。之后,还可以进一步地对提取的光流信息进行反卷积和/或反池化操作以提升输出的光流信息的信息量。
第三光流预测模型融合了第一光流预测模型和第二光流预测模型分别从不同维度的特征所预测的光流,从而得到更准确的光流信息。
需要说明的是,在实践中可以同时训练得到第一光流预测模型、第二光流预测模型和第三光流预测子模型,也可以先单独训练得到第一光流预测模型,然后固定得到的第一光流预测模型的参数,再同时训练得到第二光流预测模型和第三光流预测模型。具体地可以根据实际的应用场景进行选择不同的训练方式。
上述第一光流预测模型(包括第一子模型和第二子模型)、第二光流预测模型、第三光流预测模型都用于预测第一图像和第二图像之间的光流。各个光流预测模型在预测光流的速度、预测的光流的准确度等方面具有差别。例如,在输入第一光流预测模型的特征图像的维度低于输入第二光流预测模型的特征图像的维度时,可以利用第一光流预测模型预测大位移光流,利用第二光流预测模型来预测小位移光流。第三光流预测模型的预测的光流较准确,但预测速度必然比第一光流预测模型和第二光流预测模型的速度较慢一些。实践中,可以根据不同的需求,选择不同的预测光流的方式。
需要说明的是,为了便于描述本方案并对不同阶段得到的信息进行区分,通过添加“第一”和“第二”等对信息以区分。例如,第一图像、第二图像、第一预测光流、第二预测光流等。本领域技术人员应当理解,其中的第一或第二并不构成对相关信息的特殊限定。例如,第一图像中的第一并不构成对图像的特殊限定。
继续参见图5,图5是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图5的应用场景中,可以先获取第一图像501和第二图像502。然后利用第一特征提取网络503和第二特征提取网络504分别对第一图像501和第二图像502进行特征提取。
具体地,如图中所示,可以先将第一图像501输入至第一特征提取网络503以得到第一图像501的初始特征图像5011。然后将得到的第一图像501的初始特征图像5011输入至第二特征提取网络504,以得到第一图像501的输出特征图像5012。
类似地,可以先将第二图像502输入至第一特征提取网络503以得到第二图像502的初始特征图像5021。然后将得到的第二图像502的初始特征图像5021输入至第二特征提取网络504,以得到第二图像502的输出特征图像5022。
之后,可以将第一图像501的输出特征图像5012和第二图像502的输出特征图像5022输入至第一子模型505,得到第一图像501和第二图像502之间的初始光流506。
进一步地,对第二图像502进行与初始光流506对应的变换处理以得到初始预测图像507。然后确定初始预测图像507与第一图像501的差值图像作为初始差值图像508。
之后,可以将第一图像501、第二图像502、初始预测图像507、初始光流506、初始差值图像508输入至第二子模型509,得到第一图像501和第二图像502之间的第一预测光流510。
进一步地,对第二图像502进行与第一预测光流510对应的变换处理以得到第一预测图像,以及确定第一预测图像与第一图像501的差值图像作为第一差值图像511。
之后,可以将第一图像501、第二图像502、第一图像501的初始特征图像5011、第二图像502的初始特征图像5021输入至第二光流预测模型512,得到第一图像501和第二图像502之间的第二预测光流513。
进一步地,对第二图像502进行与第二预测光流513对应的变换处理以得到第二预测图像,以及确定第二预测图像与第一图像501的差值图像作为第二差值图像514。
之后,可以将第一图像501、第一预测光流510、第二预测光流513、第一差值图像511、第二差值图像514输入至第三光流预测模型515,得到第一图像501和第二图像502之间的第三预测光流516。
从图4中可以看出,与图3对应的实施例相比,本实施例中的用于生成信息的方法的流程400突出了在利用第一图像和第二图像分别对应的输出特征图像预测光流之后,还可以利用第一图像和第二图像分别对应的初始特征图像进行小位移光流预测。之后,可以将上述预测的两个光流结果进行融合,从而得到更准确的光流信息。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了用于生成信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例提供的用于生成信息的装置600包括获取单元601、特征图像提取单元602和第一光流预测单元603。其中,获取单元601被配置成获取第一图像,以及获取第二图像;特征图像提取单元602被配置成将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至上述卷积神经网络,得到第二图像的输出特征图像;第一光流预测单元603被配置成将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,其中,光流预测模型用于根据两幅图像分别对应的特征图像预测两幅图像之间的光流。
在本实施例中,用于生成信息的装置600中:获取单元601、特征图像提取单元602和第一光流预测单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述卷积神经网络包括第一特征提取网络和第二特征提取网络;以及上述特征图像提取单元602进一步被配置成:将第一图像输入至第一特征提取网络,得到第一图像的初始特征图像,以及将第一图像的初始特征图像输入至第二特征提取网络,得到第一图像的输出特征图像;将第二图像输入至第一特征提取网络,得到第二图像的初始特征图像,以及将第二图像的初始特征图像输入至第二特征提取网络,得到第二图像的输出特征图像。
在本实施例的一些可选的实现方式中,上述用于生成信息的装置600还包括:第一差值图像确定单元(图中未示出)被配置成根据第一预测光流,对第二图像进行变换处理以预测第一图像,得到第一预测图像,以及确定第一预测图像与第一图像的差值图像作为第一差值图像;第二光流预测单元(图中未示出)被配置成将第一图像、第二图像、第一图像的初始特征图像、第二图像的初始特征图像输入至预先训练的第二光流预测模型,得到第一图像和第二图像之间的第二预测光流;第二差值图像确定单元(图中未示出)被配置成根据第二预测光流,对第二图像进行变换处理以预测第一图像,得到第二预测图像,以及确定第二预测图像与第一图像的差值图像作为第二差值图像;第三光流预测单元(图中未示出)被配置成将第一图像、第一预测光流、第二预测光流、第一差值图像、第二差值图像输入至预先训练的第三光流预测模型,得到第一图像和第二图像之间的第三预测光流。
在本实施例的一些可选的实现方式中,第一光流预测模型包括第一子模型和第二子模型;以及上述第一光流预测单元603进一步被配置成:将第一图像的输出特征图像和第二图像的输出特征图像输入至第一子模型,得到第一图像和第二图像之间的初始光流;根据初始光流,对第二图像进行变换处理以预测第一图像,得到初始预测图像,以及确定初始预测图像与第一图像的差值图像作为初始差值图像;将第一图像、第二图像、初始预测图像、初始光流、初始差值图像输入至第二子模型,得到第一图像和第二图像之间的第一预测光流。
在本实施例的一些可选的实现方式中,第一光流预测模型通过如下步骤训练得到:获取样本集,其中,样本集中的样本包括第一样本图像、第二样本图像、第一样本图像和第二样本图像之间的光流;对于样本集中的样本包括的第一样本图像和第二样本图像,利用预先训练好的卷积神经网络得到该第一样本图像和该第二样本图像分别对应的输出特征图像;利用机器学习的方法,将样本集中的样本包括的第一样本图像和第二样本图像分别对应的输出特征图像作为输入,将样本集中的样本包括的第一样本图像和第二样本图像之间的光流作为期望输出,训练得到第一光流预测模型。
本申请的上述实施例提供的装置,通过获取单元获取第一图像,以及获取第二图像;特征图像提取单元将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至卷积神经网络,得到第二图像的输出特征图像;第一光流预测单元将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,从而实现了基于两幅图像分别对应的特征图像,利用人工神经网络的方法预测两幅图像之间的光流。由于避免了对两幅图像过多的特征的分析和运算,从而有助于提升得到两幅图像之间的光流的速度。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括获取单元、特征图像提取单元和第一光流预测单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取第一图像,以及获取第二图像的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取第一图像,以及获取第二图像;将第一图像输入至预先训练的、用于提取特征图像的卷积神经网络,得到第一图像的输出特征图像,以及将第二图像输入至上述卷积神经网络,得到第二图像的输出特征图像;将第一图像的输出特征图像和第二图像的输出特征图像输入至预先训练的第一光流预测模型,得到第一图像和第二图像之间的第一预测光流,其中,光流预测模型用于根据两幅图像分别对应的特征图像预测两幅图像之间的光流。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。