CN108681743B

CN108681743B - 图像对象识别方法和装置、存储介质

Info

Publication number: CN108681743B
Application number: CN201810338448.2A
Authority: CN
Inventors: 李睿宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2019-12-06
Anticipated expiration: 2038-04-16
Also published as: EP3783535A1; US20200342253A1; WO2019201042A1; US11227182B2; CN108681743A

Abstract

本发明公开了一种图像对象识别方法和装置、存储介质。其中，该方法包括：获取图像识别指令，其中，图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；获取与图像识别指令匹配的指令特征向量；获取与目标图像匹配的图像特征向量集合，其中，图像特征向量集合中包含的第i个图像特征向量用于指示目标图像在第i个尺度下的图像特征，i为大于等于1的整数；根据指令特征向量及图像特征向量集合，从目标图像中识别出目标对象。本发明解决了由于识别目标对象出现信息缺失而造成的图像对象的识别准确性较低的技术问题。

Description

图像对象识别方法和装置、存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种图像对象识别方法和装置、存储介质。

背景技术

为了对图像中所包含的对象进行精细处理，越来越多的用户开始使用图像处理工具应用，如通过在上述图像处理工具应用中进行手动操作，以识别出图像中待处理的目标对象所在的区域，从而实现对该区域中的目标对象执行进一步的图像处理操作。

然而，目前在图像处理工具应用中，通常只对包含目标对象的区域提供粗糙的边界估计，进一步，若再受到模糊的处理指令的信息干扰，则可能使得从图像中识别出的目标对象出现信息缺失，从而造成对图像对象的识别准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像对象识别方法和装置、存储介质，以至少解决由于识别目标对象出现信息缺失而造成的图像对象的识别准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种图像对象识别方法，包括：获取图像识别指令，其中，上述图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；获取与上述图像识别指令匹配的指令特征向量；获取与上述目标图像匹配的图像特征向量集合，其中，上述图像特征向量集合中包含的第i个图像特征向量用于指示上述目标图像在第i个尺度下的图像特征，上述i为大于等于1的整数；根据上述指令特征向量及上述图像特征向量集合，从上述目标图像中识别出上述目标对象。

根据本发明实施例的另一方面，还提供了一种图像对象识别装置，包括：第一获取单元，用于获取图像识别指令，其中，上述图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；第二获取单元，用于获取与上述图像识别指令匹配的指令特征向量；第三获取单元，用于获取与上述目标图像匹配的图像特征向量集合，其中，上述图像特征向量集合中包含的第i个图像特征向量用于指示上述目标图像在第i个尺度下的图像特征，上述i为大于等于1的整数；识别单元，用于根据上述指令特征向量及上述图像特征向量集合，从上述目标图像中识别出上述目标对象。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述图像对象识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的图像对象识别方法。

在本发明实施例中，在获取到用于指示对目标图像中待识别的目标对象进行识别的图像识别指令之后，获取与图像识别指令匹配的指令特征向量，及与目标图像匹配的图像特征向量集合，其中，该图像特征向量集合中包括的第i个图像特征向量用于指示目标图像在第i个尺度下的图像特征，以利用获取到的指令特征向量及图像特征向量集合来识别目标对象。也就是说，在根据图像识别指令识别目标图像中的目标对象的过程中，通过在与图像识别指令匹配的指令特征向量的基础上，融合与目标图像对应的不同尺度下的图像特征向量，而不再仅仅是进行粗糙的边界估计，避免识别出的目标对象出现信息缺失，从而达到提高识别出目标对象的准确性，进而克服相关技术中存在的图像对象识别准确性较低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的图像对象识别方法的硬件环境示意图；

图2是根据本发明实施例的一种可选的图像对象识别方法的流程图；

图3是根据本发明实施例的一种可选的图像对象识别方法的示意图；

图4是根据本发明实施例的另一种可选的图像对象识别方法的示意图；

图5是根据本发明实施例的又一种可选的图像对象识别方法的示意图；

图6是根据本发明实施例的一种可选的图像对象识别装置的示意图；

图7是根据本发明实施例的另一种可选的图像对象识别装置的示意图；

图8是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明实施例中，提供了一种上述图像对象识别方法的实施例。作为一种可选的实施方式，该图像对象识别方法可以但不限于应用于如图1所示的硬件环境中，在终端102安装的图像处理工具应用中，如步骤S102，获取对目标图像中的目标对象进行识别的图像识别指令，假设目标图像为如图1中左上角所示的图像A，图像识别指令所携带的对象指示信息所指示的目标对象为如图1所示的位于汽车右侧的人物对象。服务器104通过执行步骤S104-1至步骤S104-3，实现步骤S104获取识别出的目标对象，并如步骤S106向终端102返回识别结果。则在终端102中可以如图1中右上角所示显示图像A’，其中图像A’中虚线区域内阴影填充的人物对象为识别出的目标对象。其中，如步骤S104-1至步骤S104-3，服务器104在获取到图像识别指令之后，将获取与图像识别指令匹配的指令特征向量，及与目标图像匹配的图像特征向量集合，其中，该图像特征向量集合中包括的第i个图像特征向量用于指示目标图像在第i个尺度下的图像特征，根据上述获取到的指令特征向量及图像特征向量集合，从目标图像中识别出上述目标对象。

在本实施例中，根据图像识别指令识别目标图像中的目标对象的过程中，通过在与图像识别指令匹配的指令特征向量的基础上，融合与目标图像对应的不同尺度下的图像特征向量，而不再仅仅是进行粗糙的边界估计，避免识别出的目标对象出现信息缺失，从而达到提高识别出目标对象的准确性，进而克服相关技术中存在的图像对象识别准确性较低的问题。

可选地，在本实施例中，上述终端102可以包括但不限于：移动终端、台式终端，例如，手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他用于识别图像对象进行图像处理的硬件设备。上述终端102与服务器104之间可以通过网络实现数据交互，其中，该网络可以包括但不限于：无线网络、有线网络，有线网络包括但不限于以下至少之一：广域网、城域网、局域网。无线网络包括但不限于以下至少之一：蓝牙、TIFI、近场通信(Near FieldCommunicaTion，简称NFC)。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例的一个方面，提供了一种图像对象识别方法，如图2所示，该方法包括：

S202，获取图像识别指令，其中，图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；

S204，获取与图像识别指令匹配的指令特征向量；

S206，获取与目标图像匹配的图像特征向量集合，其中，图像特征向量集合中包含的第i个图像特征向量用于指示目标图像在第i个尺度下的图像特征，i为大于等于1的整数；

S208，根据指令特征向量及图像特征向量集合，从目标图像中识别出目标对象。

可选地，在本实施例中，上述图像对象识别方法可以但不限于应用于图像处理过程中，这里图像处理过程可以但不限于通过以下工具应用实现：如静态图像处理工具应用、动态图像处理工具。其中，动态图像处理工具应用可以但不限于为动图处理、视频图像帧处理等。上述图像处理过程可以包括以下至少一种操作：裁剪目标对象、编辑目标对象。例如，如图1右上角所示图像A’，其中，图像A’中虚线区域内阴影填充的人物对象为识别出的目标对象，对该目标对象可以进行进一步图像处理，如将目标对象从图像A’中裁剪出，并进行进一步的图像优化处理，如改变亮度、对比度等图像参数。上述仅是示例，本实施例中对此不做任何限定。

需要说明的是，在本实施例中，在获取到用于指示对目标图像中待识别的目标对象进行识别的图像识别指令之后，通过在与图像识别指令匹配的指令特征向量的基础上，融合与目标图像对应的不同尺度下的图像特征向量，而不再仅仅是进行粗糙的边界估计，避免识别出的目标对象出现信息缺失，从而达到提高识别出目标对象的准确性。

可选地，在本实施例中，上述目标图像在第i个尺度下的图像特征可以但不限于用于指示在神经网络模型中对目标图像进行第i次迭代后所得到的图像特征。其中，目标图像在第i个尺度下的图像特征，与目标图像按比例缩放后得到的图像特征相对应。如，尺寸为W×H的目标图像在第i个尺度下的图像特征，可以但不限于使用将尺寸为W×H的目标图像缩放至尺寸为w_i×h_i后的图像的图像特征表示。

可选地，在本实施例中，上述图像识别指令中的对象指示信息可以包括但不限于：目标对象在目标图像中所在的位置。例如，可以通过目标图像中像素点的坐标位置来标记上述目标对象所在的位置。上述仅是示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述获取图像识别指令可以但不限于：

1)获取语音输入的图像识别指令；

2)通过在应用客户端中设置的输入插件，获取按键输入的图像识别指令。

需要说明的是，在本实施例中，获取图像识别指令的方式还可以包括其他方式，不仅可以实现简化获取图像识别指令的获取操作，同时还可以达到丰富获取方式，以提高对应用客户端的下载量。

可选地，在本实施例中，可以但不限于通过神经网络模型，对图像识别指令进行语义学习，以提取上述指令特征向量。其中，上述神经网络模型可以但不限于长短期记忆(Long Short-Term Memory简称LSTM)网络模型，该神经网络模型可以但不限于为对多个样本图像识别指令训练后得到。

可选地，在本实施例中，上述图像特征向量集合中包括目标图像特征向量、变化图像特征向量，其中，目标图像特征向量可以但不限于为通过第一神经网络模型最终得到的图像特征向量；变化图像特征向量可以但不限于为通过第二神经网络模型得到的T个变量图像特征向量。例如，变化图像特征向量m中的T个变量图像特征向量可以表示为：m

{m1，m2，...，mT}，其中，m_t用于表示目标图像在第t个尺度下的图像特征，1≤t≤T。需要说明的是，这里m_t中包含的每个向量元素用于指示目标图像的尺寸被缩放至w_t×h_t后在像素点r上的图像特征信息。

需要说明的是，上述第一神经网络模型和第二神经网络模型可以为不同的神经网络模型，也可以为相同的神经网络模型，如均使用卷积神经网络(Convolutional NeuralNetwork，简称CNN)模型。

例如，假设第一神经网络模型和第二神经网络模型均为CNN模型，上述目标图像向量可以包括但不限于为变化图像特征向量中第T个尺度对应的变量图像特征向量。又例如，假设第一神经网络模型和第二神经网络模型均为CNN模型，上述目标图像向量也可以包括但不限于为变化图像特征向量之外的尺度对应的图像特征向量。如第I个尺度下的目标图像向量，可以为位于第T个变量图像特征向量之后得到的图像特征向量。

可选地，在本实施例中，根据指令特征向量及图像特征向量集合，从目标图像中识别出目标对象可以包括但不限于：根据指令特征向量和图像特征向量集合中的目标图像特征向量，确定与对象指示信息匹配的对象特征向量，其中，对象特征向量用于指示待识别的目标对象在目标图像中所在的位置；根据上述对象特征向量及图像特征向量集合中的变化图像特征向量，从目标图像中识别出目标对象。

需要说明的是，在本实施例中，获取上述对象特征向量可以包括但不限于：获取与目标图像匹配的坐标向量；对指令特征向量、目标图像特征向量及坐标向量进行拼接，得到拼接后的特征向量；将拼接后的特征向量输入对应神经网络模型，得到对象特征向量。

可选地，在本实施例中，根据上述对象特征向量及图像特征向量集合中的变化图像特征向量，从目标图像中识别出目标对象可以包括但不限于：将对象特征向量作为初始特征向量输入第三神经网络模型，并在每次迭代过程中，依次输入由变化图像特征向量中包含的变量图像特征向量所确定的中间图像特征向量，从而实现在对图像对象识别的过程中，融合目标图像在不同尺度下的图像特征，以避免粗糙的边界估计所导致的图像对象识别准确性较低的问题。其中，上述第三神经网络模型可以但不限于为卷积LSTM模型。

此外，在上述第三神经网络模型中可以但不限于使用了门控制的迭代结构，如输入控制门，遗忘控制门和输出控制门，通过在每一次迭代中自适应的选择遗忘之前的信息或者融合新的信息，从而实现准确捕获出目标图像在不同尺度下的图像特征。

具体结合以下示例进行说明，如图3所示，假设目标图像为尺寸大小为W×H的图像A。获取对图像A的图像识别指令，经过分词和语义识别得知该图像识别指令指示：图像A中位于汽车右侧的人物对象为待识别的目标对象。通过LSTM获取与图像识别指令匹配的指令特征向量S，向量长度用D_S表示。通过CNN获取图像特征向量集合，其中，目标图像特征向量为I，向量长度用D_I表示，变化图像特征向量为m，所包含的T个变量图像特征向量可以表示为：m＝{m₁，m₂，...，m_T}，其中，m_t用于表示目标图像在第t个尺度下的图像特征，1≤t≤T。获取到与目标图像(图像A)对应的坐标向量V，这里V可以但不限于为图像A中关键像素的坐标位置。例如，中心点在x轴和y轴的坐标、左上角在x轴和y轴的坐标、右下角在x轴和y轴的坐标。

进一步，假设通过多次迭代(如图3所示多个矩形)最终得到的目标图像特征向量对应的图像尺寸为w×h，通过以下表达式表示目标图像特征向量：w×h×D_I，将上述目标图像特征向量(如图3所示斜线填充矩形)、上述指令特征向量(如图3所示空白填充矩形)、及与图像A对应的坐标向量(如图3所示网格填充矩形)进行拼接，得到拼接后的特征向量，用以下表达式表示：w×h×(D_I+D_S+V)。将上述拼接后的特征向量导入CNN网络模型，经过1层1×1的卷积层后，可以得到对象特征向量q，通过以下表达式表示：w×h×D_Q。

上述对象特征向量是对目标对象在图像A中所在的区域做了初步估计。为了提高对象识别的准确性，在本实施例中，将获取图像A在不同尺度下的变量图像特征向量。如图3下方所示，将对象特征向量q作为初始特征向量输入，然后依次将不同尺度下，与变量图像特征向量对应的中间图像特征向量(如图3以不同缩放尺寸的图像来表示)，输入ConvLSTM神经模型，从而实现得到准确识别出的目标对象，如图3所示虚线区域内阴影填充的人物对象。

通过本申请提供的实施例，在获取到用于指示对目标图像中待识别的目标对象进行识别的图像识别指令之后，通过在与图像识别指令匹配的指令特征向量的基础上，融合与目标图像对应的不同尺度下的图像特征向量，而不再仅仅是进行粗糙的边界估计，避免识别出的目标对象出现信息缺失，从而达到提高识别出目标对象的准确性。

作为一种可选的方案，根据指令特征向量及图像特征向量集合，从目标图像中识别出目标对象包括：

S1，获取图像特征向量集合中的目标图像特征向量，其中，目标图像特征向量用于指示目标图像通过第一神经网络模型最终得到的图像特征向量，第一神经网络模型利用多个第一样本图像通过机器训练得到；

S2，获取图像特征向量集合中的变化图像特征向量，其中，变化图像特征向量包括目标图像通过第二神经网络模型得到的T个变量图像特征向量，第二神经网络模型利用多个第二样本图像通过机器训练得到，T为大于等于1的整数；

S3，根据指令特征向量及目标图像特征向量，确定与对象指示信息匹配的对象特征向量；

S4，根据对象特征向量与变化图像特征向量，从目标图像中识别出目标对象。

可选地，在本实施例中，上述第一神经网络模型和第二神经网络模型可以为不同的神经网络模型，也可以为相同的神经网络模型，如均使用卷积神经网络(ConvolutionalNeural Network，简称CNN)模型。

例如，假设第一神经网络模型和第二神经网络模型均为CNN模型，上述目标图像向量可以包括但不限于为变化图像特征向量中第T个尺度对应的变量图像特征向量。此外，上述目标图像向量也可以包括但不限于为变化图像特征向量之外的尺度对应的图像特征向量。如第I个尺度下的目标图像向量，可以为位于第T个变量图像特征向量之后得到的图像特征向量。

又例如，如图4所示，假设第一神经网络模型和第二神经网络模型为不同的神经网络模型，目标图像通过第一神经网络模型最终将得到目标图像特征向量，其中，该第一神经网络模型通过对多个第一样本图像进行及其训练后得到；目标图像通过第二神经网络模型将得到变化图像特征向量，变化图像特征向量中包括T个尺度下的T个变量图像特征向量，其中，该第二神经网络模型通过对多个第二样本图像进行及其训练后得到。根据指令特征向量及目标图像特征向量，将可以确定出与对象指示信息相匹配的对象特征向量；进一步根据确定出的对象特征向量，及变化图像特征向量中包括的T个变量图像特征向量，得到识别出的目标对象。

通过本申请提供的实施例，利用指令特征向量和目标图像特征向量，确定出与对象指示信息匹配的对象特征向量，该对象特征向量可以粗略估计出目标对象所在的区域，进一步结合变化图像特征向量中的变量图像特征向量，实现将目标图像在不同尺度下的图像特征融合至图像对象识别过程中，从而克服相关技术所提供的粗糙边界估计所导致的识别准确性较低的问题，进而达到提高识别准确性的效果。

作为一种可选的方案，根据对象特征向量与变化图像特征向量，从目标图像中识别出目标对象包括：

S1，获取对象特征向量的向量参数；

S2，按照向量参数对变化图像特征向量中所包含的每一个变量图像特征向量进行缩放，并对缩放后的变化图像特征向量进行转换运算，得到T个中间图像特征向量；

S3，将对象特征向量作为初始特征向量输入第三神经网络模型，并将T个中间图像特征向量依次输入第三神经网络模型，其中，第三神经网络模型利用多个第三样本图像通过机器训练得到；

S4，根据第三神经网络模型最终输出的输出结果，确定在目标图像中与对象指示信息匹配的目标区域；

S5，从目标区域中识别出目标对象。

可选地，在本实施例中，上述向量参数可以包括但不限于：向量维度及向量长度。上述仅是示例，本实施例中还包括向量所涉及其他参数，本实施例中对此不做任何限定。

具体结合以下示例进行说明，如图3所示，假设目标图像为尺寸大小为W×H的图像A。获取对图像A的图像识别指令，经过分词和语义识别得知该图像识别指令指示：图像A中位于汽车右侧的人物对象为待识别的目标对象。通过LSTM获取与图像识别指令匹配的指令特征向量S，向量长度用D_S表示。通过CNN获取图像特征向量集合，其中，目标图像特征向量为I，向量长度用D_I表示，变化图像特征向量为m，所包含的T个变量图像特征向量可以表示为：m＝{m₁，m₂，...，m_T}，其中，m_t用于表示目标图像在第t个尺度下的图像特征，1≤t≤T。根据指令特征向量机目标图像特征向量确定出对象特征向量为q，通过以下表达式表示：w×h×D_Q。

进一步，对T个变量图像特征向量进行缩放，使得缩放后的变量图像特征向量，与对象特征向量q大小一致。例如，以变量图像特征向量m_t为例进行说明，表达式可以为：w_t×h_t×D_T，其中，D_T用于表示第t个尺度下变量图像特征向量m_k中像素点r上图像特征信息对应向量的向量长度，r为大于等于1，小于等于目标图像中像素点总数的自然数。具体的，将上述尺寸w_t×h_t缩放调整至w×h，并对向量长度D_T调整至D_Q，如进行向量升维处理。使得缩放后的变量图像特征向量也可以通过以下表达式表示维度信息：w×h×D_Q。再者，将缩放后的变量图像特征向量输入一层1×1的卷积层，得到中间图像特征向量，如：{x₁，x₂，...，x_T}，与{m₁，m₂，...，m_T}对应。

使用ConvLSTM来循环迭代对象特征向量q。具体的，将对象特征向量q作为ConvLSTM的初始隐变量h₀，隐变量c₀配置为全0向量。其中，在ConvLSTM第t次迭代的过程中，隐变量h_t-1和输入x_t的结合过程可以如下：

i_t＝σ(V_ix_t+U_ih_t-1+b_i) (1)

f_t＝σ(V_fx_t+U_fh_t-1+b_f) (2)

o_t＝σ(V_ox_t+U_oh_t-1+b_o) (4)

其中，σ指的是sigmoid函数，代表Hadamard乘法。c_t是ConvLSTM的中间隐变量，i_t，f_t和o_t分别是输入控制门，遗忘控制门和输出控制门。这三个控制门可以有效地选择历史信息中应该保留的信息，应该被融入的输入信息。V、U和b都是卷积操作的参数，这些参数均可通过机器训练确定。在最后一次迭代后，隐变量h_T已经融合了多尺度的图像信息，在本实施例中，可以将根据h_T确定与对象指示信息相匹配的目标对象所在的目标区域的概率p。从而实现从目标区域中准确识别出目标对象。

通过本申请提供的实施例，通过在对象特征向量的基础上，融合不同尺度下的变量图像特征向量，从而实现结合不同尺度下目标图像的图像特征，以进一步提高识别的准确性。

作为一种可选的方案，根据第三神经网络模型最终输出的输出结果，确定在目标图像中与对象指示信息匹配的目标区域包括：

S1，根据输出结果获取与目标图像匹配的概率向量，其中，概率向量中第j个概率元素用于指示目标图像中第j个像素位置位于目标区域的概率，j为大于等于1的整数；

S2，从概率向量中获取概率元素所指示的概率大于阈值的目标概率元素；

S3，根据目标概率元素在目标图像中所指示的像素位置确定目标区域。

具体结合以下示例进行说明，在本实施例中可以但不限于使用sigmoid函数确定目标图像中像素位置位于目标对象所在目标区域的概率。例如，根据上述第三神经网络模型输出的输出结果可以确定与目标图像匹配的概率向量，公式如下：

p＝sigmoid(W_ph_T+b_p) (6)

其中，W_p和b_p为已配置的参数。根据上述公式可以准确得出目标图像中各个像素位置位于目标对象所在目标区域的概率。

例如，如图5所示，假设阈值为0.5，目标图像为如图5(a)所示是图像A。进一步假设图5(b)用于指示概率向量中概率元素所指示的概率，如空白区域指示概率为0，网格区域指示概率为0.1-0.3，斜线区域指示概率为0.5以上。则可以确定目标区域为斜线区域，并从目标区域中识别出目标对象，如图5(c)所示虚线区域内阴影填充的人物对象。

通过本申请提供的实施例，通过神经网络模型的输出结果获取与目标图像匹配的概率向量，从而根据概率向量中的概率确定目标对象所在的目标区域，进而实现从目标图像中准确识别出目标对象的效果。

作为一种可选的方案，在将对象特征向量作为初始特征向量输入第三神经网络模型之前，还包括：

S1，根据多个第三样本图像训练第三神经网络模型，其中，在训练第三神经网络模型过程中，获取与第三神经网络的训练输入值匹配的标的值和第三神经网络输出的训练输出值；根据标的值和训练输出值，利用损失函数对第三神经网络模型进行调整处理。

需要说明的是，上述标的值可以但不限于为与训练输入值同时获取到，与训练输入值匹配的参考输出值。在训练上述神经网络模型的过程中，可以但不限于将p用双线性插值放大到和目标图像一样尺寸大小W×H，并通过如下损失函数进行调整优化：

其中，p_ij用于表示上述概率向量中的概率元素，y_ij用于表示标的值，W和H用于标识目标图像尺寸大小。

在神经网络模型训练过程中，通过上述公式来动态调整神经网络模型中的参数，以保证神经网络模型的准确性。

通过本申请提供的实施例，通过损失参数对第三神经网络模型进行调整优化，以保证第三神经网络模型的准确适用性，从而保证利用该第三神经网络模型得到的概率向量的准确性，以提高对图像对象识别的准确性。

作为一种可选的方案，根据指令特征向量及目标图像特征向量，确定与对象指示信息匹配的对象特征向量包括：

S1，获取与目标图像匹配的坐标向量；

S2，对指令特征向量、目标图像特征向量及坐标向量进行拼接，得到拼接后的特征向量；

S3，将拼接后的特征向量输入第四神经网络模型，得到对象特征向量，其中，第四神经网络模型利用多个样本对象通过机器训练得到。

具体通过以下示例进行说明，假设图像识别指令为自然语言描述S，目标图像的尺寸为W×H，使用LSTM来编码S，并且将L2正则化后的LSTM最后一次迭代的隐变量s，作为指令特征向量，该指令特征向量的向量长度为D_S。进一步，获取变化图像特征向量中包含的目标图像特征向量D_I及与图像A对应的坐标向量V，如图3所示，将上述目标图像特征向量(如图3所示斜线填充矩形)、上述指令特征向量(如图3所示空白填充矩形)、及与图像A对应的坐标向量(如图3所示网格填充矩形)进行拼接，得到拼接后的特征向量，用以下表达式表示：w×h×(D_I+D_S+V)。将上述拼接后的特征向量导入CNN网络模型，经过1层1×1的卷积层后，可以得到对象特征向量q，通过以下表达式表示：w×h×D_Q。

通过本申请提供的实施例，通过将与目标图像匹配的指令特征向量、目标图像特征向量及与目标图像匹配的坐标向量进行拼接，得到拼接后的特征向量，并将拼接后的特征向量输入第四神经网络模型，从而实现估计出与对象指示信息相匹配的对象特征向量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述图像对象识别方法的图像对象识别装置，如图6所示，该装置包括：

1)第一获取单元602，用于获取图像识别指令，其中，图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；

2)第二获取单元604，用于获取与图像识别指令匹配的指令特征向量；

3)第三获取单元606，用于获取与目标图像匹配的图像特征向量集合，其中，图像特征向量集合中包含的第i个图像特征向量用于指示目标图像在第i个尺度下的图像特征，i为大于等于1的整数；

4)识别单元608，用于根据指令特征向量及图像特征向量集合，从目标图像中识别出目标对象。

可选地，在本实施例中，上述图像对象识别装置可以但不限于应用于图像处理过程中，这里图像处理过程可以但不限于通过以下工具应用实现：如静态图像处理工具应用、动态图像处理工具。其中，动态图像处理工具应用可以但不限于为动图处理、视频图像帧处理等。上述图像处理过程可以包括以下至少一种操作：裁剪目标对象、编辑目标对象。例如，如图1右上角所示图像A’，其中，图像A’中虚线区域内阴影填充的人物对象为识别出的目标对象，对该目标对象可以进行进一步图像处理，如将目标对象从图像A’中裁剪出，并进行进一步的图像优化处理，如改变亮度、对比度等图像参数。上述仅是示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述装置还包括：处理单元，用于在从目标图像中识别出目标对象之后，对目标对象执行图像处理操作，其中，图像处理操作包括以下至少一种操作：裁剪目标对象、编辑目标对象。

1)获取语音输入的图像识别指令；

可选地，在本实施例中，上述图像特征向量集合中包括目标图像特征向量、变化图像特征向量，其中，目标图像特征向量可以但不限于为通过第一神经网络模型最终得到的图像特征向量；变化图像特征向量可以但不限于为通过第二神经网络模型得到的T个变量图像特征向量。例如，变化图像特征向量m中的T个变量图像特征向量可以表示为：m＝{m₁，m₂，...，m_T}，其中，m_t用于表示目标图像在第t个尺度下的图像特征，1≤t≤T。需要说明的是，这里m_t中包含的每个向量元素用于指示目标图像的尺寸被缩放至w_t×h_t后在像素点r上的图像特征信息。

作为一种可选的方案，如图7所示，上述识别单元608包括：

1)第一获取模块702，用于获取图像特征向量集合中的目标图像特征向量，其中，目标图像特征向量用于指示目标图像通过第一神经网络模型最终得到的图像特征向量，第一神经网络模型利用多个第一样本图像通过机器训练得到；

2)第二获取模块704，用于获取图像特征向量集合中的变化图像特征向量，其中，变化图像特征向量包括目标图像通过第二神经网络模型得到的T个变量图像特征向量，第二神经网络模型利用多个第二样本图像通过机器训练得到，T为大于等于1的整数；

3)确定模块706，用于根据指令特征向量及目标图像特征向量，确定与对象指示信息匹配的对象特征向量；

4)识别模块708，用于根据对象特征向量与变化图像特征向量，从目标图像中识别出目标对象。

作为一种可选的方案，上述识别模块包括：

1)第一获取子模块，用于获取对象特征向量的向量参数；

2)计算子模块，用于按照向量参数对变化图像特征向量中所包含的每一个变量图像特征向量进行缩放，并对缩放后的变化图像特征向量进行转换运算，得到T个中间图像特征向量；

3)第一输入子模块，用于将对象特征向量作为初始特征向量输入第三神经网络模型，并将T个中间图像特征向量依次输入第三神经网络模型，其中，第三神经网络模型利用多个第三样本图像通过机器训练得到；

4)确定子模块，用于根据第三神经网络模型最终输出的输出结果，确定在目标图像中与对象指示信息匹配的目标区域；

5)识别子模块，用于从目标区域中识别出目标对象。

进一步，对T个变量图像特征向量进行缩放，使得缩放后的变量图像特征向量，与对象特征向量q大小一致。例如，以变量图像特征向量m_t为例进行说明，表达式可以为：w_t×h_t×D_T，其中，D_T用于表示第t个尺度下变量图像特征向量m_t中像素点r上图像特征信息对应向量的向量长度，r为大于等于1，小于等于目标图像中像素点总数的自然数。具体的，将上述尺寸w_t×h_t缩放调整至w×h，并对向量长度D_T调整至D_Q，如进行向量升维处理。使得缩放后的变量图像特征向量也可以通过以下表达式表示维度信息：w×h×D_Q。再者，将缩放后的变量图像特征向量输入一层1×1的卷积层，得到中间图像特征向量，如：{x₁，x₂，...，x_T}，与{m₁，m₂，...，m_T}对应。

i_t＝σ(V_ix_t+U_ih_t-1+b_i) (8)

f_t＝σ(V_fx_t+U_fh_t-1+b_f) (9)

o_t＝σ(V_ox_t+U_oh_t-1+b_o) (11)

作为一种可选的方案，上述确定子模块还用于执行以下步骤：

p＝sigmoid(W_ph_T+b_p) (13)

作为一种可选的方案，上述识别模块还包括：

1)训练子模块，用于在将对象特征向量作为初始特征向量输入第三神经网络模型之前，根据多个第三样本图像训练第三神经网络模型，其中，在训练第三神经网络模型过程中，获取与第三神经网络的训练输入值匹配的标的值和第三神经网络输出的训练输出值；根据标的值和训练输出值，利用损失函数对第三神经网络模型进行调整处理。

作为一种可选的方案，上述确定模块还包括：

1)第二获取子模块，用于获取与目标图像匹配的坐标向量；

2)拼接子模块，用于对指令特征向量、目标图像特征向量及坐标向量进行拼接，得到拼接后的特征向量；

3)第二输入子模块，用于将拼接后的特征向量输入第四神经网络模型，得到对象特征向量，其中，第四神经网络模型利用多个样本对象通过机器训练得到。

根据本发明实施例的又一个方面，还提供了一种用于实施上述图像对象识别方法的电子装置，如图8所示，该电子装置包括存储器802、处理器804、传输装置806与显示器808，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取图像识别指令，其中，图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；

S2，获取与图像识别指令匹配的指令特征向量；

S3，获取与目标图像匹配的图像特征向量集合，其中，图像特征向量集合中包含的第i个图像特征向量用于指示目标图像在第i个尺度下的图像特征，i为大于等于1的整数；

S4，根据指令特征向量及图像特征向量集合，从目标图像中识别出目标对象。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InterneT Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的图像对象识别方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像对象识别方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器802用于存储图像识别指令、图像特征向量集合以及识别出的目标对象等内容。

根据本发明实施例的又一个方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S2，获取与图像识别指令匹配的指令特征向量；

S1，获取对象特征向量的向量参数；

S5，从目标区域中识别出目标对象。

S1，获取与目标图像匹配的坐标向量；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像对象识别方法，其特征在于，包括：

获取图像识别指令，其中，所述图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；

获取与所述图像识别指令匹配的指令特征向量，其中，所述指令特征向量为对所述图像识别指令进行语义学习，从而提取得到的特征向量；

获取与所述目标图像匹配的图像特征向量集合，其中，所述图像特征向量集合中包含的第i个图像特征向量用于指示所述目标图像在第i个尺度下的图像特征，所述i为大于等于1的整数；

获取所述图像特征向量集合中的目标图像特征向量，其中，所述目标图像特征向量用于指示所述目标图像通过第一神经网络模型最终得到的图像特征向量，所述第一神经网络模型利用多个第一样本图像通过机器训练得到；

获取所述图像特征向量集合中的变化图像特征向量，其中，所述变化图像特征向量包括所述目标图像通过第二神经网络模型得到的T个变量图像特征向量，所述第二神经网络模型利用多个第二样本图像通过机器训练得到，所述T为大于等于1的整数；

根据所述指令特征向量及所述目标图像特征向量，确定与所述对象指示信息匹配的对象特征向量；

根据所述对象特征向量与所述变化图像特征向量，从所述目标图像中识别出所述目标对象。

2.根据权利要求1所述的方法，其特征在于，所述根据所述对象特征向量与所述变化图像特征向量，从所述目标图像中识别出所述目标对象包括：

获取所述对象特征向量的向量参数；

按照所述向量参数对所述变化图像特征向量中所包含的每一个变量图像特征向量进行缩放，并对缩放后的所述变化图像特征向量进行转换运算，得到T个中间图像特征向量；

将所述对象特征向量作为初始特征向量输入第三神经网络模型，并将所述T个中间图像特征向量依次输入所述第三神经网络模型，其中，所述第三神经网络模型利用多个第三样本图像通过机器训练得到；

根据所述第三神经网络模型最终输出的输出结果，确定在所述目标图像中与所述对象指示信息匹配的目标区域；

从所述目标区域中识别出所述目标对象。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第三神经网络模型最终输出的输出结果，确定在所述目标图像中与所述对象指示信息匹配的目标区域包括：

根据所述输出结果获取与所述目标图像匹配的概率向量，其中，所述概率向量中第j个概率元素用于指示所述目标图像中第j个像素位置位于所述目标区域的概率，所述j为大于等于1的整数；

从所述概率向量中获取概率元素所指示的概率大于阈值的目标概率元素；

根据所述目标概率元素在所述目标图像中所指示的像素位置确定所述目标区域。

4.根据权利要求2所述的方法，其特征在于，在所述将所述对象特征向量作为初始特征向量输入第三神经网络模型之前，还包括：

根据所述多个第三样本图像训练所述第三神经网络模型，其中，在训练所述第三神经网络模型过程中，获取与所述第三神经网络的训练输入值匹配的标的值和所述第三神经网络输出的训练输出值；根据所述标的值和所述训练输出值，利用损失函数对所述第三神经网络模型进行调整处理。

5.根据权利要求1所述的方法，其特征在于，所述根据所述指令特征向量及所述目标图像特征向量，确定与所述对象指示信息匹配的对象特征向量包括：

获取与所述目标图像匹配的坐标向量；

对所述指令特征向量、所述目标图像特征向量及所述坐标向量进行拼接，得到拼接后的特征向量；

将所述拼接后的特征向量输入第四神经网络模型，得到所述对象特征向量，其中，所述第四神经网络模型利用多个样本对象通过机器训练得到。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在所述从所述目标图像中识别出所述目标对象之后，还包括：

对所述目标对象执行图像处理操作，其中，所述图像处理操作包括以下至少一种操作：裁剪所述目标对象、编辑所述目标对象。

7.一种图像对象识别装置，其特征在于，包括：

第一获取单元，用于获取图像识别指令，其中，所述图像识别指令中携带有用于指示目标图像中待识别的目标对象的对象指示信息；

第二获取单元，用于获取与所述图像识别指令匹配的指令特征向量，其中，所述指令特征向量为对所述图像识别指令进行语义学习，从而提取得到的特征向量；

第三获取单元，用于获取与所述目标图像匹配的图像特征向量集合，其中，所述图像特征向量集合中包含的第i个图像特征向量用于指示所述目标图像在第i个尺度下的图像特征，所述i为大于等于1的整数；

识别单元，包括：第一获取模块，用于获取所述图像特征向量集合中的目标图像特征向量，其中，所述目标图像特征向量用于指示所述目标图像通过第一神经网络模型最终得到的图像特征向量，所述第一神经网络模型利用多个第一样本图像通过机器训练得到；第二获取模块，用于获取所述图像特征向量集合中的变化图像特征向量，其中，所述变化图像特征向量包括所述目标图像通过第二神经网络模型得到的T个变量图像特征向量，所述第二神经网络模型利用多个第二样本图像通过机器训练得到，所述T为大于等于1的整数；确定模块，用于根据所述指令特征向量及所述目标图像特征向量，确定与所述对象指示信息匹配的对象特征向量；识别模块，用于根据所述对象特征向量与所述变化图像特征向量，从所述目标图像中识别出所述目标对象。

8.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

第一获取子模块，用于获取所述对象特征向量的向量参数；

计算子模块，用于按照所述向量参数对所述变化图像特征向量中所包含的每一个变量图像特征向量进行缩放，并对缩放后的所述变化图像特征向量进行转换运算，得到T个中间图像特征向量；

第一输入子模块，用于将所述对象特征向量作为初始特征向量输入第三神经网络模型，并将所述T个中间图像特征向量依次输入所述第三神经网络模型，其中，所述第三神经网络模型利用多个第三样本图像通过机器训练得到；

确定子模块，用于根据所述第三神经网络模型最终输出的输出结果，确定在所述目标图像中与所述对象指示信息匹配的目标区域；

识别子模块，用于从所述目标区域中识别出所述目标对象。

9.根据权利要求8所述的装置，其特征在于，所述确定子模块还用于执行以下步骤：

10.根据权利要求8所述的装置，其特征在于，所述识别模块还包括：

训练子模块，用于在所述将所述对象特征向量作为初始特征向量输入第三神经网络模型之前，根据所述多个第三样本图像训练所述第三神经网络模型，其中，在训练所述第三神经网络模型过程中，获取与所述第三神经网络的训练输入值匹配的标的值和所述第三神经网络输出的训练输出值；根据所述标的值和所述训练输出值，利用损失函数对所述第三神经网络模型进行调整处理。

11.根据权利要求7所述的装置，其特征在于，所述确定模块还包括：

第二获取子模块，用于获取与所述目标图像匹配的坐标向量；

拼接子模块，用于对所述指令特征向量、所述目标图像特征向量及所述坐标向量进行拼接，得到拼接后的特征向量；

第二输入子模块，用于将所述拼接后的特征向量输入第四神经网络模型，得到所述对象特征向量，其中，所述第四神经网络模型利用多个样本对象通过机器训练得到。

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述装置还包括：

处理单元，用于在所述从所述目标图像中识别出所述目标对象之后，对所述目标对象执行图像处理操作，其中，所述图像处理操作包括以下至少一种操作：裁剪所述目标对象、编辑所述目标对象。

13.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。