CN110785753B

CN110785753B - 用于搜索图像的方法、装置及存储介质

Info

Publication number: CN110785753B
Application number: CN201980001844.9A
Authority: CN
Inventors: 胡风硕; 贾红红
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2024-06-11
Anticipated expiration: 2039-09-27
Also published as: US20210097101A1; CN110785753A; WO2021056440A1; US11803585B2

Abstract

本公开的实施例提供了用于搜索图像的方法、装置及存储介质。该方法包括：获取参考图像中参考人物的参考人体关键点数据；以及基于参考人体关键点数据，在候选图像集中搜索包含与该参考人物的姿态相似的至少一个候选人物的至少一个目标图像。

Description

用于搜索图像的方法、装置及存储介质

技术领域

本公开涉及图像识别技术领域，具体地，涉及用于搜索图像的方法、装置及存储介质。

背景技术

通常，图像搜索是基于图像标签(即，用于描述图像内容的语义信息)或图像内容执行的。随着图像识别的准确度和速度的提高，图像搜索还可以基于图像的特征点执行。

大数据处理和高性能处理器能够增强深度学习方法的稳定性和可靠性，这使得人体关键点检测(Keypoint detection)技术得到显著的发展。目前，人体关键点检测技术广泛应用于计算机视觉领域。通过对不同人体关键点的识别可以实现对人体姿态、面部表情和手指运动等姿态的识别。

发明内容

本公开的实施例提供了用于搜索图像的方法、装置及存储介质。

根据本公开的第一方面，提供了一种用于搜索图像的方法。该方法包括：获取参考图像中参考人物的参考人体关键点数据；以及基于该参考人体关键点数据，在候选图像集中搜索包含与该参考人物的姿态相似的至少一个候选人物的至少一个目标图像。

在本公开的实施例中，在候选图像集中搜索包含与参考人物的姿态相似的至少一个候选人物的至少一个目标图像可包括：对于该候选图像集中的至少一个候选图像，获取该候选图像中一个或多个候选人物的候选人体关键点数据；对于一个或多个候选人物中的至少一个，基于参考人体关键点数据和候选人体关键点数据，确定候选人物是否具有与参考人物相似的姿态；以及响应于候选人物具有与参考人物相似的姿态，确定对应的候选图像为目标图像。

在本公开的实施例中，获取候选图像中一个或多个候选人物的候选人体关键点数据可包括：向关键点数据库查询候选人物的候选人体关键点数据。在实施例中，关键点数据库存储有候选图像的标识、候选人物的标识以及该候选人物的候选人体关键点数据之间的对应关系。

在本公开的实施例中，关键点数据库中的候选人物的候选人体关键点数据可通过第一姿态识别模型获取，该第一姿态识别模型是基于第一样本图像集训练得到的。

在本公开的实施例中，获取候选图像中一个或多个候选人物的候选人体关键点数据可包括：利用第一姿态识别模型来获取候选图像中的候选人体关键点数据。在实施例中，第一姿态识别模型是基于第一样本图像集训练的。

在本公开的实施例中，确定候选人物是否具有与参考人物相似的姿态可包括：基于参考人体关键点数据和候选人体关键点数据，计算候选人物与参考人物的姿态相似度；响应于该姿态相似度大于预定阈值，确定候选人物具有与参考人物相似的姿态。

在本公开的实施例中，计算候选人物与参考人物的姿态相似度可包括：根据如下公式计算候选人物与参考人物之间的姿态距离L：

其中，K表示候选人物的人体关键点的数量，x_k和y_k表示候选图像中的候选人物的候选人体的关键点k的坐标，0≤k≤K-1，x_0k、y_0k表示参考图像中的参考人物的参考人体的关键点k的坐标，h表示参考人物的头部长度，d_k表示候选人物与参考人物的人体关键点k之间的距离，l_k表示候选人物与参考人物的人体关键点k之间的子姿态距离；以及根据姿态距离来计算姿态相似度，其中，姿态距离越小，对应的姿态相似度越大。

在本公开的实施例中，参考人体关键点数据可通过第二姿态识别模型获取，该第二姿态识别模型是基于第二样本图像集训练的。

在本公开的实施例中，第一样本图像集可通过对第二样本图像集中的部分或全部图像进行风格迁移来获得。

在本公开的实施例中，参考人体关键点数据和候选人体关键点数据可基于同一人体坐标系来获得。

在本公开的实施例中，人体坐标系可以是躯干三角坐标系，其中，躯干三角坐标系的原点是指示右腰的人体关键点与指示左腰的人体关键点之间的连线的中点，横轴沿着所述连线的方向，纵轴经过指示左肩的人体关键点与指示右肩的人体关键点之间的连线的中点且与横轴垂直。

在本公开的实施例中，该方法还可包括：提供至少一个目标图像。

在本公开的实施例中，该方法还可包括：将至少一个目标图像中的至少一个候选人物替换成参考人物，以生成新图像；以及提供新图像。

根据本公开的第二方面，提供了一种用于搜索图像的装置。该装置包括：一个或多个处理器；以及存储器，其与处理器耦接，并存储有计算机程序指令。计算机程序指令在被处理器执行时使得该装置执行根据本公开的第一方面所述的方法。

根据本公开的第三方面，提供一种计算机可读存储介质，在其上存储有计算机程序指令，其中计算机程序指令在由计算机执行时使得该计算机执行根据本公开的第一方面所述的方法。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中，贯穿这些附图的各个视图，相同的参考编号指示相同的部件或特征：

图1示出了根据本公开的实施例的用于搜索图像的方法的示意性流程图；

图2示出了根据本公开的实施例的人体关键点的示意图；

图3示出了根据本公开的实施例的躯干三角坐标系的示意图；

图4示出了根据本公开的实施例的搜索目标图像的过程的示意性流程图；

图5示出了根据本公开的实施例的确定候选人物是否具有与参考人物相似的姿态的过程的示意性流程图；

图6示出了根据本公开的实施例的计算姿态相似度的过程的示意性流程图；

图7示出了根据本公开的实施例的将目标图像中的候选人物替换为参考人物的示意图；

图8示出了根据本公开的实施例的用于搜索图像的装置的示意性框图。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其他实施例，也都属于本公开保护的范围。

当介绍本公开的元素及其实施例时，冠词“一”、“一个”、“该”和“所述”旨在表示存在一个或者多个要素。用语“包含”、“包括”、“含有”和“具有”旨在包括性的并且表示可以存在除所列要素之外的另外的要素。本公开中描绘的流程图仅仅是一个例子。在不脱离本公开精神的情况下，可以存在该流程图或其中描述的很多变型。例如，所述可以以不同的顺序进行，或者可以添加、删除或者修改。这些变型都被认为是所要求保护的方面的一部分。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。如在此所使用的，将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。

如前所述，图像搜索可以基于图像中的特征点来执行，例如，图像中对象(例如，物体、人物等)的颜色、形状和纹理等。然而，图像搜索并不考虑图像中的人物的姿态。

为了解决上述技术问题，本公开提出了一种用于搜索图像的方法。在该方法中，获取参考图像中参考人物的参考人体关键点数据，并基于所获取的参考人体关键点数据，搜索包括具有与参考人物的姿态相似的候选人物的目标图像。

下面参照图1至图7，对根据本公开的实施例的用于搜索图像的方法进行详细描述。

图1示出了根据本公开的实施例的用于搜索图像的方法的示意性流程图。

如图1所示，在框110中，获取参考图像中参考人物的参考人体关键点数据。在本公开的一些实施例中，可设置十八个人体关键点，分别用关键点0至关键点17表示。图2示出了根据本公开的实施例的人体关键点的示意图。如图2所示，人体关键点包括右踝(0)、左踝(1)、右膝(2)、左膝(3)、右腰(4)、左腰(5)、右肩(6)、左肩与右肩的中点(7)、左肩(8)、右肘(9)、左肘(10)、右手腕(11)、左手腕(12)、右耳(13)、左耳(14)、右目(15)、左目(16)和鼻(17)。在本公开的其他实施例中，也可以设置其他数量的人体关键点，例如14个或28个等。

在本公开的实施例中，人体关键点数据可以包括十八个人体关键点中的部分或全部人体关键点的坐标值。在本公开的实施例中，为了对数据进行统一，便于后续的处理，不同人物的人体关键点数据是基于同一人体坐标系的，并且以使得不同人物的至少两个相同的人体关键点的坐标值相同的方式对人体关键点数据进行归一化。在本公开的实施例中，人体坐标系可以是躯干三角坐标系。图3示出了根据本公开的实施例的躯干三角坐标系。如图3所示，躯干三角包括左肩与右肩间连线的中点(7)、右腰(4)和左腰(5)。躯干三角坐标系的坐标原点O是右腰(4)与左腰(5)之间的连线的中点，横轴x沿着右腰(4)与左腰(5)之间的连线，纵轴y经过左肩与右肩间连线的中点(7)和原点O，并垂直于横轴x。不同人物的基于如图3所示的躯干三角坐标系的人体关键点数据以使得相应的躯干三角的坐标值相同的方式进行归一化。图3仅示意性地示出了躯干三角坐标系的一个示例。在本公开的其它实施例中，可构建其他形式的躯干三角坐标系。

在本公开的实施例中，参考人体关键点数据可通过第二姿态识别模型获取。具体地，提供参考图像。在实施例中，参考图像可以是照片。参考图像中的任意一个人物可作为参考人物。然后，利用第二姿态识别模型对该图像进行处理，以获得参考人物的参考人体关键点数据。

在本公开的实施例中，第二姿态识别模型是基于第二样本图像集训练的。第二样本图像集可以包括多个包含一个或多个人物的图像，例如，照片。该图像中的每个人物标注有人体关键点。第二姿态识别模型可通过对第二样本图像集进行姿态识别的深度学习来获得。

在本公开的实施例中，参考图像与第二样本图像集中的图像具有相同的类型，例如照片、画作等。因此，第二姿态识别模型可用来获取参考图像中参考人物的参考人体关键点数据，从而识别参考人物的姿态。在本公开的一些实施例中，第二姿态识别模型可基于自上而下的方法。在自上而下的方法中，可先确定人物，然后，获取属于该人物的人体关键点数据。采用自上而下的方法可以增加获取参考人体关键点数据的准确度。在本公开的另一些实施例中，第二姿态识别模型可基于自下而上的方法。与自上而下的方法相反，在自下而上的方法中，首先确定人体关键点数据，然后确定人体关键点数据所属的人物。采用自下而上的方法可以提高获取参考人体关键点数据的速度。

在框120中，基于所获取的参考人体关键点数据，在候选图像集中搜索包含与该参考人物的姿态相似的至少一个候选人物的至少一个目标图像。在本公开的实施例中，候选图像集可包括一个或多个包含人物的候选图像。候选图像可以是例如画作。在搜索中，可在一个或多个候选图像中搜索与参考人物姿态相似的候选人物，并将具有相似姿态的候选人物的候选图像确定为目标图像。在本公开的实施例中，可搜索到一个或多个具有相似姿态的候选人物，并且该一个或多个具有相似姿态的候选人物可包含在一个或多个候选图像中。

下面参照图4详细描述在候选图像集中搜索目标图像的过程。如图4所示，在框410，对于候选图像集中的至少一个候选图像，获取该候选图像中一个或多个候选人物的候选人体关键点数据。

在本公开的一些实施例中，可以基于候选图像的标识，向关键点数据库查询候选图像中一个或多个候选人物的候选人体关键点数据。在实施例中，候选图像的标识可用于识别候选图像，例如图像名称、唯一分配的图像标识符等。在关键点数据库中存储有候选图像的标识、候选人物的标识以及该候选人物的候选关键点数据之间的对应关系，例如，采用画作1-候选人物1-关键点0(x₀,y₀)、…、关键点17(x₁₇,y₁₇)的形式。关键数据库可以预先利用第一姿态识别模型来建立。在本公开的实施例中，利用第一姿态识别模型对候选图像集中的候选图像进行处理，从而获取候选图像中的每个候选人物的候选人体关键点数据。与第二姿态识别模型类似，第一姿态识别模型是基于第一样本图像集训练的。具体地，第一姿态识别模型可以通过对第一样本图像集进行姿态识别的深度学习来训练。第一样本图像集包括多个包含有一个或多个人物的图像，例如，画作、照片。该图像中的每个人物也标注有人体关键点。在本公开的实施例中，候选图像与第一样本图像集中的图像具有相同的类型。因此，第一姿态识别模型可以用来获取候选图像中候选人物的候选人体关键点数据，从而识别候选人物的姿态。第一姿态识别模型也可以采用自上而下或者自下而上的方法来获取人体关键点数据。在本公开的实施例中，第一样本图像集可以通过对第二样本图像集中的部分或全部图像进行风格迁移来获得。这种风格迁移的方法解决了第一样本图像集中图像数据少的问题，从而可以相对容易地训练出专用于特定类型的图像(例如，画作)的姿态识别模型。

在本公开的另一些实施例中，可以不预先生成关键点数据库，而是直接利用第一姿态识别模型来获取候选图像中一个或多个候选人物的候选人体的关键点数据。

在框420，对于候选图像中的一个或多个候选人物中的至少一个候选人物，基于参考人体关键点数据和该候选人物的候选人体关键点数据，确定该候选人物是否具有与参考人物相似的姿态。关于确定候选人物是否具有与参考人物相似的姿态将在下面参照图5进行描述。

图5示出了根据本公开的实施例的确定候选人物是否具有与参考人物相似的姿态的过程的示意性流程图。如图5所示，在框510，基于先前获取的参考人体关键点数据和候选人体关键点数据，计算候选人物与参考人物的姿态相似度。关于计算姿态相似度的过程将在下面参照图6进行描述。

图6示出了根据本公开的实施例的计算候选人物与参考人物的姿态相似度的过程的示意性流程图。如图6所示，在框610，根据参考人物的参考人体关键点数据和候选人物的候选人体关键点数据，利用公式(1)计算候选人物与参考人物之间的姿态距离L：

其中，K表示人体关键点的数量(例如，K＝18)，l_k表示候选人物与参考人物的人体关键点k之间的子姿态距离，其可根据公式(2)来计算：

其中，h表示参考人物的头部长度，d_k表示候选人物和参考人物的人体关键点k之间的距离，d_k可以根据公式(3)来计算：

其中，x_k和y_k表示候选图像中的候选人物的人体关键点k的坐标，x_0k和y_0k表示参考图像中的参考人物的人体关键点k的坐标。在框620，根据所计算的姿态距离，计算姿态相似度，以使得姿态距离越小，对应的姿态相似度越大。在本公开的实施例中，可以定义姿态相似度是姿态距离的反比例函数。

返回参考图5，判断姿态相似度是否大于预定阈值。如果相似度大于或等于预定阈值，则在框520，确定候选人物具有与参考人物相似的姿态。如果相似度小于预定阈值，则确定候选人物不具有与参考人物相似的姿态。此外，如果候选图像中还存在其它候选人物，则返回框510，继续针对其它候选人物计算姿态相似度。

返回参考图4，如果确定至少一个候选人物具有与参考人物相似的姿态，则在框430，确定对应的候选图像为目标图像。如果确定候选图像中没有候选人物具有与参考人物相似的姿态，则返回执行框410和框420，针对其它候选图像中确定对应的一个或多个候选人物是否具有与参考人物相似的姿态，并进而确定目标图像。

可选地，在本公开的实施例中，还可预先确定目标图像的数量。在实施例中，可将目标图像按照相应的姿态相似度的降序排列。如果目标图像包括多个与参考人物姿态相似的候选人物，则在排序时针对目标图像使用其中最大的姿态相似度。然后，将预定数量的具有高姿态相似度的目标图像确定为最终的目标图像。

进一步地，在确定了目标图像后，可提供所确定的目标图像，例如在显示器上呈现目标图像。

可替换地或附加地，在本公开的另一些实施例中，在确定了目标图像后，可将目标图像中的与参考人物姿态相似的候选人物替换成参考人物，以生成新图像，并提供该新图像。图7示出了根据本公开的实施例的将目标图像中的候选人物替换为参考人物的示意图，其中，照片710中的参考人物a与画作720中的候选人物b具有相似的姿态。如图7所示，通过语义分割的方法从照片710中分离参考人物a，然后，通过风格迁移的方法用参考人物a替代画作720中的候选人物b，以生成新的画作730。尽管在图7中仅示出了参考人物a的姿态与候选人物b的全身姿态相似，并用参考人物a完全替换候选人物b的示例，但应理解，也可以是参考人物a的姿态与候选人物b的部分身体姿态相似，在这种情况下，用参考人物a替换候选人物b的与参考人物a的姿态相似的部分身体。

图8是根据本公开的实施例的用于执行搜索图像的装置800的示意性框图。在本实施例中，装置800能够实现前面参照图1至图7描述的用于搜索图像的方法。

如图8所示，装置800可包括处理器801和存储器802。存储器802与处理器801耦接，并存储计算机指令。当处理器801执行所存储的计算机程序指令时，装置800可被配置为执行如在前面参照图1至图7所描述的方法以搜索图像。此外，装置800还可以包括输入/输出设备803，其通过总线与处理器801和存储器802耦接。

在本公开的实施例中，处理器801可以是例如中央处理单元CPU、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器802可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。输入/输出设备803可以是例如麦克风、键盘、鼠标、显示器、扬声器等。

以上已经对本公开的若干实施例进行了详细描述，但这些实施例仅是示例性的，而并不旨在限制本公开的范围。事实上，本文所描述的实施例也可以以各种其它形式来实现。此外，在不脱离本公开的精神下，可以对本文所描述的实施例进行各种省略、替代和改变。所附权利要求以及它们的等同旨在覆盖落在本公开范围和精神内的此类形式或者修改。

Claims

1.一种用于搜索图像的方法，包括：

利用第二姿态识别模型，获取参考图像中参考人物的参考人体关键点数据；

对于候选图像集中的至少一个候选图像，利用第一姿态识别模型获取所述候选图像中一个或多个候选人物的候选人体关键点数据；

对于所述一个或多个候选人物中的至少一个，基于所述参考人体关键点数据和所述候选人体关键点数据，计算所述候选人物与所述参考人物之间的姿态相似度；

响应于所述姿态相似度大于预定阈值，确定所述候选人物具有与所述参考人物相似的姿态；

响应于所述候选人物具有与所述参考人物相似的姿态，确定对应的所述候选图像为目标图像；

其中，所述第一姿态识别模型是基于第一样本图像集训练得到的，并且所述第二姿态识别模型是基于第二样本图像集训练的；以及

其中，所述第一样本图像集是通过将所述第二样本图像集中的部分或全部图像从照片风格转换为画作风格来获得的。

2.根据权利要求1所述的方法，其中，计算所述候选人物与所述参考人物的姿态相似度包括：

根据如下公式计算所述候选人物与所述参考人物之间的姿态距离L：

其中，K表示候选人物的人体关键点的数量，x_k和y_k表示所述候选图像中的候选人物的人体关键点k的坐标，0≤k≤K-1，x_0k和y_0k表示所述参考图像中的参考人物的人体关键点k的坐标，h表示所述参考人物的头部长度，d_k表示所述候选人物与所述参考人物的人体关键点k之间的距离，l_k表示所述候选人物与所述参考人物的人体关键点k之间的子姿态距离；以及

根据所述姿态距离，计算所述姿态相似度，其中，所述姿态距离越小，所述姿态相似度越大。

3.根据权利要求2所述的方法，所述参考人体关键点数据和所述候选人体关键点数据是基于同一人体坐标系得到的。

4.根据权利要求3所述的方法，其中，所述人体坐标系是躯干三角坐标系，其中，所述躯干三角坐标系的原点是指示右腰的人体关键点与指示左腰的人体关键点之间的连线的中点，横轴沿着所述连线的方向，纵轴经过指示左肩的人体关键点与指示右肩的人体关键点之间的连线的中点且与横轴垂直。

5.根据权利要求1至4中任意一项所述的方法，还包括：

将所述至少一个目标图像中的所述至少一个候选人物替换成所述参考人物，以生成新图像；以及

提供所述新图像。

6.一种用于搜索图像的装置，包括：

一个或多个处理器；以及

存储器，其与所述处理器耦接，并存储有计算机程序指令，其中，所述计算机程序指令在被所述处理器执行时使得所述装置执行根据权利要求1至5中任意一项所述的方法。

7.一种计算机可读存储介质，在其上存储有计算机程序指令，其中所述计算机程序指令在由计算机执行时使得所述计算机执行根据权利要求1至5中任意一项所述的方法。