CN114266921A

CN114266921A - 图像描述信息获取方法、装置、服务器及存储介质

Info

Publication number: CN114266921A
Application number: CN202111566951.1A
Authority: CN
Inventors: 杨文杰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-01

Abstract

本公开关于一种图像描述信息获取方法、装置、服务器及存储介质。所述方法包括：获取多个待识别图像，以及针对于各待识别图像的对象描述信息；根据各待识别图像的对象描述信息，确定各待识别图像中的目标对象图像；对各待识别图像中的目标对象图像进行对象分类，得到各待识别图像所属的目标对象分类集合；根据各待识别图像所属的目标对象分类集合的集合描述信息，确定各待识别图像的图像描述信息。相比于相关技术中需要人工自定义类别体系，之后再对分类类别进行命名的方式，本公开不需要人工自定义类别体系，因此可以提高确定出的图像名称的精确度。

Description

图像描述信息获取方法、装置、服务器及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像描述信息获取方法、装置、服务器及存储介质。

背景技术

随着图像处理技术的发展，出现了一种对图片中拍摄的物品进行分类的技术，通过人工预先定义物品的分级类目，对图像中的物品进行识别后，则可以按照上述分级类目对图像中拍摄物品进行分类处理，从而得到图像中的物品分类信息，作为用于描述该图像的图像名称。

相关技术中，对图像中的物品分类需要人工自定义类别体系，之后再对分类类别进行命名，再得到图像的图像名称，然而人工自定义类别体系的力度较为粗糙，图像中物品分类的准确性较低，因此确定出的图像名称的精确度较低。

发明内容

本公开提供一种图像描述信息获取方法、装置、服务器及存储介质，以至少解决相关技术中确定出的图像名称的精确度较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像描述信息获取方法，包括：

获取多个待识别图像，以及针对于各待识别图像的对象描述信息；

根据所述各待识别图像的对象描述信息，确定所述各待识别图像中的目标对象图像；

对所述各待识别图像中的目标对象图像进行对象分类，得到所述各待识别图像所属的目标对象分类集合；

根据所述各待识别图像所属的目标对象分类集合的集合描述信息，确定所述各待识别图像的图像描述信息。

在一示例性实施例中，所述根据所述各待识别图像的对象描述信息，确定所述各待识别图像中的目标对象图像，包括：确定当前待识别图像，获取所述当前待识别图像包含的待识别对象图像；从所述待识别对象图像中获取与所述对象描述信息匹配的待识别对象图像，作为所述目标对象图像。

在一示例性实施例中，所述对象描述信息包括文本信息；所述从所述待识别对象图像中获取与所述对象描述信息匹配的待识别对象图像，作为所述目标对象图像，包括：将所述待识别对象图像以及所述对象描述信息输入预先训练的图文匹配模型，通过所述图文匹配模型获取所述对象描述信息对应的文本特征，以及所述待识别对象图像对应的图像特征；获取所述文本特征与所述图像特征之间的特征距离；根据所述特征距离从所述待识别对象图像中获取目标对象图像。

在一示例性实施例中，所述对所述各待识别图像中的目标对象图像进行对象分类，得到所述各待识别图像所属的目标对象分类集合，包括：将所述各待识别图像中的目标对象图像输入预先训练的对象分类模型，通过所述对象分类模型获取所述目标对象图像的对象分类特征；按照所述对象分类特征对所述各待识别图像中的目标对象图像进行图像聚类处理，得到所述各待识别图像所属的目标对象分类集合。

在一示例性实施例中，所述按照所述细粒度特征对所述各待识别图像中的目标对象图像进行图像聚类处理，包括：根据所述对象分类特征，获取所述各待识别图像中的目标对象图像之间的特征相似度；按照所述特征相似度对所述各待识别图像中的目标对象图像进行图像聚类处理。

在一示例性实施例中，所述根据所述各待识别图像所属的目标对象分类集合的集合描述信息，确定所述各待识别图像的图像描述信息之前，还包括：获取预先设定的用于生成集合描述信息的信息属性，以及所述集合描述信息对应的各信息属性的组合关系；从针对于所述目标对象分类集合包含的各待识别图像的对象描述信息中，获取与所述信息属性相匹配的目标描述信息；按照所述组合关系，对所述目标描述信息进行组合，得到所述集合描述信息。

在一示例性实施例中，所述对象描述信息包括文本信息；所述信息属性包括：所述目标对象的实体对象名称属性、所述目标对象的对象品牌属性，以及所述目标对象的对象类别属性中的至少一种；在所述信息属性包括所述目标对象的实体对象名称属性、所述目标对象的对象品牌属性，以及所述目标对象的对象类别属性的情况下，所述从针对于所述目标对象分类集合包含的各待识别图像的对象描述信息中，获取与所述信息属性相匹配的目标描述信息，包括：将所述目标对象分类集合包含的各待识别图像的对象描述信息输入预先训练的命名实体识别模型，通过所述命名实体识别模型输出得到与所述实体对象名称属性匹配的第一目标描述信息、与所述对象品牌属性匹配的第二目标描述信息，以及与所述对象类别属性匹配的第三目标描述信息。

根据本公开实施例的第二方面，提供一种图像描述信息获取装置，包括：

识别图像获取单元，被配置为执行获取多个待识别图像，以及针对于各待识别图像的对象描述信息；

目标对象确定单元，被配置为执行根据所述各待识别图像的对象描述信息，确定所述各待识别图像中的目标对象图像；

目标对象分类单元，被配置为执行对所述各待识别图像中的目标对象图像进行对象分类，得到所述各待识别图像所属的目标对象分类集合；

图像描述确定单元，被配置为执行根据所述各待识别图像所属的目标对象分类集合的集合描述信息，确定所述各待识别图像的图像描述信息。

在一示例性实施例中，所述目标对象确定单元，进一步被配置为执行确定当前待识别图像，获取所述当前待识别图像包含的待识别对象图像；从所述待识别对象图像中获取与所述对象描述信息匹配的待识别对象图像，作为所述目标对象图像。

在一示例性实施例中，所述对象描述信息包括文本信息；所述目标对象确定单元，进一步被配置为执行将所述待识别对象图像以及所述对象描述信息输入预先训练的图文匹配模型，通过所述图文匹配模型获取所述对象描述信息对应的文本特征，以及所述待识别对象图像对应的图像特征；获取所述文本特征与所述图像特征之间的特征距离；根据所述特征距离从所述待识别对象图像中获取目标对象图像。

在一示例性实施例中，所述目标对象分类单元，进一步被配置为执行将所述各待识别图像中的目标对象图像输入预先训练的对象分类模型，通过所述对象分类模型获取所述目标对象图像的对象分类特征；按照所述对象分类特征对所述各待识别图像中的目标对象图像进行图像聚类处理，得到所述各待识别图像所属的目标对象分类集合。

在一示例性实施例中，所述目标对象分类单元，进一步被配置为执行根据所述对象分类特征，获取所述各待识别图像中的目标对象图像之间的特征相似度；按照所述特征相似度对所述各待识别图像中的目标对象图像进行图像聚类处理。

在一示例性实施例中，所述图像描述确定单元，还被配置为执行获取预先设定的用于生成集合描述信息的信息属性，以及所述集合描述信息对应的各信息属性的组合关系；从针对于所述目标对象分类集合包含的各待识别图像的对象描述信息中，获取与所述信息属性相匹配的目标描述信息；按照所述组合关系，对所述目标描述信息进行组合，得到所述集合描述信息。

在一示例性实施例中，所述对象描述信息包括文本信息；所述信息属性包括：所述目标对象的实体对象名称属性、所述目标对象的对象品牌属性，以及所述目标对象的对象类别属性中的至少一种；在所述信息属性包括所述目标对象的实体对象名称属性、所述目标对象的对象品牌属性，以及所述目标对象的对象类别属性的情况下，所述图像描述确定单元，还被配置为执行将所述目标对象分类集合包含的各待识别图像的对象描述信息输入预先训练的命名实体识别模型，通过所述命名实体识别模型输出得到与所述实体对象名称属性匹配的第一目标描述信息、与所述对象品牌属性匹配的第二目标描述信息，以及与所述对象类别属性匹配的第三目标描述信息。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面中任一项实施例所述的图像描述信息获取方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如第一方面中任一项实施例所述的图像描述信息获取方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被服务器的处理器执行时，使得所述服务器能够执行如第一方面中任一项实施例所述的图像描述信息获取方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取多个待识别图像，以及针对于各待识别图像的对象描述信息；根据各待识别图像的对象描述信息，确定各待识别图像中的目标对象图像；对各待识别图像中的目标对象图像进行对象分类，得到各待识别图像所属的目标对象分类集合；根据各待识别图像所属的目标对象分类集合的集合描述信息，确定各待识别图像的图像描述信息。本公开通过待识别图像的对象描述信息，从各待识别图像中确定出目标对象图像后，对目标对象图像进行分类，形成目标对象分类集合，并将目标对象分类集合的集合描述信息作为待识别图像的目标对象描述信息，相比于相关技术中需要人工自定义类别体系，之后再对分类类别进行命名的方式，本公开不需要人工自定义类别体系，因此可以提高确定出的图像名称的精确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像描述信息获取方法的流程图。

图2是根据一示例性实施例示出的确定各待识别图像中的目标对象图像的流程图。

图3是根据另一示例性实施例示出的确定各待识别图像中的目标对象图像的流程图。

图4是根据一示例性实施例示出的得到各待识别图像中目标对象分类集合的流程图。

图5是根据一示例性实施例示出的获取集合描述信息的流程图。

图6是根据一示例性实施例示出的商品集合构造算法的框架图。

图7是根据一示例性实施例示出的一种图像描述信息获取装置的框图。

图8是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种图像描述信息获取方法的流程图，如图1所示，图像识别方法用于服务器中，包括以下步骤。

在步骤S101中，获取多个待识别图像，以及针对于各待识别图像的对象描述信息。

其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，待识别图像指的是需要进行图像描述信息识别的图像，该图像中可以拍摄有需要识别的对象，即目标对象，而对象描述信息则指的是用于描述需要识别的目标对象的信息，例如可以是描述目标对象的文字信息，或者描述目标对象的语音信息等等。本实施例中，服务器可以采集需要进行图像描述信息识别的多个图像作为待识别图像，并且将用于描述各个待识别图像中的目标对象的信息作为对应的对象描述信息。

例如，待识别图像可以指的是拍摄有需要识别的商品对象的商品图像，而对象描述信息则是用于描述商品对象的描述信息，可以是商品图像所对应的商品标题，服务器可以预先采集拍摄有需要识别的商品对象的商品图像，以及各商品图像对应的商品标题，分别作为多个待识别图像，以及针对于各待识别图像的对象描述信息。

在步骤S102中，根据各待识别图像的对象描述信息，确定各待识别图像中的目标对象图像。

而目标对象图像则指的是待识别图像中拍摄有目标对象区域所对应的图像，待识别图像中可以拍摄有不止一个对象，而目标对象图像则指的是待识别图像中拍摄有目标对象区域的图像，例如作为待识别图像的商品图像中，可以拍摄有帽子，衣服以及裙子等等，而该商品的商品图像所对应的商品标题，如果是用于描述帽子，那么服务器则可以将商品图像中的帽子，作为需要识别的商品，即目标对象，而商品图像中帽子区域所对应的图像则可以作为目标对象图像。本实施例中，服务器可以根据各待识别图像的对象描述信息，确定每一个待识别图像中对象描述信息所描述的目标对象，并将该目标对象所对应的图像区域作为目标对象图像。

在步骤S103中，对各待识别图像中的目标对象图像进行对象分类，得到各待识别图像所属的目标对象分类集合。

目标对象分类集合则指的是对目标对象进行分类后，目标对象图像所属的分类集合，即每一个目标对象分类集合中都可以携带有相同分类的目标对象图像。具体来说，在步骤S102得到每一个待识别图像中的目标对象图像后，还可以通过对目标对象图像中包含的目标对象进行分类的方式，例如可以是通过分类模型或者分类算法等实现对象分类过程，从而可以得到多个分类集合，之后还可以将各个目标对象图像所属的分类集合，作为目标对象分类集合，从而服务器可以得到每一个各待识别图像对应的目标对象分类集合。

在步骤S104中，根据各待识别图像所属的目标对象分类集合的集合描述信息，确定各待识别图像的图像描述信息。

集合描述信息则是用于描述目标对象分类集合的信息，例如可以是目标对象分类集合的集合名称，而图像描述信息则指的是用于描述每一个待识别图像的描述信息，可以是每一个待识别图像中的图像名称。具体地，在步骤S103服务器确定每一个各待识别图像对应的目标对象分类集合后，还可以获取各个目标对象分类集合所对应的集合名称，作为目标对象分类集合的集合描述信息，之后，还可以将上述集合描述信息作为目标对象分类集合中包含的待识别图像所对应的图像描述信息。

例如，目标对象分类集合可以是某一个可以是某一个商品集合，该商品集合中可以包含有拍摄有相同类型商品的多个商品图像，服务器可以获取该商品集合所对应的集合名称，并且将上述集合名称作为上述相同类型商品的统一商品名称，从而得到各个商品图像所对应的商品图像名称，即各个待识别图像所对应的图像描述信息。

上述图像描述信息获取方法中，通过获取多个待识别图像，以及针对于各待识别图像的对象描述信息；根据各待识别图像的对象描述信息，确定各待识别图像中的目标对象图像；对各待识别图像中的目标对象图像进行对象分类，得到各待识别图像所属的目标对象分类集合；根据各待识别图像所属的目标对象分类集合的集合描述信息，确定各待识别图像的图像描述信息。本公开通过待识别图像的对象描述信息，从各待识别图像中确定出目标对象图像后，对目标对象图像进行分类，形成目标对象分类集合，并将目标对象分类集合的集合描述信息作为待识别图像的目标对象描述信息，相比于相关技术中需要人工自定义类别体系，之后再对分类类别进行命名的方式，本公开不需要人工自定义类别体系，因此可以提高确定出的图像名称的精确度。

在一示例性实施例中，如图2所示，步骤S102可以进一步包括：

在步骤S201中，确定当前待识别图像，获取当前待识别图像包含的待识别对象图像。

当前待识别图像指的是服务器得到的多个待识别图像中的任意一个，而待识别对象图像则指的是当前待识别图像中包含的所有拍摄对象所对应的区域图像，例如某一个当前待识别图像中可以帽子，衣服以及裙子，服务器则可以分别得到该当前待识别图像的帽子区域图像、衣服区域图像，以及裙子区域图像，作为该当前待识别图像包含的待识别对象图像。本实施例中，在服务器得到多个待识别图像后，则可以将上述多个待识别图像分别作为当前待识别图像，并且获取每一个当前待识别图像包含的所有拍摄对象所对应的区域图像，作为每一个当前待识别图像包含的待识别对象图像。

例如，服务器可以是将采集得到的多个当前待识别图像输入至预先训练的对象检测模型，可以是用于目标检测的RetinaNet模型，该模型可以采用金字塔结构检测图像中不同尺度的物体，筛选出每一个当前待识别图像包含的不同对象区域，进而得到当前待识别图像中包含的各个待识别对象图像。

在步骤S202中，从待识别对象图像中获取与对象描述信息匹配的待识别对象图像，作为目标对象图像。

在步骤S201中得到当前待识别图像包含的所有待识别对象图像之后，服务器还可以进一步的根据当前待识别图像对应的对象描述信息，从上述待识别对象图像中筛选出与对象描述信息相匹配的待识别对象图像，作为每一个当前待识别图像对应的目标对象图像。

本实施例中，可以通过先检测待识别图像包含的待识别对象图像，再从中筛选出与对象描述信息匹配的待识别对象图像，作为最终的目标对象图像，可以保证待识别对象图像获取的完整性，以提高目标对象图像确定的准确性。

进一步地，如图3所示，对象描述信息包括文本信息；步骤S202可以进一步包括：

在步骤S301中，将待识别对象图像以及对象描述信息输入预先训练的图文匹配模型，通过图文匹配模型获取对象描述信息对应的文本特征，以及待识别对象图像对应的图像特征。

本实施例中，对象描述信息可以是用文本对目标对象进行描述的信息，例如可以是用于描述目标对象的一段文字信息，图文匹配模型则指的是预先训练的用于对图像按照文字信息进行分类匹配的模型，例如可以是中文裁剪，即CLIP模型，该模型可以通过提取文本信息的文本特征，以及图像的图像特征，从而筛选出与文本信息向匹配的图像。具体来说，在步骤S201服务器得到当前待识别图像包含的所有待识别对象图像，以及当前待识别图像对应的对象描述信息后，则可以将上述待识别对象图像以及对象描述信息输入至预先训练完成的图文匹配模型中，由图文匹配模型提取上述待识别对象图像对应的图像特征，以及对象描述信息对应的文本特征。

在步骤S302中，获取文本特征与图像特征之间的特征距离；

在步骤S303中，根据特征距离从待识别对象图像中获取目标对象图像。

特征距离则指的是文本特征与图像特征之间的距离，本实施例中，训练完成的图文匹配模型可以实现拉近待识别对象图像中目标对象图像与对象描述信息之间的特征距离，而拉远待识别对象图像中除目标对象图像以外的其他对象图像与对象描述信息之间的特征距离，因此，在步骤S301中通过图文匹配模型得到文本特征与图像特征之后，图文匹配模型还可以进一步地获取对象描述信息对应的文本特征，与各待识别对象图像的图像特征之间的特征距离，并根据特征距离从上述各待识别对象图像中筛选出相应的目标对象图像，例如可以是将特征距离最小的待识别对象图像，作为目标对象图像。

本实施例中，在得到待识别对象图像后，还可以利用训练完成的图文匹配模型，得到各个待识别对象图像的图像特征，以及对象描述信息对应的文字特征，从而根据特征之间的距离，确定出待识别对象图像中的目标对象图像，可以提高目标对象图像识别的准确性。

在一示例性实施例中，如图4所示，步骤S103可以进一步包括：

步骤S401，将各待识别图像中的目标对象图像输入预先训练的对象分类模型，通过对象分类模型获取目标对象图像的对象分类特征。

对象分类特征指的是用于实现对象分类所需要的图像特征表达，可以是图像的细粒度特征，对象分类模型则指的是预先训练的，用于对目标对象图像对应的目标对象进行分类的神经网络模型，该模型可以对不同类型的目标对象进行分类。本实施例中，服务器可以将得到的目标对象图像输入至预先训练完成的对象分类模型中，由对象分类模型提取出各个目标对象图像的细粒度特征，作为对象分类特征，该对象分类模型可以是某一个细粒度检索模型，该模型可以采用构造的分类损失以及排序损失来实现卷积神经网络模型的训练，分类损失可以用于对每一个训练用的样本图像进行单独的细粒度分类，实现模型的快速收敛，而排序损失则是通过拉近属于相同对象的样本图像之间的距离，并且拉远属于不同对象的样本图像之间的距离，来强化细粒度检索模型的细粒度特征提取能力。具体来说，服务器在得到每一个待识别图像对应的目标对象图像后，则可以将各个目标对象图像输入至训练完成的对象分类模型中，由对象分类模型提取各个目标对象图像的对象分类特征。

在步骤S402中，按照对象分类特征对各待识别图像中的目标对象图像进行图像聚类处理，得到各待识别图像所属的目标对象分类集合。

之后，服务器则可以按照细粒度特征实现目标对象图像的图像聚类处理，可以是将细粒度特征相同的目标对象图像进行聚类，例如可以通过一种基于密度的聚类算法，可以是DBSCAN聚类算法，将相同对象分类特征的目标对象图像进行聚类，并生成多个目标对象分类集合，以及各个待识别图像中包含的目标对象图像所属的目标对象分类集合。

本实施例中，服务器得到各个待识别图像中的目标对象图像后，则可以将目标对象图像输入至预先训练的对象分类模型，通过该模型挖掘各个目标对象图像的对象分类特征，并且可以利用对象分类特征实现目标对象图像的图像聚类，从而可以提高图像聚类的精度，得到更准确的目标对象分类集合。

进一步地，步骤S402可以进一步包括：根据对象分类特征，获取各待识别图像中的目标对象图像之间的特征相似度；按照特征相似度对各待识别图像中的目标对象图像进行图像聚类处理。

特征相似度指的是目标对象图像所对应的对象分类特征之间的相似度，例如可以通过对象分类特征之间的特征距离表示，本实施例中，在服务器通过对象分类模型得到提取出各个目标对象图像的对象分类特征后，则可以分别计算对象分类特征之间的特征相似度，并且通过特征相似度实现目标对象图像的聚类，例如可以是将特征相似度大于某一个相似度阈值的两个目标对象图像进行聚类，从而形成目标对象分类集合。

本实施例中，服务器确定出每一个目标对象图像的对象分类特征后，则可以分别确定出各个对象分类特征之间的特征相似度，并且基于上述特征相似度，对目标对象图像进行图像聚类处理，从而可以使得聚类的目标对象图像具备相似的对象分类特征，进一步提高目标对象图像聚类的精度。

在一示例性实施例中，如图5所示，在步骤S204之前，还可以包括：

步骤S501，获取预先设定的用于生成集合描述信息的信息属性，以及集合描述信息对应的各信息属性的组合关系。

集合描述信息指的是用于描述目标对象分类集合的信息，可以指的是目标对象分类集合的集合名称，而信息属性指的是生成集合描述信息所需要信息所对应的信息属性，而各信息属性的组合关系则指的是上述各信息属性之间的组合关系。本实施例中，服务器可以预先为生成的集合描述信息设置生成该集合描述信息所需信息的信息属性，以及上述信息属性之间的组合关系。

步骤S502，从针对于目标对象分类集合包含的各待识别图像的对象描述信息中，获取与信息属性相匹配的目标描述信息。

目标描述信息则指的是目标对象分类集合包含的各待识别图像的对象描述信息中，与上述设定的信息属性相匹配的描述信息，本实施例中，生成的集合描述信息可以由目标对象分类集合中包含的各个待识别图像所对应的对象描述信息组成，由于对象描述信息中一般携带有用于描述目标对象的不同信息属性的描述信息，服务器可以从上述描述信息中，筛选出用于形成集合描述信息的信息属性相匹配的描述信息，作为目标描述信息。

例如，目标对象分类集合中包含有待识别图像A、待识别图像B以及待识别图像C，且上述待识别图像分别对应有对象描述信息A、对象描述信息B以及对象描述信息C，那么服务器则可以从上述对象描述信息A、对象描述信息B以及对象描述信息C中，其中对象描述信息A包含信息属性A以及信息属性B的描述信息、对象描述信息B包含信息属性A以及信息属性C的描述信息，而对象描述信息C包括信息属性B和信息属性D的描述信息，那么假如确定出的用于生成集合描述信息的信息属性为信息属性A、信息属性C以及信息属性D，那么则可以从上述对象描述信息中分别筛选出与该信息属性相匹配的描述信息，作为目标描述信息。

在步骤S503，按照组合关系，对目标描述信息进行组合，得到集合描述信息。

最后，服务器在确定出不同属性的目标描述信息后，则可以按照预先设定的组合关系，例如可以是多个信息属性的先后顺序，来对步骤S502中得到的目标描述信息进行组合，从而生成相应的集合描述信息。

例如设置的组合关系为信息属性C-信息属性A-信息属性D的组合关系，那么服务器在确定出与上述信息属性相匹配的目标描述信息后，则可以按照上述组合关系中各信息属性的排序，对目标描述信息进行组合，从而得到相应的集合描述信息。

本实施例中，还可以通过预先设定的信息属性，以及各信息属性之间的组合关系，从目标对象分类集合包含的各待识别图像的对象描述信息中，筛选出信息属性相匹配的目标描述信息，并且按照上述组合关系对目标描述信息进行组合，可以使得得到的集合描述信息具有统一的表达形式，实现了对集合描述信息的标准化处理。

进一步地，对象描述信息包括文本信息；信息属性包括：目标对象的实体对象名称属性、目标对象的对象品牌属性，以及目标对象的对象类别属性中的至少一种；在信息属性包括目标对象的实体对象名称属性、目标对象的对象品牌属性，以及目标对象的对象类别属性的情况下，步骤S502可以进一步包括：将目标对象分类集合包含的各待识别图像的对象描述信息输入预先训练的命名实体识别模型，通过命名实体识别模型输出得到与实体对象名称属性匹配的第一目标描述信息、与对象品牌属性匹配的第二目标描述信息，以及与对象类别属性匹配的第三目标描述信息。

本实施例中，对象描述信息可以是文本信息，目标对象分类集合则是由相同类型商品所组成的商品集合，生成的针对于商品集合的集合描述信息，即形成的商品集合的集合名称，该集合名称可以由商品的实体对象名称、商品的品牌名称，以及商品的类别属性所组成，因此则可以将商品的实体对象名称属性、商品的对象品牌属性，以及商品的对象类别属性，作为用于生成集合描述信息的信息属性。

同时，命名实体识别模型则是用于识别描述信息中所对应的信息属性以及信息属性对应的描述信息，该命名实体识别模型可以通过基于语言表征的命名实体识别模型，即基于Bert的NER模型实现。具体地，如果在信息属性包括目标对象的实体对象名称属性、目标对象的对象品牌属性，以及目标对象的对象类别属性，服务器可以通过将目标对象分类集合包含的各待识别图像的对象描述信息输入上述命名实体识别模型，则可以通过该命名实体识别模型分别输出针对于目标对象分类集合的与实体对象名称属性匹配的描述信息，即第一目标描述信息、与对象品牌属性匹配的描述信息，即第二目标描述信息，以及与对象类别属性匹配的描述信息，即第三目标描述信息。

本实施例中，可以通过预先训练的命名实体识别模型，识别与实体对象名称属性匹配的第一目标描述信息、与对象品牌属性匹配的第二目标描述信息，以及与对象类别属性匹配的第三目标描述信息，从而可以根据上述第一目标描述信息、第二目标描述信息以及第三目标描述信息生成集合描述信息，从而可以得到标准化的用于商品集合的集合描述信息，进一步提高商品集合名称的标准性。

在一示例性实施例中，还提供了一种基于多模态理解的商品集合构建方法，该方法主要包括三个部分(1)意图商品检测和识别；2)同款商品聚合成商品集合；3)商品集合自动命名，包含品牌识别、关键属性识别、实体名识别。在意图商品检测和识别中，需要对主图中的所有商品进行检测，将检测框和商品标题进行跨模态匹配得到意图商品并入库，而非意图商品则作为噪声去除掉；由于不同的商家会卖同一款商品，因此需要将意图商品进行细粒度同款检索，将所有同款的商品聚合成一个商品集合，作为商品统一化的信息表达；同时，不同的商家在上架商品时候有风格多样的命名，而且为了增加商品被检索系统命中的概率，商家会有意识的拓展标题的长度，甚至增加一些无关的形容词或者名词，因此还需要对商品集合进行自动精准命名，通过图文挖掘其品牌名、关键属性、实体名，得到商品集合真实的、标准的命名。上述商品集合构建方法主要包含三个核心技术模块，这里面涉及到物体检测算法，跨模态匹配算法，细粒度同款检索算法，实体命名识别算法等。

如图6所示，该方法主要包含了三个核心模块：

意图商品检测。利用RetinaNet检测模型检测商品主图中的所有商品，然后训练CLIP模型提取商品标题和商品检测框的同空间特征表达，并通过标题和商品特征的匹配程度来判定意图商品。

同款商品聚合。训练细粒度同款检索CNN模型来提取意图商品的更加精细的特征表达，并通过特征聚类的方式来将同款商品聚合成一个商品集合。

商品集合命名入库。我们对商品集合的所有标题进行NER实体解析，得到品牌名+关键属性名+实体名，并将其组合作为商品集合中包含商品的标准化命名。

(1)意图商品检测：

意图商品检测的第一步是获取所有商品的检测框，本实施例采用RetinaNet模型来进行商品检测。RetinaNet采用金字塔结构来更好的检测主图中不同尺度的物体，并提出Focal Loss来平衡检测问题中的正负样本不均衡和难易样本不均衡等问题。RetinaNet模型能够很好的检测到主图中的所有商品，如鞋子、箱包、美妆、服装、家电、玩具、图书、食品、珠宝、家具等。但是一个商品主图只卖一个商品，所以需要将主图中检测到的所有商品进行去噪，只保留意图商品。

意图商品检测的第二步是图文跨模态匹配得到意图商品框。通过训练中文CLIP模型来获得商品标题和主图商品框的同空间特征表达。比如某一个标题是百褶裙夏高腰短裙XX学院风黑色大码半身裙灰色，主图检测到的商品有鞋子框、裙子框、上衣框，CLIP模型的核心思想是拉近标题和裙子框之间的特征距离，拉远标题和其他商品框之间的特征距离，采用对比学习来达到这一目的。

(2)同款商品聚合：

同款商品聚合的目的是将不同商家卖的同一款商品进行聚合得到一个商品集合。同款商品聚合需要区分细粒度的商品，比如不同款式的服装，通过提出细粒度检索模型来挖掘商品框的精细特征表达能力，通过采用分类损失和排序损失来综合监督CNN网络的训练。分类损失主要是对于每一个商品进行单独的细粒度分类，有利于模型的快速收敛；排序损失采用三元组损失函数来拉进同款商品之间的距离，拉远不同款商品之间的距离，有利于进一步提升CNN网络的挖掘能力。

优化好同款检索模型后，我们可以获得商品意图商品框的特征表达，然后基于该特征表达，采用基于密度的聚类算法，DBSCAN来进行同款聚类，该聚类算法可以很方便的将同款商品聚合成一个类簇，同时相比常用的Kmeans聚类算法，DBSCAN不需要人工指定聚类的数目，同时可以很好的容忍噪声样本。

并且为了进一步优化聚合效果，可以迭代的进行上述两个步骤，聚类之后得到商品集合的标签，利用商品集合标签来优化检索模型，从而优化新的聚类效果，指导聚类类簇基本收敛，即得到最终的商品集合粒度的商品信息。

(3)NER解析品牌属性和实体名

得到商品集合粒度的商品信息之后，需要采用命名实体识别，即NER解析来得到统一的标准的商品集合的命名，采用品牌名+关键属名+实体名作为商品集合的命名。比如，针对百褶裙夏高腰短裙XX风黑色大码半身裙灰色品牌A，入库的商品集合名为：品牌A[半身裙]百褶裙，其中，品牌A是品牌，半身裙是关键属性，这里设置为可选项，百褶裙为实体名。为了达到这个目的，通过训练基于Bert的NER模型，来同时识别品牌名，关键属性名，实体名。

通过上述实施例，可以避免商品集合类别体系的构建的人工定义，从而避免类目体系粒度的粗糙性，并且集合命名不依赖人工定义，同时生成的商品集合相比人工定义的三级类目体系能够描述更加精确的商品信息。

应该理解的是，虽然图1-图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图7是根据一示例性实施例示出的一种图像识别装置框图。参照图7，该装置包括识别图像获取单元701，目标对象确定单元702，目标对象分类单元703和图像描述确定单元704。

识别图像获取单元701，被配置为执行获取多个待识别图像，以及针对于各待识别图像的对象描述信息；

目标对象确定单元702，被配置为执行根据各待识别图像的对象描述信息，确定各待识别图像中的目标对象图像；

目标对象分类单元703，被配置为执行对各待识别图像中的目标对象图像进行对象分类，得到各待识别图像所属的目标对象分类集合；

图像描述确定单元704，被配置为执行根据各待识别图像所属的目标对象分类集合的集合描述信息，确定各待识别图像的图像描述信息。

在一示例性实施例中，目标对象确定单元702，进一步被配置为执行确定当前待识别图像，获取当前待识别图像包含的待识别对象图像；从待识别对象图像中获取与对象描述信息匹配的待识别对象图像，作为目标对象图像。

在一示例性实施例中，对象描述信息包括文本信息；目标对象确定单元702，进一步被配置为执行将待识别对象图像以及对象描述信息输入预先训练的图文匹配模型，通过图文匹配模型获取对象描述信息对应的文本特征，以及待识别对象图像对应的图像特征；获取文本特征与图像特征之间的特征距离；根据特征距离从待识别对象图像中获取目标对象图像。

在一示例性实施例中，目标对象分类单元703，进一步被配置为执行将各待识别图像中的目标对象图像输入预先训练的对象分类模型，通过对象分类模型获取目标对象图像的对象分类特征；按照对象分类特征对各待识别图像中的目标对象图像进行图像聚类处理，得到各待识别图像所属的目标对象分类集合。

在一示例性实施例中，目标对象分类单元703，进一步被配置为执行根据对象分类特征，获取各待识别图像中的目标对象图像之间的特征相似度；按照特征相似度对各待识别图像中的目标对象图像进行图像聚类处理。

在一示例性实施例中，图像描述确定单元704，还被配置为执行获取预先设定的用于生成集合描述信息的信息属性，以及集合描述信息对应的各信息属性的组合关系；从针对于目标对象分类集合包含的各待识别图像的对象描述信息中，获取与信息属性相匹配的目标描述信息；按照组合关系，对目标描述信息进行组合，得到集合描述信息。

在一示例性实施例中，对象描述信息包括文本信息；信息属性包括：目标对象的实体对象名称属性、目标对象的对象品牌属性，以及目标对象的对象类别属性中的至少一种；在信息属性包括目标对象的实体对象名称属性、目标对象的对象品牌属性，以及目标对象的对象类别属性的情况下，图像描述确定单元704，还被配置为执行将目标对象分类集合包含的各待识别图像的对象描述信息输入预先训练的命名实体识别模型，通过命名实体识别模型输出得到与实体对象名称属性匹配的第一目标描述信息、与对象品牌属性匹配的第二目标描述信息，以及与对象类别属性匹配的第三目标描述信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于图像识别的电子设备800的框图。例如，电子设备800可以为服务器。参照图8，电子设备800包括处理组件820，其进一步包括一个或多个处理器，以及由存储器822所代表的存储器资源，用于存储可由处理组件820的执行的指令，例如应用程序。存储器822中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件820被配置为执行指令，以执行上述方法。

电子设备800还可以包括：电源组件824被配置为执行电子设备800的电源管理，有线或无线网络接口826被配置为将电子设备800连接到网络，和输入输出(I/O)接口828。电子设备800可以操作基于存储在存储器822的操作系统，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器822，上述指令可由电子设备800的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备800的处理器执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像描述信息获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述各待识别图像的对象描述信息，确定所述各待识别图像中的目标对象图像，包括：

确定当前待识别图像，获取所述当前待识别图像包含的待识别对象图像；

从所述待识别对象图像中获取与所述对象描述信息匹配的待识别对象图像，作为所述目标对象图像。

3.根据权利要求2所述的方法，其特征在于，所述对象描述信息包括文本信息；

所述从所述待识别对象图像中获取与所述对象描述信息匹配的待识别对象图像，作为所述目标对象图像，包括：

将所述待识别对象图像以及所述对象描述信息输入预先训练的图文匹配模型，通过所述图文匹配模型获取所述对象描述信息对应的文本特征，以及所述待识别对象图像对应的图像特征；

获取所述文本特征与所述图像特征之间的特征距离；

根据所述特征距离从所述待识别对象图像中获取目标对象图像。

4.根据权利要求1所述的方法，其特征在于，所述对所述各待识别图像中的目标对象图像进行对象分类，得到所述各待识别图像所属的目标对象分类集合，包括：

将所述各待识别图像中的目标对象图像输入预先训练的对象分类模型，通过所述对象分类模型获取所述目标对象图像的对象分类特征；

按照所述对象分类特征对所述各待识别图像中的目标对象图像进行图像聚类处理，得到所述各待识别图像所属的目标对象分类集合。

5.根据权利要求4所述的方法，其特征在于，所述按照所述细粒度特征对所述各待识别图像中的目标对象图像进行图像聚类处理，包括：

根据所述对象分类特征，获取所述各待识别图像中的目标对象图像之间的特征相似度；

按照所述特征相似度对所述各待识别图像中的目标对象图像进行图像聚类处理。

6.根据权利要求1所述的方法，其特征在于，所述根据所述各待识别图像所属的目标对象分类集合的集合描述信息，确定所述各待识别图像的图像描述信息之前，还包括：

获取预先设定的用于生成集合描述信息的信息属性，以及所述集合描述信息对应的各信息属性的组合关系；

从针对于所述目标对象分类集合包含的各待识别图像的对象描述信息中，获取与所述信息属性相匹配的目标描述信息；

按照所述组合关系，对所述目标描述信息进行组合，得到所述集合描述信息。

7.一种图像描述信息获取装置，其特征在于，包括：

8.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的图像描述信息获取方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6中任一项所述的图像描述信息获取方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6任一项所述的图像描述信息获取方法。