CN111950328A

CN111950328A - 确定图片中目标物类别的方法及装置

Info

Publication number: CN111950328A
Application number: CN201910405655.XA
Authority: CN
Inventors: 胡斐; 张家程; 周立; 吴尉林
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-11-17
Also published as: WO2020228593A1

Abstract

本说明书实施例提供一种确定图片中目标物类别的方法，所述方法包括：首先，获取对多个目标物进行拍摄而得到的原始图片；接着，判断所述原始图片是否存在透视畸变；进一步地，在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片；然后，基于所述矫正后图片，确定所述多个目标物对应的多个类别。

Description

确定图片中目标物类别的方法及装置

技术领域

本说明书实施例涉及图像处理技术领域，具体地，涉及一种确定图片中目标物类别的方法及装置。

背景技术

出于各种不同的需求，用户会需要了解特定场景中目标物的类别。此时，用户可以通过对目标物进行拍摄，然后基于拍摄得到的图片使用某些软件或网站提供的搜图服务，获知相关信息，进而在相关信息的辅助下判定图片中目标物的类别。例如，用户在赏花时，想要知道其看到的花的名称，此时，用户可以使用手机针对某种花进行拍摄，然后将拍摄的图片上传到某个网站中，再根据网站中提供的相关网页，比如包含与拍摄图片相似的图片的网页，中的网页信息，判断花的名称。

然而，目前用户为了识别特定场景中目标物类别所需采用的方式过于繁琐，尤其是当特定场景中包括多个不同类别的目标物时，将耗费用户大量的时间和精力，进而导致用户体验不佳。因此，迫切需要一种更加便捷、可靠的方式，可以使用户快速、准确地获知目标物的类别。

发明内容

本说明书实施例提供一种确定目标物类别的方法及装置，首先获取包括多个目标物的拍摄图片，以及在拍摄图片具有畸变的情况下对其进行反畸变处理，然后识别出反畸变处理后的图片中多个目标物对应的多个类别。如此，可以使用户快速获知多个目标物对应的多个类别，进而提高用户体验。

根据第一方面，提供一种确定图片中目标物类别的方法，所述方法包括：获取对多个目标物进行拍摄而得到的原始图片；判断所述原始图片是否存在透视畸变；在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片；基于所述矫正后图片，确定所述多个目标物对应的多个类别。

在一个实施例中，在所述确定所述多个目标物对应的多个类别之后，所述方法还包括：利用所述多个类别更新与所述多个目标物相关的管理系统中的数据记录。

在一个实施例中，所述多个目标物为位于同一个货架中的多件商品；所述判断所述原始图片是否存在透视畸变，包括：判断所述原始图片是否存在桶形畸变；所述确定所述多个目标物对应的多个类别，包括：确定所述多件商品对应的多种商品的商品名称。

进一步地，在一个具体的实施例中，判断所述原始图片是否存在桶形畸变，包括：计算所述原始图片对应的透视角度；判断所述透视角度是否大于预设角度阈值；所述在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，包括：在所述透视角度大于所述预设角度阈值的情况下，对所述原始图片进行矫正处理。

在一个实施例中，所述对所述原始图片进行矫正处理，包括：计算所述原始图片对应的畸变参数和内参数；基于所述畸变参数和内参数，对所述原始图片进行反畸变计算。

在一个实施例中，所述基于所述矫正后图片，确定所述多个目标物对应的多个类别，包括：将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物对应的多个类别。

在一个实施例中，所述确定所述多个目标物对应的多个类别，包括：将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物中部分目标物对应的部分类别；标定所述多个目标物中除所述部分目标物以外的其他目标物，以提示用户上传针对所述其他目标物进行补充拍摄的补拍图片。

进一步地，在一个具体的实施例中，对所述原始图片进行矫正处理，得到矫正后图片，包括：建立所述原始图片与所述矫正后图片中像素的映射关系；所述标定所述多个目标物中除所述部分目标物以外的其他目标物，包括：在所述矫正后图片中标定出所述其他目标物所对应的多个矫正后像素；基于映射关系，在所述原始图片中标定出与所述多个矫正后像素对应的多个原始像素。

另一方面，在一个具体的实施例中，在所述标定所述多个目标物中除所述部分目标物以外的其他目标物以后，还包括：接收所述补拍图片；基于所述补拍图片，确定所述其他目标物对应的其他类别；将所述部分类别和所述其他类别组成所述多个类别。

在一个具体的实施例中，所述透视畸变为桶形畸变、或枕形畸变、或线形畸变。

根据第二方面，提供一种用于确定图片中目标物类别的交互方法，所述方法的执行主体为客户端，所述方法包括：获取对多个目标物进行拍摄而得到的原始图片；展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变；展示所述多个目标物对应的多个类别。

在一个实施例中，在所述展示第一提示界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：接收用户基于所述第一提示界面或所述原始图片发出的矫正指令；展示矫正后图片，所述矫正后图片通过对所述原始图片进行矫正处理而得到。

进一步地，在一个具体的实施例中，所述矫正指令对应于点击指令或声控指令。

在一个具体的实施例中，所述接收用户基于所述第一提示界面发出的矫正指令，包括：接收基于所述第一提示界面发出的手动矫正指令；所述展示矫正后图片，包括：展示用户手动矫正后的矫正后图片。

在一个具体的实施例中，在所述接收用户基于所述第一提示界面发出的矫正指令之后，以及，在所述展示矫正后图片之前，所述方法还包括：接收用户选取的待矫正区域。

在一个具体的实施例中，在所述展示矫正后图片之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：接收用户基于所述矫正后图片发出的目标物检测指令。

在一个具体的实施例中，在所述展示矫正后图片之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：接收用户基于所述矫正后图片发出的手动矫正指令；展示用户手动矫正后的再矫正图片；接收用户基于所述再矫正图片发出的目标物检测指令。

在一个实施例中，在所述展示第一提示界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：接收用户基于所述第一提示界面发出的放弃矫正指令；接收用户基于所述原始图片发出的目标物检测指令。

在一个实施例中，在所述展示第一提示界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：展示第一目标检测界面，其中包括所述多个目标物中部分目标物对应的部分类别，以及标定出的多个目标物中除所述部分目标物以外的其他目标物。

进一步地，在一个具体的实施例中，在所述展示第一目标检测界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：获取补拍图片，所述补拍图片由用户针对所述其他目标物进行补充拍摄而得到，所述其他目标物对应于其他类别；接收基于所述补拍图片发出的目标检测指令；其中，所述部分类别和所述其他类别组成所述多个类别。

在一个具体的实施例，在所述展示第一目标检测界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：获取用户输入的对应于所述其他目标物的其他类别；其中，所述部分类别和所述其他类别组成所述多个类别。

在一个实施例中，在所述展示所述多个目标物对应的多个类别之后，所述方法还包括：接收用户对所述多个类别的调整结果；接收用户对所述调整结果的确认指令。

在一个实施例中，在所述展示所述多个目标物对应的多个类别之后，所述方法还包括：接收用户对所述多个类别的确认指令。

根据第三方面，提供一种用于确定图片中目标物类别的交互方法，所述方法的执行主体为客户端，所述方法包括：获取对多个目标物进行拍摄而得到的原始图片；展示对所述原始图片进行矫正处理后得到的矫正后图片，以及基于所述矫正后图片确定出的所述多个目标物对应的多个类别。

根据第四方面，提供一种确定图片中目标物类别的装置，所述装置包括：获取单元，配置为获取对多个目标物进行拍摄而得到的原始图片；判断单元，配置为判断所述原始图片是否存在透视畸变；矫正单元，配置为在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片；确定单元，配置为基于所述矫正后图片，确定所述多个目标物对应的多个类别。

根据第五方面，提供一种用于确定图片中目标物类别的交互装置，所述装置集成于客户端，所述装置包括：获取单元，配置为获取对多个目标物进行拍摄而得到的原始图片；第一展示单元，配置为展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变；第二展示单元，配置为所述多个目标物对应的多个类别。

根据第六方面，提供一种用于确定图片中目标物类别的交互装置，所述装置集成于客户端，所述装置包括：获取单元，配置为获取对多个目标物进行拍摄而得到的原始图片；展示单元，配置为展示对所述原始图片进行矫正处理后得到的矫正后图片，以及基于所述矫正后图片确定出的所述多个目标物对应的多个类别。

根据第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面或第三方面的方法。

根据第八方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面或第三方面的方法。

采用本说明书实施例披露的确定图片中目标物类别的方法及装置，使用户可以上传针对多个目标物拍摄的具有畸变的图片，然后对上传的图片进行反畸变处理，得到无畸变图片，进而可以快速识别出其中的多个目标物的多个类别。由此，大大节省了用户的时间精力，从而提高了用户体验。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1A示出根据一个例子的桶形畸变示意图；

图1B示出根据一个例子的枕形畸变示意图；

图2为本说明书实施例披露的确定图片中目标物类别的方法流程图；

图3A示出根据一个例子的标定有未识别目标物的原始图片的示意图；

图3B示出基于图3A的用户上传的补拍图片；

图4为本说明书实施例披露的确定图片中目标物类别的方法流程框图；

图5示出根据一个实施例的用于确定图片中目标物类别的交互方法；

图6示出根据一个实施例的包括原始图片的客户端界面示意图；

图7示出根据一个实施例的客户端界面的交互示意图；

图8示出根据另一个实施例的客户端界面的交互示意图；

图9示出根据另一个实施例的用于确定图片中目标物类别的交互方法；

图10为本说明书实施例披露的确定图片中目标物类别的装置框图；

图11示出根据一个实施例的用于确定图片中目标物类别的交互装置框图；

图12示出根据一个实施例的用于确定图片中目标物类别的交互装置框图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

本说明书实施例披露一种确定图片中目标物类别的方法，下面，首先对所述方法的发明构思和应用场景进行介绍。

具体地，在某些场景下，用户会需要获知多个目标物的多个类别。目前，为了保证对目标物的类别识别结果的准确性，要求用户上传的拍摄照片中的目标物的成像清晰、写实(或者说还原度高)。进一步地，在实际场景中，受限于各种限制因素，用户需要通过拍摄多张照片，才能实现记录下所有类别的目标物的清晰、写实的图像，用于进行目标识别。具体地，当多个目标物的分布较为分散，不够集中，例如在水平面或竖直面上分散排布时，或者，当针对多个目标物进行拍摄的距离限制在较短范围内时，为了获得清晰、写实的图片，均需要用户拍摄多张图片。

举例来说，在一个例子中，服务方(如线下门店)为了实现对其售卖商品的管理，通常需要记录放置于货架上的正在售卖商品的商品种类。进一步的，由于门店内货架间的距离通常较近，店主需要拍摄多张照片，才能拍全一个货架上的商品，显然费时费力。在另一个例子中，用户在逛花园的时候，可能会想要知道其中各种花的名称，如果用手机直接拍下大片的花，其中部分花的清晰度较低，因此，需要用户远距离、频繁地移动自己的位置，针对各个区域中不同种类的花拍摄多张照片，显然将耗费用户大量的体力。

基于此，发明人想到，可以针对不同场景提示用户或服务方使用不同的镜头，从而可以一次性清晰地拍下多个目标物，或者，无需远距离地移动自己的位置即可快速地拍下距离自己较远区域的多个目标物。具体地，在一个实施例中，对于固定的成像面积，镜头焦距越短，可以拍出更宽的范围。相应地，如上述对货架中商品进行拍摄的例子，可以向用户提供焦距很短的广角镜头，以使其通过拍摄单张图片即可清晰记录下单个货架上的所有商品。在另一个实施例中，对于固定的成像面积，镜头焦距越长，可以使较远的物体变得清晰。相应地，如上述对花园中花进行拍摄的例子，可以向用户提供焦距较长的长焦镜头，以使用户无需远距离移动自己的位置，即可快速地拍摄下距离自己较远区域的多个目标物。

进一步地，考虑到在使用上述广角镜头或长焦镜头拍摄得到的图片中，被拍摄的目标物的成像容易产生畸变。具体地，在一个实施例中，使用广角镜头进行拍摄，容易产生桶形畸变，如图1A所示，原本呈矩形的物体，其在图片中的成像呈桶形膨胀状。在另一个实施例中，使用长焦镜头进行拍摄，容易产生枕形畸变，如图1B所示，原本呈矩形的物体，其在图片中的成像呈枕形收缩状。需要说明的是，对于采用其他镜头，如标准镜头等，拍摄得到的图片，因拍摄距离或拍摄对象的位置分布等因素，同样可能存在畸变。在又一个实施例中，使用标准镜头对悬挂在一条横向细杆上的多国国旗进行拍摄，容易产生线形畸变。

对于以上针对多个目标物拍摄得到的存在畸变的照片，因其中部分目标物成像的畸变严重，将导致这些目标物的类别无法被成功识别。因此，发明人还提出，可以对存在畸变的图片进行反畸变处理(或称为畸变矫正)，然后再利用矫正后图片，确定其中多个目标物对应的多个类别。如此，可以利用用户快速拍摄得到的少量图片，识别出多个目标物的多个类别。

以上，对本说明书实施例披露的确定图片中目标物类别的方法的发明构思和应用场景进行了介绍。下面，结合具体的实施例，描述所述方法的实施步骤。

具体地，图2为本说明书实施例披露的确定图片中目标物类别的方法流程图，所述方法的执行主体可以为具有终端中的系统软件、客户端，或者具有计算、处理能力的服务器，等等。如图2所示，所述方法包括以下步骤：步骤S210，获取对多个目标物进行拍摄而得到的原始图片；步骤S220，判断所述原始图片是否存在透视畸变；步骤S230，在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片；步骤S240，基于所述矫正后图片，确定所述多个目标物对应的多个类别。以上步骤具体如下：

首先，步骤S210，获取对多个目标物进行拍摄而得到的原始图片。以及，在步骤S220，判断所述原始图片是否存在透视畸变。

在一个实施例中，步骤S210中包括：获取用户上传的原始图片。在另一个实施例中，步骤S210中包括：获取数据库中存储的原始图片。

在一个实施例中，步骤S220中可以包括：首先，计算原始图片对应的多个畸变参数；然后，基于多个畸变参数，确定原始图片是否存在透视畸变。进一步地，在一个具体的实施例中，所述多个畸变参数包括径向畸变参数和切向畸变参数。在一个具体的实施例中，当多个畸变参数中任意的畸变参数大于对应的预设阈值时，则认为存在透视畸变，否则认为不存在。在另一个具体的实施例中，当多个畸变参数的各个畸变的平方和大于预定阈值时，则认为存在透视畸变，否则认为不存在。

另一方面，在一个实施例中，可以针对特定的场景，判定是否存在对应的特定类型的畸变。在一个具体的实施例中，针对识别货架中商品的场景，用户要么使用普通镜头，如手机自带的镜头进行拍摄，要么使用广角镜头进行拍摄，而其中通常是在使用广角镜头拍摄时才会存在畸变，因此，在步骤S220中，可以判断原始图片是否是使用广角镜头拍摄的，进一步地，在判断出是使用广角镜头拍摄的情况下，则认为存在桶形畸变。

更进一步地，在一个例子中，首先关于特定场景，所述方法的执行主体可以为商品管理系统提供的用户客户端，其中用户客户端可以识别用户上传的针对店内商品进行拍摄得到的图片中包括的所有店内商品，然后将识别出的所有商品上传至商品管理系统中的服务器或者服务客户端，以根据识别出的所有商品向用户提供对应的商品管理方案(如，淘汰、更换方案)。在一个例子中，判断原始图片是否是使用广角镜头拍摄的，可以包括：先计算原始图片对应的透视角度，再判断所述透视角度是否大于预设角度阈值。需要说明的是，其中透视角度(或称镜头的视角)是指镜头中心点到成像平面对角线两端所形成的夹角。此外，其中对原始图片对应的透视角度进行计算的方法可以采用现有技术中的方法实现，在此不作赘述。在一个具体的例子中，预设角度阈值可以由工作人员根据广角镜头可调节的视角范围以及实际经验进行设定，例如，可以设定为70°或100°，等等。进一步地，在透视角度大于预设角度阈值的情况下，则判定原始图片是使用广角镜头拍摄得到的，也就是存在桶形畸变。

又一方面，考虑到用户是可以看出拍摄图片中是否存在较为严重的畸变的。相应地，步骤S220可以包括：接收用户输入的针对原始图片是否存在透视畸变的选择结果。在一个具体的实施例中，其中选择结果可以为是或否。由此，根据接收的选择结果，可以判断出是否存在透视畸变，具体地，在选择结果为是的情况下，判断出存在透视畸变，在选择结果为否的情况下，判断出不存在透视畸变。进一步地，在一个具体的实施例中，在选择结果为是的情况下，还可以接收用户输入的具体的透视畸变类型，如桶形畸变、或枕形畸变或线性畸变。

以上，可以判断出包括多个目标物的原始图片是否存在透视畸变。进一步地，一方面，在判断出存在透视畸变的情况下，执行步骤S230，对所述原始图片进行矫正处理，得到矫正后图片。另一方面，在判断出不存在透视畸变的情况下，可以直接基于原始图片确定所述多个目标物对应的多个类别。需要说明的是，对于直接基于原始图片进行确定的介绍，可以参见下文中针对步骤S240的描述内容中的相关描述。以下，先对步骤S230进行介绍。

具体地，在步骤S230，在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片。

在一个实施例中，可以根据原始图片中存在的透视畸变的畸变类型，采用对应的矫正算法进行处理。在一个具体的实施例中，在原始图片存在桶形畸变的情况下，可以对原始图片进行枕形反算，得到校正后图片。在另一个具体的实施例中，在原始图片存在枕形畸变的情况下，可以对原始图片进行桶形反算，得到校正后图片。需要说明的是，在一个具体的实施例中，上述枕形反算或桶形反算所对应的具体的算法或程序，可以由工作人员预先开发。

另一方面，在一个实施例中，对所述原始图片进行矫正处理，包括：首先，计算所述原始图片对应的畸变参数和内参数；然后，基于所述畸变参数和内参数，对所述原始图片进行反畸变计算。

进一步地，在一个具体地实施例中，内参数是指原始图片所对应的拍摄相机的内参数。在一个例子中，内参数可以包括图片中的一个像素在互相垂直的两个方向上分别占了多少个长度单位，即一个像素代表的实际物理值的大小，其是实现图像物理坐标系与像素坐标系转换的关键。在另一个例子中，内参数还可以包括图像的中心像素坐标和图像原点像素坐标之间相差的横向和纵向像素数。此外，需要说明的是，对畸变参数的介绍可以参见前述实施例中的相关描述，在此不作赘述。进一步地，在确定出畸变参数和内参数后，可以基于现有技术中的方法对原始图片进行反畸变计算，对于具体的计算方法在此不作赘述。

以上，通过对存在透视畸变的原始图片进行矫正处理，可以得到矫正后图片。接着，在步骤S240，基于所述矫正后图片，确定所述多个目标物对应的多个类别。

在一个实施例中，本步骤可以包括：将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物对应的多个类别。在一个具体的实施例中，其中目标检测模型可以基于训练样本集预先训练而得到。在一个例子中，假定目标检测模型用于检测商品类别，则其对应的训练样本可以为标注有商品类别的商品图片，进一步地，基于多张标注有商品类别的商品图片，可以得到商品检测模型。如此，可以实现根据校正后图片，一次性识别出多个目标物对应的所有类别。

此外，考虑到原始图片中畸变严重的区域在进行反畸变处理后，存在畸变的消除效果有限，而导致该区域内的某些目标物无法被识别的可能。因此，发明人提出，可以在矫正后图片中标定出识别失败或者说识别结果的置信度未达到预定阈值的某些目标物所在的区域，以提示用户针对此区域补拍图片。基于此，在一个实施例中，本步骤中可以包括：首先，将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物中部分目标物对应的部分类别；然后，标定所述多个目标物中除所述部分目标物以外的其他目标物，以提示用户上传针对所述其他目标物进行补充拍摄的补拍图片。在一个具体的实施例中，其中标定其他目标物可以包括：在矫正后的图片中标定出其他目标物。在另一个具体的实施例中，其中标定其他目标物可以包括：在原始图片中标定出其他目标物。在一个例子中，在上述对原始图片进行反畸变处理的过程中，可以建立原始图片中的像素与矫正后图片中的像素之间的映射关系。相应地，首先可以在矫正后图片中标定出其他目标物所对应的多个矫正后像素，然后基于上述建立的映射关系，在原始图片中标定出与多个矫正后像素对应的多个原始像素。

进一步地，在一个具体的实施例中，在标定出其他目标物以后，还可以包括：首先，接收所述补拍图片；接着，基于所述补拍图片，确定所述其他目标物对应的其他类别；然后，将所述部分类别和所述其他类别组成所述多个类别。需要说明的是，在一个例子中，其中对接收补拍图片以及基于补拍图片，确定其他目标物对应的其他类别，可以参见前述步骤S210-步骤S230以及本步骤中前述内容的相关描述。在另一个例子中，考虑到补拍图片一般是针对多个目标物所在区域中的局部区域拍摄的照片，不会存在畸变，因此，可以默认补拍图片不存在畸变，进而直接将补拍图片输入目标检测模型中，以确定出其他目标物对应的其他类别。

在一个例子中，图3A中示出在原始图片中标定出的识别失败的其他目标物所在的区域。图3B中示出接收的用户针对其他目标物补拍的图片。如此，根据补拍的图片可以识别出其他目标物对应的类别，进而得到多个目标物对应的多个类别。

需要说明的是，在一个实施例中，在以上确定出多个目标物对应的多个类别之后，所述方法还可以包括：利用所述多个类别更新与所述多个目标物相关的管理系统中的数据记录。在一个具体的实施例中，其中多个目标物是指门店中位于同一货架上的商品，多个类别是指多个商品的商品类别，管理系统是指针对多个门店的商品管理系统。由此，可以利用多个类别更新对应门店中商品类别的数据记录。

下面，再结合具体的应用场景，即，针对货架中的商品进行类别识别的场景，对本说明书实施例披露的方法进行说明。具体地，如图4所示，其中包括以下步骤：

步骤S41，用户采用具有广角镜头的设备，如自带广角镜头的手机，或者外加广角镜头或鱼眼镜头(可以认为是超广角镜头)的设备(如，相机、手机)等对位于同一货架上的所有商品进行拍摄。

步骤S42，拍摄得到具有桶形畸变的原始图片。

步骤S43，上传原始图片。

步骤S44，商品管理系统的后台对原始图片进行枕形校正，得到无畸变图片(或称为矫正后图片)。

进一步地，在一种情况下，在步骤S45，根据无畸变图片，一次全部识别出24种商品。

在另一种情况下，在步骤S46，根据无畸变图片，识别出20种商品，同时标定出未识别商品，然后根据用户补拍的图片，识别出4中商品，由此共识别出24种商品。

以上，可以实现对同一货架中商品的快速识别，进而识别对一家店铺内所有货架中商品的快速识别。

综上，通过采用本说明书实施例中披露的确定图片中目标物类别的方法，使用户可以上传针对大量的目标物拍摄的具有畸变的图片，然后对上传的图片进行反畸变处理，得到无畸变图片，进而可以快速识别出其中的多个目标物的多个类别。由此，大大节省了用户的时间精力，从而提高了用户体验。

相应地，本说明书一个或多个实施例还披露一种交互方法。具体地，图5示出根据一个实施例的用于确定图片中目标物类别的交互方法，所述方法的执行主体为客户端。如图5所示，所述方法包括以下步骤：步骤S510，获取对多个目标物进行拍摄而得到的原始图片；步骤S520，展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变；步骤S530，展示所述多个目标物对应的多个类别。以上步骤具体如下：

首先，在步骤S510，获取对多个目标物进行拍摄而得到的原始图片。

在一个实施例中，可以接收用户上传至所述客户端的原始图片。在一个例子中，图6示出的客户端界面中用户上传的原始图片。

接着，在步骤S520，展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变。在一个实施例中，第一提示界面中包括提示内容：上传图片中存在透视畸变。

需要说明的是，对原始图片是否存在透视畸变的判断，可以由所述客户端或者服务器等执行。在一个实施例中，客户端可以根据获取的原始图片直接在本地判断是否存在透视畸变。在另一个实施例中，客户端将原始图片发送至服务器，并从服务器接收判断结果。进一步地，一方面，在判断出存在透视畸变的情况下，执行本步骤，展示第一提示界面。另一方面，在判断出不存在透视畸变的情况下，展示第二提示界面，提示用户不存在透视畸变，建议直接根据原始图片确定多个目标物对应的多个类别，或者，直接给出根据原始图片确定出的多个类别。

此外，在告知用户原始图片存在透视畸变之后，可以通过多种方式让用户选择是否需要对原始图片进行矫正，以及在确认矫正的情况下提供多种矫正方式。具体地，在一个实施例中，在步骤S520之后，还可以包括：接收用户基于第一提示界面发出的矫正指令；展示矫正后图片，所述矫正后图片通过对所述原始图片进行矫正处理而得到。在一个具体的实施例中，其中矫正指令包括点击指令或声控指令，用于触发对图片进行自动矫正或手动矫正。在一个例子中，接收用户发出的自动矫正指令，相应地，可以展示自动矫正后的矫正后图片。在另一个例子中，接收用户发出的手动矫正指令，相应地，可以展示手动矫正后的矫正后图片。另一方面，在一个具体的实施例中，在上述接收用户基于第一提示界面发出的矫正指令之后，还可以包括：接收用户选取的待矫正区域。相应地，展示矫正后图片，包括：展示基于所述待矫正区域进行矫正处理后得到的矫正后图片。

根据一个具体的例子，如图7所示，接收用户通过点击“确认矫正”发出的矫正指令，再展示通过自动矫正得到的矫正后图片。

进一步地，在一个具体的实施例中，在上述展示矫正后图片之后，所述方法还可以包括：接收用户基于所述矫正后图片发出的目标物检测指令。在一个例子中，上述目标物检测指令对应于对图7中“下一步”的点击操作。在另一个具体的实施例中，在上述展示矫正后图片之后，所述方法还可以包括：接收用户基于所述矫正后图片发出的手动矫正指令；展示用户手动矫正后的再矫正图片；接收用户基于所述再矫正图片发出的目标物检测指令。

以上，对展示第一提示界面之后，在用户确认矫正的情况下，与用户进行矫正相关的交互进行了介绍。此外，在用户放弃矫正的情况下，在一个实施例中，接收用户基于第一提示界面发出的放弃矫正指令，此时，接着可以接收用户基于原始图片发出的目标物检测指令。

以上通过展示第一提示界面，可以告知用户原始图片存在透视畸变，进一步地可以展示矫正后的矫正后图片，或者，在用户放弃矫正的情况下展示原始图片。

然后在步骤S530，展示所述多个目标物对应的多个类别。

在一种情况下，可能一次性识别出了多个目标物对应的多个类别。具体地，在一个实施例中，在上述展示第一提示界面之后，或者，接收上述目标物检测指令之后，展示所述多个目标物对应的多个类别。在一个例子中，如图8所示，其中示出一次性识别出的多个类别。

在另一种情况下，可能一次只识别出多个目标物中的部分类别，此时，需要进一步确定出其他目标物对应的其他类别，进而将部分类别和其他类别组成多个目标物对应的多个类别。具体地，在一个实施例中，在步骤S520之后，以及步骤S530之前可以包括：展示第一目标检测界面，其中包括所述多个目标物中部分目标物对应的部分类别，以及标定出的多个目标物中除所述部分目标物以外的其他目标物。进一步地，在一个具体的实施例中，还可以包括：获取补拍图片，所述补拍图片由用户针对所述其他目标物进行补充拍摄而得到，所述其他目标物对应于其他类别；接收基于所述补拍图片发出的目标检测指令；其中，所述部分类别和所述其他类别组成所述多个类别。在另一个具体的实施例中，还可以包括：获取用户输入的对应于所述其他目标物的其他类别；其中，所述部分类别和所述其他类别组成所述多个类别。

需要说明的是，在上述步骤S530之后，在一个实施例中，所述方法还可以包括：接收用户对所述多个类别的调整结果；接收用户对所述调整结果的确认指令。在另一个实施例中，所述方法还包括：接收用户对所述多个类别的确认指令。在一个例子中，所述确认指令对应于对图8中确认图标的点击指令。

此外，在一种情况下，在提示用户原始图片存在透视畸变的情况下，即使用户放弃矫正，但在后续用户仍然可以主动发起矫正。在另一种情况下，即使提示用户原始图片不存在透视畸变，用户可以主动发起矫正，通过手动矫正的方式对图片进行调整。

根据又一方面的实施例，图9示出根据另一个实施例的用于确定图片中目标物类别的交互方法，所述方法的执行主体为客户端，所述方法包括以下步骤：步骤S910，获取对多个目标物进行拍摄而得到的原始图片；步骤S920，展示对所述原始图片进行矫正处理后得到的矫正后图片，以及基于所述矫正后图片确定出的所述多个目标物对应的多个类别。

与上述方法对应地，根据另一方面的实施例，还提供一种识别装置。所述识别装置可以集成于服务器或用户客户端或系统软件，等等。图10为本说明书实施例披露的确定图片中目标物类别的装置框图，如图10所示，该装置1000包括：获取单元1010，配置为获取对多个目标物进行拍摄而得到的原始图片。判断单元1020，配置为判断所述原始图片是否存在透视畸变。矫正单元1030，配置为在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片。确定单元1040，配置为基于所述矫正后图片，确定所述多个目标物对应的多个类别。

在一个实施例中，所述装置1000还包括：更新单元1050，配置为利用所述多个类别更新与所述多个目标物相关的管理系统中的数据记录。

在一个实施例中，所述多个目标物为位于同一个货架中的多件商品；所述判断单元具体配置为：判断所述原始图片是否存在桶形畸变；所述确定单元具体配置为：确定所述多件商品对应的多种商品的商品名称。

进一步地，在一个具体的实施例中，所述判断单元1020具体配置为：计算所述原始图片对应的透视角度；判断所述透视角度是否大于预设角度阈值；所述矫正单元1030具体配置为：在所述透视角度大于所述预设角度阈值的情况下，对所述原始图片进行矫正处理。

在一个实施例中，所述矫正单元1030具体配置为计算所述原始图片对应的畸变参数和内参数；基于所述畸变参数和内参数，对所述原始图片进行反畸变计算。

在一个实施例中，所述确定单元1040具体配置为：将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物对应的多个类别。

在一个实施例中，所述确定单元1040具体包括：输入模块1041，配置为将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物中部分目标物对应的部分类别；标定模块1042，配置为标定所述多个目标物中除所述部分目标物以外的其他目标物，以提示用户上传针对所述其他目标物进行补充拍摄的补拍图片。

进一步地，在一个具体的实施例中，所述矫正单元1030具体配置为：建立所述原始图片与所述矫正后图片中像素的映射关系；所述标定模块1042具体配置为：在所述矫正后图片中标定出所述其他目标物所对应的多个矫正后像素；基于映射关系，在所述原始图片中标定出与所述多个矫正后像素对应的多个原始像素。

在一个实施例中，所述透视畸变为桶形畸变、或枕形畸变、或线形畸变。

综上，通过采用本说明书实施例中披露的确定图片中目标物类别的装置，使用户可以上传针对大量的目标物拍摄的具有畸变的图片，然后对上传的图片进行反畸变处理，得到无畸变图片，进而可以快速识别出其中的多个目标物的多个类别。由此，大大节省了用户的时间精力，从而提高了用户体验。

根据又一方面的实施例，还提供一种交互装置。具体地，图11示出根据一个实施例的用于确定图片中目标物类别的交互装置框图，所述装置还集成于客户端。如图11所示，所述装置1100包括：

获取单元1110，配置为获取对多个目标物进行拍摄而得到的原始图片。第一展示单元1120，配置为展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变。第二展示单元1130，配置为展示所述多个目标物对应的多个类别。

在一个实施例中，所述装置1100还包括：第一接收单元1140，配置为接收用户基于所述第一提示界面或所述原始图片发出的矫正指令；第三展示单元1150，配置为展示矫正后图片，所述矫正后图片通过对所述原始图片进行矫正处理而得到。

在一个具体的实施例中，所述第一接收单元1140具体配置为，接收基于所述第一提示界面发出的手动矫正指令；所述第三展示单元1150具体配置为：展示用户手动矫正后的矫正后图片。

在一个具体的实施例中，所述装置1100还包括：第二接收单元，配置为接收用户选取的待矫正区域。

在一个具体的实施例中，所述装置1100还包括：第三接收单元，配置为接收用户基于所述矫正后图片发出的目标物检测指令。

在一个具体的实施例中，所述装置1100还包括：

第四接收单元，配置为接收用户基于所述矫正后图片发出的手动矫正指令；第四展示单元，配置为展示用户手动矫正后的再矫正图片；第五接收单元，配置为接收用户基于所述再矫正图片发出的目标物检测指令。

在一个实施例中，所述装置1100还包括：第六接收单元，配置为接收用户基于所述第一提示界面发出的放弃矫正指令；第七接收单元，配置为接收用户基于所述原始图片发出的目标物检测指令。

在一个实施例中，所述装置1100还包括：第五展示单元，配置为展示第一目标检测界面，其中包括所述多个目标物中部分目标物对应的部分类别，以及标定出的多个目标物中除所述部分目标物以外的其他目标物。

进一步地，在一个具体的实施例中，所述装置1100还包括：再获取单元，配置为获取补拍图片，所述补拍图片由用户针对所述其他目标物进行补充拍摄而得到，所述其他目标物对应于其他类别；第八接收单元，配置为接收基于所述补拍图片发出的目标检测指令；其中，所述部分类别和所述其他类别组成所述多个类别。

在一个具体的实施例中，所述装置还1100还包括：又获取单元，配置为获取用户输入的对应于所述其他目标物的其他类别；其中，所述部分类别和所述其他类别组成所述多个类别。

在一个实施例中，所述装置1100还包括：第九接收单元，配置为接收用户对所述多个类别的调整结果；第十接收单元，配置为接收用户对所述调整结果的确认指令。

在一个实施例中，所述装置1100还包括：第十一接收单元，配置为接收用户对所述多个类别的确认指令。

根据再一方面的实施例，还提供一种交互装置。具体地，图12示出根据另一个实施例的用于确定图片中目标物类别的交互装置框图，所述装置还集成于客户端。如图12所示，所述装置1200包括：获取单元1210，配置为获取对多个目标物进行拍摄而得到的原始图片；展示单元1220，配置为展示对所述原始图片进行矫正处理后得到的矫正后图片，以及基于所述矫正后图片确定出的所述多个目标物对应的多个类别。

如上，根据再一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图4或图5或图9所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图4或图5或图9所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种确定图片中目标物类别的方法，所述方法包括：

获取对多个目标物进行拍摄而得到的原始图片；

判断所述原始图片是否存在透视畸变；

在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片；

基于所述矫正后图片，确定所述多个目标物对应的多个类别。

2.根据权利要求1所述的方法，其中，在所述确定所述多个目标物对应的多个类别之后，所述方法还包括：

利用所述多个类别更新与所述多个目标物相关的管理系统中的数据记录。

3.根据权利要求1或2所述的方法，其中，所述多个目标物为位于同一个货架中的多件商品；

所述判断所述原始图片是否存在透视畸变，包括：

判断所述原始图片是否存在桶形畸变；

所述确定所述多个目标物对应的多个类别，包括：

确定所述多件商品对应的多种商品的商品名称。

4.根据权利要求3所述的方法，其中，判断所述原始图片是否存在桶形畸变，包括：

计算所述原始图片对应的透视角度；

判断所述透视角度是否大于预设角度阈值；

所述在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，包括：

在所述透视角度大于所述预设角度阈值的情况下，对所述原始图片进行矫正处理。

5.根据权利要求1所述的方法，其中，所述对所述原始图片进行矫正处理，包括：

计算所述原始图片对应的畸变参数和内参数；

基于所述畸变参数和内参数，对所述原始图片进行反畸变计算。

6.根据权利要求1所述的方法，其中，所述基于所述矫正后图片，确定所述多个目标物对应的多个类别，包括：

将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物对应的多个类别。

7.根据权利要求1所述的方法，其中，所述确定所述多个目标物对应的多个类别，包括：

将所述矫正后图片输入预先训练的目标检测模型中，得到所述多个目标物中部分目标物对应的部分类别；

标定所述多个目标物中除所述部分目标物以外的其他目标物，以提示用户上传针对所述其他目标物进行补充拍摄的补拍图片。

8.根据权利要求7所述的方法，其中，对所述原始图片进行矫正处理，得到矫正后图片，包括：

建立所述原始图片与所述矫正后图片中像素的映射关系；

所述标定所述多个目标物中除所述部分目标物以外的其他目标物，包括：

在所述矫正后图片中标定出所述其他目标物所对应的多个矫正后像素；

基于映射关系，在所述原始图片中标定出与所述多个矫正后像素对应的多个原始像素。

9.根据权利要求7所述的方法，其中，在所述标定所述多个目标物中除所述部分目标物以外的其他目标物以后，还包括：

接收所述补拍图片；

基于所述补拍图片，确定所述其他目标物对应的其他类别；

将所述部分类别和所述其他类别组成所述多个类别。

10.根据权利要求1所述的方法，其中，所述透视畸变为桶形畸变、或枕形畸变、或线形畸变。

11.一种用于确定图片中目标物类别的交互方法，所述方法的执行主体为客户端，所述方法包括：

获取对多个目标物进行拍摄而得到的原始图片；

展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变；

展示所述多个目标物对应的多个类别。

12.根据权利要求11所述的方法，其中，在所述展示第一提示界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

接收用户基于所述第一提示界面或所述原始图片发出的矫正指令；

展示矫正后图片，所述矫正后图片通过对所述原始图片进行矫正处理而得到。

13.根据权利要求12所述的方法，其中，所述矫正指令对应于点击指令或声控指令。

14.根据权利要求12所述的方法，其中，所述接收用户基于所述第一提示界面发出的矫正指令，包括：

接收基于所述第一提示界面发出的手动矫正指令；

所述展示矫正后图片，包括：

展示用户手动矫正后的矫正后图片。

15.根据权利要求12所述的方法，其中，在所述接收用户基于所述第一提示界面发出的矫正指令之后，以及，在所述展示矫正后图片之前，所述方法还包括：

接收用户选取的待矫正区域。

16.根据权利要求12所述的方法，其中，在所述展示矫正后图片之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

接收用户基于所述矫正后图片发出的目标物检测指令。

17.根据权利要求12所述的方法，其中，在所述展示矫正后图片之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

接收用户基于所述矫正后图片发出的手动矫正指令；

展示用户手动矫正后的再矫正图片；

接收用户基于所述再矫正图片发出的目标物检测指令。

18.根据权利要求11所述的方法，其中，在所述展示第一提示界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

接收用户基于所述第一提示界面发出的放弃矫正指令；

接收用户基于所述原始图片发出的目标物检测指令。

19.根据权利要求11所述的方法，其中，在所述展示第一提示界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

展示第一目标检测界面，其中包括所述多个目标物中部分目标物对应的部分类别，以及标定出的多个目标物中除所述部分目标物以外的其他目标物。

20.根据权利要求19所述的方法，其中，在所述展示第一目标检测界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

获取补拍图片，所述补拍图片由用户针对所述其他目标物进行补充拍摄而得到，所述其他目标物对应于其他类别；

接收基于所述补拍图片发出的目标检测指令；

其中，所述部分类别和所述其他类别组成所述多个类别。

21.根据权利要求19所述的方法，其中，在所述展示第一目标检测界面之后，以及，在所述展示所述多个目标物对应的多个类别之前，所述方法还包括：

获取用户输入的对应于所述其他目标物的其他类别；

其中，所述部分类别和所述其他类别组成所述多个类别。

22.根据权利要求11所述的方法，其中，在所述展示所述多个目标物对应的多个类别之后，所述方法还包括：

接收用户对所述多个类别的调整结果；

接收用户对所述调整结果的确认指令。

23.根据权利要求11所述的方法，其中，在所述展示所述多个目标物对应的多个类别之后，所述方法还包括：

接收用户对所述多个类别的确认指令。

24.一种用于确定图片中目标物类别的交互方法，所述方法的执行主体为客户端，所述方法包括：

获取对多个目标物进行拍摄而得到的原始图片；

展示对所述原始图片进行矫正处理后得到的矫正后图片，以及基于所述矫正后图片确定出的所述多个目标物对应的多个类别。

25.一种确定图片中目标物类别的装置，所述装置包括：

获取单元，配置为获取对多个目标物进行拍摄而得到的原始图片；

判断单元，配置为判断所述原始图片是否存在透视畸变；

矫正单元，配置为在所述原始图片存在透视畸变的情况下，对所述原始图片进行矫正处理，得到矫正后图片；

确定单元，配置为基于所述矫正后图片，确定所述多个目标物对应的多个类别。

26.一种用于确定图片中目标物类别的交互装置，所述装置集成于客户端，所述装置包括：

第一展示单元，配置为展示第一提示界面，至少用于提示用户所述原始图片存在透视畸变；

第二展示单元，配置为所述多个目标物对应的多个类别。

27.一种用于确定图片中目标物类别的交互装置，所述装置集成于客户端，所述装置包括：

展示单元，配置为展示对所述原始图片进行矫正处理后得到的矫正后图片，以及基于所述矫正后图片确定出的所述多个目标物对应的多个类别。

28.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-24中任一项的所述的方法。

29.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-24中任一项所述的方法。