CN110163036B

CN110163036B - 一种图像识别方法及装置

Info

Publication number: CN110163036B
Application number: CN201810183491.6A
Authority: CN
Inventors: 樊林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2023-07-18
Anticipated expiration: 2038-03-06
Also published as: CN110163036A

Abstract

本发明实施例公开了一种图像识别方法，用于提升识别速度。所述方法包括：获取目标图像对应的拍摄场景信息，所述拍摄场景信息包括如下至少一项：拍摄所述目标图像时拍摄设备使用的拍摄参数，拍摄所述目标图像时拍摄设备对应的位置信息，拍摄所述目标图像时拍摄设备的设备状态；确定与所述拍摄场景信息对应的拍摄物体；根据所述拍摄物体确定所述目标图像包含的物体。

Description

一种图像识别方法及装置

技术领域

本发明涉及计算机应用领域，尤其涉及一种图像识别方法及装置。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。图像识别技术是AI领域的主要研究重点之一。

传统的图像识别都是根据图像的内容进行识别的，但是图像内容比较复杂，因此基于图像内容进行识别会耗费较长的时间。

发明内容

本发明实施例提供了一种图像识别方法及装置，用于提升识别速度。

有鉴于此，本发明第一方面提供了一种图像识别方法，该方法包括：

获取目标图像对应的拍摄场景信息，所述拍摄场景信息包括如下至少一项：拍摄所述目标图像时拍摄设备使用的摄像参数，拍摄所述目标图像时拍摄设备对应的位置信息，拍摄所述目标图像时拍摄设备的设备状态；

确定与所述拍摄场景信息对应的拍摄物体；

根据所述拍摄物体确定所述目标图像包含的物体。

本发明第二方面提供了一种图像识别装置，该装置包括：

获取模块，用于获取目标图像对应的拍摄场景信息，所述拍摄场景信息包括如下至少一项：拍摄所述目标图像时拍摄设备使用的摄像参数，拍摄所述目标图像时拍摄设备对应的位置信息，拍摄所述目标图像时拍摄设备的设备状态；

第一确定模块，用于确定与所述拍摄场景信息对应的拍摄物体；

第二确定模块，用于根据所述拍摄物体确定所述目标图像包含的物体。

本发明第三方面提供了另一种图像识别装置，该装置包括：

处理器及存储器；

存储器用于存储程序；

所述处理器用于执行所述程序，具体包括如下步骤：

确定与所述拍摄场景信息对应的拍摄物体；

根据所述拍摄物体确定所述目标图像包含的物体。

本发明第四方面提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例可以获取目标图像对应的拍摄场景信息，并根据与该拍摄场景信息对应的拍摄物体确定目标图像包含的物体，其中，拍摄场景信息包括如下至少一项：拍摄目标图像时拍摄设备使用的拍摄参数，拍摄目标图像时拍摄设备对应的位置信息，拍摄目标图像时拍摄设备的设备状态，也就是说，本发明实施例可以结合除了图像内容以外的场景信息来确定图像包含的物体，而场景信息相对于图像内容而言，信息量相对较小，因此结合该信息对图像进行物体识别，可以大大缩短识别时间，提升识别速度。

附图说明

图1为本发明实施例中图像识别方法的一个实施例流程图；

图2为本发明实施例中设备状态的一个示意图；

图3为本发明实施例中拍摄场景的一个示意图；

图4为本发明实施例中对拍摄场景信息进行分析的一个流程图；

图5为本发明实施例中对拍摄场景信息进行分析的一个流程图；

图6为本发明实施例中图像识别方法的另一个实施例流程图；

图7为本发明实施例中图像识别方法的另一个实施例流程图；

图8为本发明实施例中图像识别装置的一个实施例示意图；

图9为本发明实施例中图像识别装置的另一个实施例示意图；

图10为本发明实施例中图像识别装置的另一个实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种图像识别方法及装置，用于提高识别速度。

为了便于理解本发明实施例，下面对本发明实施了中图像识别方法所适用的场景进行介绍。

一、图像优化。

用户用手机拍摄得到图像或者通过其他途径得到图像后，想要用手机对图像进行优化处理，比如美颜，加滤镜等等，一些应用程序可以提供一键优化的功能，一键优化需要识别出图像中的物体类型，并且针对不同的物体执行不同的优化操作进行优化或者综合识别出的物体采用最优的优化操作进行优化，此过程可以采用本发明实施了中的图像识别方法识别出图像中包含的物体，并针对不同的物体进行优化。

二、拍摄过程中对用户进行提示。

用户在用手机拍摄图像的过程中，点击拍摄按钮捕捉到图像后，手机可以进一步提示用户是否需要将刚刚拍摄的图像进行存储，此时手机可以通过本发明实施了中的图像识别方法识别出图像中包含的物体，并将识别结果通过文字，语音等方式提示给用户，使得用户可以快速了解图像是否已经包含了自己想要拍摄的物体，再根据结果确认是否需要对图像进行存储。

三、人工智能。

本发明实施例中的图像识别领域可以应用于人工智能的图像识别，模拟人类对获取的图像进行认知，通过本发明实施例的图像识别方法识别出图像包含的物体，给出相应的反馈，或者输出相应的识别结果。比如说，小孩与机器人进行交互，小孩用手机拍摄户外的花朵和椅子，并将该相片发送到机器人处，机器人通过语音将识别结果“花”和“椅子”告知用户，则小孩可以通过这种交互对物体进行认知。

应理解，除了上述场景，本发明实施例中的图像识别方法还可以应用于其他场景，具体本发明不作限定。

下面对本发明实施例中的图像识别方法进行介绍，请参阅图1，本发明实施例中图像识别方法的一个实施例包括：

101、获取目标图像对应的拍摄场景信息。

图像识别装置对目标图像进行识别时，首先获取目标图像对应的拍摄场景信息，其中，该拍摄场景信息不包括目标图像的图像内容，拍摄场景信息具体包括如下至少一项：拍摄目标图像时拍摄设备使用的拍摄参数，拍摄目标图像时拍摄设备对应的位置信息，拍摄目标图像时拍摄设备的设备状态。

作为一种可选的方式，上述拍摄参数可以是拍摄时人工设置或者自动设置的，具体可以包括如下至少之一：拍摄模式，拍照触发方式，摄像头的光学参数，摄像头的类型。

其中，拍摄模式指的是适用于不同场景拍摄的模式，为了便于用户使用拍摄设备，拍摄设备一般设置有多种拍摄模式，用户可以手动选择其中一种模式进行拍摄，或者拍摄设备识别出当前场景自动设置模式，又或者使用默认的拍摄模式进行拍摄，拍摄模式一般有人像模式、夜景模式、全景模式等。

拍照触发方式指的是触发拍摄目标图像的方式，比如声控触发拍摄，笑脸识别拍摄，拍摄控件触发拍摄，绑定设备触发拍摄，定时自动拍摄等。

摄像头的光学参数指的是焦距、感光度、光补偿量、曝光量、快门速度等具体参数。

摄像头的类型指的是拍摄目标图像时所使用的摄像头类型，比如一般手机、平板电脑等设备有前置摄像头和后置摄像头两个摄像头，则摄像头类型用于指示拍摄目标图像时使用的是前置摄像头还是后置摄像头，比如单反等专业摄像设备可以替换不同的镜头，则摄像头类型用于指示拍摄目标图像时使用的是哪一款的镜头。

作为一种可选的方式，上述位置信息指的是指示拍摄设备(或者说拍摄目标图像的用户)所在的地理位置的信息，具体可以是通过全球定位系统(Global PositioningSystem，GPS)定位得到的信息，可以是通过无线保真(wireless fidelity，WiFi)定位得到的信息，可以是通过基站定位得到的信息，还可以是通过其他定位方式得到的信息，具体本发明实施例不作限定。

作为一种可选的方式，上述设备状态具体可以包括如下至少之一：拍摄目标图像时拍摄设备的加速度，拍摄目标图像时拍摄设备的放置方向。

其中，上述加速度可以通过加速传感器(重力感应器)获取，上述放置方向可以通过陀螺仪获取，具体地，可以获取摄像头所在平面与垂直线(即垂直于地平面的直线)的夹角，通过该夹角区分拍摄设备的方式方向是向上还是向下，如图2所示，从左到右摄像设备的放置方向分别为正常角度，向上角度，向下角度。

示例性的，如图3所示，用户使用手机中的人像模式拍摄目标图像，拍照位置为国贸大厦的某件办公室，手机所在平面与垂直线的夹角为0(即手机垂直与地平面)，则目标图像对应的拍摄模式为人像模式，对应的设备放置方向为正常角度，对应的位置信息为国贸大厦。

102、确定与该拍摄场景信息对应的拍摄物体。

图像识别装置获取目标图像对应的拍摄场景信息之后，确定与该拍摄场景信息对应的拍摄物体，该拍摄物体也可以认为是目标图像对应的拍摄物体。

作为一种可选的方式，可以预先将用户所处的环境分为几类，如图4所示，可以将用户所处环境分为商场、景区、街道、居民区、工作区等，获取目标图像的拍摄场景信息后，可以通过拍摄场景信息中的位置信息确定拍摄设备(或者说用户)所处的环境类型，比如说位置信息为“金光华广场”，则可以确定拍摄设备所处的环境类型为“商场”，比如说位置信息为“庐山大厦”，则可以确定拍摄设备所处的环境类型为“工作区”。在一些实施例中，图像识别装置还可以在获取目标图像的拍摄场景信息的同时获取目标图像的图像内容，根据图像内容确定用户所处的环境。

图像识别装置确定环境类型后，再进一步根据拍摄场景信息中的设备状态和/或拍摄参数确定该环境类型下最可能出现的拍摄物体，即为目标图像对于的拍摄物体。具体地，对于环境类型为商场目标图像，如果拍摄场景信息中拍摄设备的放置方向为向上角度，则可以确定对应的拍摄物体包含广告牌、建筑物、人适景观或其他需要从下往上拍的商场周边物体；如果拍摄场景信息中拍摄设备的放置方向为正常角度，则可以确定对应的拍摄物体为衣服或其他需要水平拍摄的商场周边物体；如果拍摄场景信息中拍摄设备的放置方向为向下角度，则可以确定对应的拍摄物体包括底部楼层平面或其他需要从上往下俯拍的商场周边物体；对于环境类型为景区的目标图像，如果拍摄场景信息中拍摄设备的放置方向为向上角度，则可以确定对应的拍摄物体包括高建筑物、山、云、太阳或其他需要从下往上拍的景物；如果拍摄场景信息中拍摄设备的放置方向为正常角度，则可以确定对应的拍摄物体包括景区设施；如果拍摄场景信息中拍摄设备的放置方向为向下角度，则可以确定对应的拍摄物体包括山下风景或其他需要从上往下俯拍的景物。

应理解，基于不同环境类型下的设备状态和/或拍摄参数还可以分析出更多的拍摄物体，本发明实施例仅作示例性的说明，不一一列举。

还应理解，各种环境类型下不同的设备状态和/或拍摄参数所对应的拍摄物体可以是预先设定的，图像识别装置获取到目标图像的拍摄场景信息后，根据预先设定的对应关系，确定与该拍摄场景信息对应的拍摄物体。各种环境类型下不同的设备状态和/或拍摄参数所对应的拍摄物体也可以是实时分析得到的，图像识别装置获取到目标图像的拍摄场景信息后，结合网络数据或装置中的历史数据对拍摄场景信息进行分析，确定与该拍摄场景信息对应的拍摄物体。

作为一种可选的方式，有些拍摄场景信息和拍摄主题的关联性会比较强，则图像识别装置获取目标图像对应的拍摄场景信息后，可以根据该拍摄场景信息确定拍摄主题，再根据该拍摄主题确定目标图像对应的拍摄物体。

具体地，上述图像识别装置根据拍摄主题确定对应的拍摄物体的过程可以是直接确定出包含的物体。

如图5所示，当拍摄场景信息中的拍摄模式为人像模式时，可以确定对应的拍摄物体包括人，因为一般只有在拍摄人为主题的图像时才会使用人像模式进行拍摄；当拍照触发方式为声控触发拍摄或笑脸捕捉拍摄时，可以确定对应的拍摄物体包括人，因为一般只有在拍摄给人进行拍照或者自拍时才会通过声控或笑脸捕捉的方式来触发拍照；当摄像头类型为前置摄像头时，可以确定对应的拍摄物体包括人，因为一般只有在自拍时才会使用前置摄像头进行拍照。

上述图像识别装置根据拍摄主题确定对应的拍摄物体的过程也可以是先确定出对应的拍摄物体的类型或者用户所处的场景类型，再结合其他拍摄场景信息进一步确定具体的拍摄物体。

示例性的，拍摄模式为全景模式，则可以确定对应的拍摄物体的类型为景物，拍摄设备的放置方向为向上角度，则进一步确定拍摄物体包括高建筑物、山等需要从下往上拍的景物。

示例性的，拍摄设备当前的加速度大于阈值，则确定用户是在运动状态下进行拍摄的，则拍摄物体是用户在汽车或者其他交通工具中拍摄的。

上述图像识别装置根据拍摄主题确定对应的拍摄物体的过程还可以是先根据其他拍摄场景信息确定出可能包含的拍摄物体，再根据拍摄主题包含的拍摄物体作进一步筛选。

作为一种可选的方式，图像识别装置可以结合上述图4以及图5所示意的两种方式来确定拍摄场景信息对应的拍摄物体，分别通过两种方式确定拍摄物体，将两种方式确定的拍摄物体进行叠加得到目标图像对应的拍摄物体。

示例性的，拍摄模式为人像模式，位置信息为“金光华广场”，拍摄设备的放置方向为向上角度，则根据拍摄模式可以确定拍摄物体中包含人，根据位置信息可以确定用户所处环境类型为“商场”，根据拍摄设备的放置方向进一步确定拍摄物体包含广告牌，从而确定目标图像对于的拍摄物体包含：人、广告牌。

应理解，除了上述介绍的几种方式，图像识别装置还可以通过其他方式确定目标图像的拍摄场景信息对应的拍摄物体，具体本发明实施例不作限定。

103、根据该拍摄物体确定目标图像包含的物体。

图像识别装置确定拍摄场景信息对应的拍摄物体后，可以根据该拍摄物体确定目标图像包含的物体。

在上述图1对应的实施例中，图像识别装置根据拍摄场景信息对应的拍摄物体，可以通过多种方式确定目标图像包含的物体。下面以其中一种确定方式为例对本发明实施例中的图像识别方法进行详细说明，请参阅图6，本发明实施例中图像识别方法的另一实施例包括：

601、获取目标图像对应的拍摄场景信息。

本发明实施例中，关于拍摄场景信息的具体示例与前述类似，此处不再赘述。

可选地，本发明实施例中，图像识别装置可以具有拍摄功能，即图像识别装置可以是拍摄设备，目标图像对应的拍摄场景信息可以是图像识别装置在拍摄目标图像时记录的，也可以是拍摄设备在拍摄完目标图像后发送给图像识别装置的，还可以是拍摄设备通过其他方式获取的。

602、确定与该拍摄场景信息对应的拍摄物体。

本发明实施例中，确定拍摄场景信息对应的拍摄物体的方式可以是先根据位置信息确定拍摄设备(用户)所处的环境类型，再进一步根据设备状态和/或拍摄参数确定该环境类型下最可能出现的拍摄物体，即为目标图像对应的拍摄物体，该确定方式的具体示例与前述类似，此处不再赘述；

确定拍摄场景信息对应的拍摄物体的方式也可以是拍摄场景信息确定拍摄主题，再确定该拍摄主题下最可能出现的拍摄物体，即为目标图像对应的拍摄物体，该确定方式的具体示例与前述类似，此处不再赘述。

确定拍摄场景信息对应的拍摄物体的方式还可以是分别通过上述两种方式确定的拍摄物体叠加得到目标图像对应的拍摄物体，该确定方式的具体示例与前述类似，此处不再赘述。

603、通过与拍摄物体对应的目标识别引擎对目标图像进行识别得到识别结果。

图像识别装置确定与目标图像的拍摄场景信息对应的拍摄物体后，通过与拍摄物体对应的目标识别引擎对目标图像进行识别得到识别结果，即确定目标图像包含的物体。

作为一种可选的方式，图像识别装置中可以设置有多个识别引擎，每个识别引擎的引擎参数不相同，每个识别引擎的引擎参数适用于识别不同类型的物体，则图像识别装置确定拍摄物体后，从多个识别引擎中选择至少一个与该拍摄物体对应的目标识别引擎(即引擎参数所适用的类型与拍摄物体的类型对应)，然后通过该目标识别引擎对目标图像进行识别得到识别结果。

具体地，上述步骤602中识别出来的拍摄物体可以有多个，与之对应的目标识别引擎也可以有多个，此时图像识别装置可以分别使用各个目标识别引擎对目标图像进行识别，各个目标识别引擎识别得到的识别结果的交集即为目标图像包含的物体。

示例性的，图像识别装置中设置有通用图像分析，细粒度图像识别，人体分析，定制化图像识别，车辆定损检测，相册分类六个识别引擎，图像识别装置在上述步骤602中确定的拍摄物体包括人和广告牌，图像识别装置确定拍摄物体“人”与识别引擎“人体图像分析”对应，拍摄物体“广告牌”与识别引擎“通用图像分析”对应，分别通过人体图像分析和通用图像分析两个识别引擎对目标图像进行识别，其中，人体图像分析识别引擎识别出来的结果为“人”，通用图像分析识别引擎识别出来的结果为“广告牌”、“桌子”和“椅子”，则目标图像包含的物体为“人”，“广告牌”、“桌子”和“椅子”。

作为一种可选的方式，图像识别装置中可以设置有至少一个目标识别引擎，该目标识别引擎的引擎参数是可以调整的，则图像识别装置确定拍摄物体后，可以根据拍摄物体，对目标识别引擎的引擎参数进行调整，使得调整后的引擎参数与拍摄物体对应，然后再通过调整后的目标识别引擎对目标图像进行识别得到识别结果。

应理解，图像识别装置对目标识别引擎的引擎参数进行调整具体可以预先设置多组适用于不同物体类型的识别的引擎参数，从中选择其中一组作为目标识别引擎的引擎参数；或者从网络上实时获取适用于某类拍摄物体或某个拍摄物体的最优参数，将目标识别引擎的引擎参数调整为该最优参数；或者根据历史数据实时计算得到的某个拍摄物体或某类拍摄物体对应的最优参数，将目标识别引擎的引擎参数调整为该最优参数；还可以通过其他方式进行调整，具体本发明实施例不作限定。

具体地，上述步骤602中识别出来的拍摄物体可以有多个，与之对应的引擎参数也可以有多组，此时图像识别装置可以先将目标识别引擎的引擎参数调整为其中一组引擎参数，对目标图像进行识别，然后再将目标识别引擎的引擎参数调整为另一组引擎参数，对目标图像进行识别，依次使用各组与拍摄物体对应的引擎参数对目标图像进行识别，各组引擎参数对应的识别结果的交集即为目标图像包含的物体。

示例性的，图像识别装置在上述步骤602中确定的拍摄物体包括人和广告牌，图像识别装置将目标识别引擎的引擎参数调整为a，a与人像对应的最优参数，通过引擎参数调整为a后的目标识别引擎对目标图像进行识别得到识别结果“人”，然后图像识别装置将目标识别引擎的引擎参数调整为b，b为与通用类物体对应的最优参数，通过引擎参数调整为b后的目标识别引擎对目标图像进行识别得到识别结果“广告牌”、“桌子”和“椅子”，则目标图像包含的物体为“人”，“广告牌”、“桌子”和“椅子”。

应理解，本发明实施例中，对目标图像进行识别具体指的是对目标图像文件本身进行识别，即对目标图像的图像内容进行识别，目标图像的图像内容可以是与拍摄场景图像信息一起获取的，也可以是在获取拍摄场景图像信息之前获取的，或者是在获取拍摄场景图像信息之后获取的，具体本发明实施例不作限定。

示例性的，拍摄设备在拍摄目标图像时，可以将拍摄过程中的拍摄场景信息以及目标图像一起记录，其中拍摄场景信息可以用一个独立文件记录，也可以附加到目标图像文件中(类似于图片中的可交换图像文件(Exchangeable Image File，Exif)信息)。

604、确定目标图像包含的物体中与拍摄物体匹配的目标物体。

图像识别装置确定目标图像包含的物体后，确定这些物体中与上述步骤602确定的拍摄物体匹配的目标物体，其中，与拍摄物体匹配的目标物体具体指的是与拍摄物体相同和/或相似的物体。

示例性的，图像识别装置在上述步骤602中确定的拍摄物体包括人和广告牌，在上述步骤603种确定的目标图像包含的物体为“人”，“广告牌”、“桌子”和“椅子”，其中“人”和“广告牌”与步骤602确定的拍摄物体相同，确定为目标物体。

605、增大识别结果中目标物体对应的准确率。

本发明实施例中，图像识别装置通过目标识别引擎识别得到的识别结果除了指示目标图像包含的物体以外，还可以指示目标图像包含的各个物体对应的准确率。需要说明的是，本发明实施例所说的准确率也可以理解为置信度。

图像识别装置确定目标图像包含的物体中与拍摄物体匹配的目标物体后，可以对上述步骤603中的识别结果进行优化，即将识别结果中目标物体对应的准确率增大。

示例性的，识别结果指示目标图像包含的物体有“人”，“广告牌”、“桌子”和“椅子”，其中“人”对应的准确率为“80％”，“广告牌”对应的准确率为“60％”，“桌子”对应的准确率为“60％”，“椅子”对应的准确率为“60％”，其中与拍摄物体匹配的目标物体为“人”和“广告牌”，则可以将这两个物体对应的准确率增大，比如将“人”的准确率增大为“100％”，将“广告牌”的准确率增大为“80％”。

应理解，上述示例中准确率表示为一个具体的数值，则增大准确率具体可以是增大对应的数值，增大的幅度针对不同的物体可以有所不同，也可以相同，具体本发明实施例不作限定。

准确率除了可以如上述表示为一个具体的数值，也可以是将准确率分为若干级别，使用不同级别表示准确率大小，如将准确率分为“较高”，“较低”和“一般”三个级别，则增大准确率具体可以是增大准确率对应的级别，比如提升一个级别等。

需要说明的是，本发明实施例中，步骤604和步骤605为可选步骤。

作为一种可选的方式，图像识别装置通过目标识别引擎对目标图进行识别得到识别结果后，可以直接输出该识别结果。

作为一种可选的方式，图像识别装置也可以将识别结果中目标物体对应的准确率增大后再输出。

作为一种可选的方式，图像识别装置还可以通过目标识别引擎对目标图进行识别得到识别结果后，依据该识别结果中的准确率对识别出来的目标图像包含的物体进行筛选，输出筛选结果。

作为一种可选的方式，图像识别装置还可以将识别结果中目标物体对应的准确率增大后，依据增大后的准确率对识别出来的目标图像包含的物体进行筛选，输出筛选结果，比如说将准确率高于阈值(或者说大于预设等级)的物体输出，比如说将准确率最大(等级最高)的物体输出等。

作为一种可选的方式，图像识别装置还可以确定目标图像包含的物体中与拍摄物体匹配的目标物体后，将目标物体输出，或将目标物体以及目标物体对应的准确率输出。

应理解，上述几种实现方式中的输出具体可以是在显示屏上显示，也可以是通过语音播放，还可以是通过其他方式输出，具体本发明实施例不作限定。

其次，本发明实施例提供了多种确定目标图像包含的物体的方式，提高了方案的灵活性。

再次，本发明实施例识别出目标图像包含的物体后，还可以对物体对应的准确率进行校验和修正，提高了识别的准确性。

为了便于理解本发明实施例中的图像识别方法，请参阅图7，本发明实施例图像识别方法的另一实施例流程图。如图7所示，拍摄完图片时，将拍摄过程中的额外信息(即上述拍摄场景信息)以及图片一起记录，然后将记录的图片文件和额外信息输入到图像识别引擎中，图像识别引擎通过额外信息和最可能出现的物体对应表对该图片的场景信息进行分析，得出最可能出现的物体，然后依据这些最可能出现的物体和最可能出现的物体和参数的对应关系表，对引擎参数进行调整，调整后对图片文件进行识别得到识别结果，再依据最可能出现的物体对该识别结果进行优化，具体地，如果最可能出现的物体与识别结果中的物体不匹配，则该物体的置信度保持不变，如果最可能出现的物体与识别结果中的物体匹配，则提高该物体的置信度。

应理解，图像识别装置根据拍摄场景信息对应的拍摄物体除了可以如上述图6和图7所示的方式识别出目标图像包含的物体，还可以通过其他方式识别出目标图像包含的物体，如可以直接使用默认的识别引擎，或者用户选择的是识别引擎，或者根据图像内容自动选择的识别引擎对目标图像的图像内容进行识别，确定目标图像包含的物体，然后通过拍摄场景信息对应的拍摄物体对识别出来的物体进行筛选，或者对识别出来的物体的准确率进行修正，如上述图6实施例中步骤604和605所描述的方法。

上面介绍了本发明实施了中的图像识别方法，下面对本发明实施了中的图像识别装置进行介绍，请参阅图8，本发明实施例中图像识别装置的一个实施例包括：

获取模块801，用于获取目标图像对应的拍摄场景信息，所述拍摄场景信息包括如下至少一项：拍摄所述目标图像时拍摄设备使用的摄像参数，拍摄所述目标图像时拍摄设备对应的位置信息，拍摄所述目标图像时拍摄设备的设备状态；

第一确定模块802，用于确定与所述拍摄场景信息对应的拍摄物体；

第二确定模块803，用于根据所述拍摄物体确定所述目标图像包含的物体。

应理解，上述图8对应实施例中图像识别装置各模块所执行的流程与前述图1对应的方法实施例中的流程类似，此处不赘述。

本发明实施例获取模块801可以获取目标图像对应的拍摄场景信息，第二确定模块803可以根据与该拍摄场景信息对应的拍摄物体确定目标图像包含的物体，其中，拍摄场景信息包括如下至少一项：拍摄目标图像时拍摄设备使用的拍摄参数，拍摄目标图像时拍摄设备对应的位置信息，拍摄目标图像时拍摄设备的设备状态，也就是说，本发明实施例可以结合除了图像内容以外的场景信息来确定图像包含的物体，而场景信息相对于图像内容而言，信息量相对较小，因此结合该信息对图像进行物体识别，可以大大缩短识别时间，提升识别速度。

下面对本发明实施例中的图像识别装置进行详细介绍，请参阅图9，本发明实施例中图像识别装置的另一实施例包括：

获取模块901，用于获取目标图像对应的拍摄场景信息，拍摄场景信息包括如下至少一项：拍摄目标图像时拍摄设备使用的摄像参数，拍摄目标图像时拍摄设备对应的位置信息，拍摄目标图像时拍摄设备的设备状态；

第一确定模块902，用于确定与拍摄场景信息对应的拍摄物体；

第二确定模块903，用于根据拍摄物体确定目标图像包含的物体；

其中，第二确定模块903包括：

识别单元9031，用于通过与拍摄物体对应的目标识别引擎对目标图像进行识别得到识别结果，识别结果指示目标图像包含的物体。

具体地，该识别单元9031可以包括：

选择子单元90311，用于从多个识别引擎中选择至少一个与拍摄物体对应的目标识别引擎；

第一识别子单元90312，用于通过目标识别引擎对目标图像进行识别得到识别结果。

或，

调整子单元90313，用于对目标识别引擎的引擎参数进行调整，使得调整后的引擎参数与拍摄物体对应；

第二识别子单元90314，用于通过调整后的目标识别引擎对目标图像进行识别得到识别结果。

可选地，图像识别装置还可以包括：

第三确定模块904，用于确定目标图像包含的物体中与拍摄物体匹配的目标物体；

处理模块905，用于增大识别结果中目标物体对应的准确率。

应理解，上述图9对应实施例中图像识别装置各模块所执行的流程与前述图6对应的方法实施例中的流程类似，此处不赘述。

本发明实施例获取模块901可以获取目标图像对应的拍摄场景信息，第二确定模块903可以根据与该拍摄场景信息对应的拍摄物体确定目标图像包含的物体，其中，拍摄场景信息包括如下至少一项：拍摄目标图像时拍摄设备使用的拍摄参数，拍摄目标图像时拍摄设备对应的位置信息，拍摄目标图像时拍摄设备的设备状态，也就是说，本发明实施例可以结合除了图像内容以外的场景信息来确定图像包含的物体，而场景信息相对于图像内容而言，信息量相对较小，因此结合该信息对图像进行物体识别，可以大大缩短识别时间，提升识别速度。

再次，本发明实施例识别出目标图像包含的物体后，处理模块905还可以对物体对应的准确率进行校验和修正，提高了识别的准确性。

上面从功能模块的角度介绍了本发明实施例中的图像识别装置，下面从实体硬件的角度对本发明实施例中的图像识别装置进行介绍。如图10所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。本发明实施例中图像识别装置可以包括但不限于手机、平板电脑、个人电脑(personalcomputer)、智能机器人等计算机设备，以手机为例：

图10示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该图像识别装置所包括的处理器1080用于执行如下步骤：

获取目标图像对应的拍摄场景信息，拍摄场景信息包括如下至少一项：拍摄目标图像时拍摄设备使用的拍摄参数，拍摄目标图像时拍摄设备对应的位置信息，拍摄目标图像时拍摄设备的设备状态；

确定与拍摄场景信息对应的拍摄物体；

根据拍摄物体确定目标图像包含的物体。

可选地，处理器1080可以具体用于执行如下步骤：

通过与拍摄物体对应的目标识别引擎对目标图像进行识别得到识别结果，识别结果指示目标图像包含的物体。

更具体地，在上述识别过程中，处理器1080用于执行如下步骤：

从多个识别引擎中选择至少一个与拍摄物体对应的目标识别引擎，对目标图像进行识别得到识别结果；

或者用于执行如下步骤：

对目标识别引擎的引擎参数进行调整，使得调整后的引擎参数与拍摄物体对应；

通过调整后的目标识别引擎对所述目标图像进行识别得到识别结果。

可选地，所述识别结果还包括所述目标图像包含的各个物体对应的准确率，处理器1080还可以用于执行如下步骤：

通过与拍摄物体对应的目标识别引擎对目标图像进行识别得到识别结果之后包括：

确定目标图像包含的物体中与拍摄物体匹配的目标物体；

增大识别结果中目标物体对应的准确率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取目标图像对应的拍摄场景信息，所述拍摄场景信息包括如下至少一项：拍摄所述目标图像时拍摄设备使用的拍摄参数，拍摄所述目标图像时拍摄设备对应的位置信息，拍摄所述目标图像时拍摄设备的设备状态；

确定与所述拍摄场景信息对应的拍摄物体；

其中，所述确定与所述拍摄场景信息对应的拍摄物体，包括：

根据所述位置信息确定环境类型；根据所述拍摄参数或所述设备状态确定与所述环境类型对应的拍摄物体；将所述与所述环境类型对应的拍摄物体作为所述与所述拍摄场景信息对应的拍摄物体；

或，根据所述拍摄场景信息确定拍摄主题；根据所述拍摄主题确定与所述拍摄主题对应的拍摄物体；将所述与所述拍摄主题对应的拍摄物体作为所述与所述拍摄场景信息对应的拍摄物体；

或，根据所述位置信息确定环境类型；根据所述拍摄参数或所述设备状态确定与所述环境类型对应的拍摄物体；根据所述拍摄场景信息确定拍摄主题；根据所述拍摄主题确定与所述拍摄主题对应的拍摄物体；将所述与所述环境类型对应的拍摄物体，以及与所述拍摄主题对应的拍摄物体作为所述与所述拍摄场景信息对应的拍摄物体；

根据所述与所述拍摄场景信息对应的拍摄物体确定所述目标图像包含的物体。

2.根据权利要求1所述的方法，其特征在于，所述根据所述与所述拍摄场景信息对应的拍摄物体确定所述目标图像包含的物体包括：

通过与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎对所述目标图像进行识别得到识别结果，所述识别结果指示所述目标图像包含的物体。

3.根据权利要求2所述的方法，其特征在于，所述识别结果还包括所述目标图像包含的各个物体对应的准确率；

所述通过与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎对所述目标图像进行识别得到识别结果之后包括：

确定所述目标图像包含的物体中与所述与所述拍摄场景信息对应的拍摄物体匹配的目标物体；

增大所述识别结果中所述目标物体对应的准确率。

4.根据权利要求2或3所述的方法，其特征在于，所述通过与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎对所述目标图像进行识别得到识别结果包括：

从多个识别引擎中选择至少一个与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎，对所述目标图像进行识别得到识别结果。

5.根据权利要求2或3所述的方法，其特征在于，所述通过与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎对所述目标图像进行识别得到识别结果包括：

对目标识别引擎的引擎参数进行调整，使得调整后的引擎参数与所述与所述拍摄场景信息对应的拍摄物体对应；

6.一种图像识别装置，其特征在于，包括：

第一确定模块，用于确定与所述拍摄场景信息对应的拍摄物体；其中，所述确定与所述拍摄场景信息对应的拍摄物体，包括：根据所述位置信息确定环境类型；根据所述拍摄参数或所述设备状态确定与所述环境类型对应的拍摄物体；将所述与所述环境类型对应的拍摄物体作为所述与所述拍摄场景信息对应的拍摄物体；或，根据所述拍摄场景信息确定拍摄主题；根据所述拍摄主题确定与所述拍摄主题对应的拍摄物体；将所述与所述拍摄主题对应的拍摄物体作为所述与所述拍摄场景信息对应的拍摄物体；或，根据所述位置信息确定环境类型；根据所述拍摄参数或所述设备状态确定与所述环境类型对应的拍摄物体；根据所述拍摄场景信息确定拍摄主题；根据所述拍摄主题确定与所述拍摄主题对应的拍摄物体；将所述与所述环境类型对应的拍摄物体，以及与所述拍摄主题对应的拍摄物体作为所述与所述拍摄场景信息对应的拍摄物体；

第二确定模块，用于根据所述与所述拍摄场景信息对应的拍摄物体确定所述目标图像包含的物体。

7.根据权利要求6所述的装置，其特征在于，所述第二确定模块包括：

识别单元，用于通过与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎对所述目标图像进行识别得到识别结果，所述识别结果指示所述目标图像包含的物体。

8.根据权利要求7所述的装置，其特征在于，所述识别结果还包括所述目标图像包含的各个物体对应的准确率；

所述装置还包括：

第三确定模块，用于确定所述目标图像包含的物体中与所述与所述拍摄场景信息对应的拍摄物体匹配的目标物体；

处理模块，用于增大所述识别结果中所述目标物体对应的准确率。

9.根据权利要求7或8所述的装置，其特征在于，所述识别单元包括：

选择子单元，用于从多个识别引擎中选择至少一个与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎；

第一识别子单元，用于通过所述目标识别引擎对所述目标图像进行识别得到识别结果；

或，

调整子单元，用于对目标识别引擎的引擎参数进行调整，使得调整后的引擎参数与所述与所述拍摄场景信息对应的拍摄物体对应；

第二识别子单元，用于通过调整后的目标识别引擎对所述目标图像进行识别得到识别结果。

10.一种图像识别装置，其特征在于，包括：处理器及存储器；

存储器用于存储程序；

所述处理器用于执行所述程序，具体包括如下步骤：

确定与所述拍摄场景信息对应的拍摄物体；

11.根据权利要求10所述的装置，其特征在于，所述处理器具体用于包括：

12.根据权利要求11所述的装置，其特征在于，所述识别结果还包括所述目标图像包含的各个物体对应的准确率；

所述处理器还用于：

增大所述识别结果中所述目标物体对应的准确率。

13.根据权利要求11或12所述的装置，其特征在于，所述处理器具体用于包括：

从多个识别引擎中选择至少一个与所述与所述拍摄场景信息对应的拍摄物体对应的目标识别引擎，对所述目标图像进行识别得到识别结果；

或，

对目标识别引擎的引擎参数进行调整，使得调整后的引擎参数与所述与所述拍摄场景信息对应的拍摄物体对应；通过调整后的目标识别引擎对所述目标图像进行识别得到识别结果。

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的方法。