CN110019899A

CN110019899A - 一种目标对象识别方法、装置、终端及存储介质

Info

Publication number: CN110019899A
Application number: CN201710743372.7A
Authority: CN
Inventors: 李龙彬; 吴正山
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2019-07-16
Anticipated expiration: 2037-08-25
Also published as: CN110019899B

Abstract

本发明实施例提供一种目标对象识别方法、装置、终端及存储介质，该方法包括：终端获取待识别图像；获取识别辅助信息，所述识别辅助信息用于描述待识别图像中的目标对象；将所述待识别图像及所述识别辅助信息发送给后台服务器，以便后台服务器根据所述识别辅助信息，从图像识别模型识别的待识别图像的各对象中确定目标对象。本发明实施例可提升目标对象的识别准确性。

Description

一种目标对象识别方法、装置、终端及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种目标对象识别方法、装置、终端及存储介质。

背景技术

目前图像识别已在搜索、目标跟踪等领域具有广泛的应用，为得到更为准确的搜索结果、跟踪结果，对于图像中的目标对象(如图像中需进行搜索的对象或需进行跟踪的对象)进行准确的识别显得尤为重要。

以在搜索领域的应用为例，目前浏览器等具有搜索功能的软件产品一般设置有基于图片的搜索途径，用户可通过拍照或上传本地图像的方式，将搜索所使用的图像上传到后台服务器；后台服务器可基于图像识别模型对图像中需进行搜索的目标对象进行识别，从而以识别到的目标对象作为搜索条件，输出相应的搜索结果。

图像中目标对象的识别准确性一般取决于图像识别模型的识别准确性，图像识别模型一般通过学习算法(如人工智能算法)学习训练图像得到，因此为提升图像识别模型的识别准确性，需要不断的优化学习算法和提升训练图像的收集准确度。可见，通过提升图像识别模型的识别准确性，来提升图像中目标对象的识别准确性的方式，要求较为严格且难度较大；因此急需考虑新的提升图像中目标对象的识别准确性的途径。

发明内容

有鉴于此，本发明实施例提供一种目标对象识别方法、装置、终端及存储介质，以提升图像中目标对象的识别准确性。

为实现上述目的，本发明实施例提供如下技术方案：

一种目标对象识别方法，应用于终端，所述方法包括：

获取待识别图像；

获取识别辅助信息，所述识别辅助信息用于描述待识别图像中的目标对象；

将所述待识别图像及所述识别辅助信息发送给后台服务器，以便后台服务器根据所述识别辅助信息，从图像识别模型识别的待识别图像的各对象中确定目标对象。

本发明实施例还提供一种目标对象识别装置，应用于终端，所述装置包括：

图像获取模块，用于获取待识别图像；

识别辅助信息获取模块，用于获取识别辅助信息，所述识别辅助信息用于描述待识别图像中的目标对象；

发送模块，用于将所述待识别图像及所述识别辅助信息发送给后台服务器，以便后台服务器根据所述识别辅助信息，从图像识别模型识别的待识别图像的各对象中确定目标对象。

本发明实施例还提供一种终端，包括：存储器；所述存储器存储有可执行的程序，所述程序用于：

获取待识别图像；

本发明实施例还提供一种存储介质，所述存储介质存储有可执行的程序，所述程序用于：

获取待识别图像；

基于上述技术方案，本发明实施例提供的目标对象识别方法中，终端获取待识别图像后，可获取识别辅助信息，所述识别辅助信息可用于描述待识别图像中的目标对象，从而将所述待识别图像及所述识别辅助信息发送给后台服务器，由后台服务器进行进一步的识别处理；后台服务器在获取所述识别辅助信息以及待识别图像后，可根据图像识别模型识别所述待识别图像中的各对象，并根据所述识别辅助信息，从所识别的各对象中确定出目标对象，实现待识别图像中目标对象的识别确定。由于本发明实施例可结合识别辅助信息与图像识别模型的识别结果确定目标对象，使得所确定的目标对象为图像识别模型识别的对象中与识别辅助信息相匹配的对象，提升了待识别图像中目标对象的识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的目标对象识别系统的结构框图；

图2为本发明实施例提供的目标对象识别方法的信令流程图；

图3为调用图像采集装置获取待识别图像的过程示意图；

图4为本发明实施例提供的目标对象识别方法的另一信令流程图；

图5为终端确定待识别图像中的对象的数量的方法流程图；

图6为图像特征点的聚集区域的示意图；

图7为本发明实施例提供的目标对象识别方法的再一信令流程图；

图8为目标对象识别方法的应用示例示意图；

图9为本发明实施例提供的目标对象识别装置的结构框图；

图10为本发明实施例提供的目标对象识别装置的另一结构框图；

图11为本发明实施例提供的目标对象识别装置的再一结构框图；

图12为终端的硬件结构框图；

图13为本发明实施例提供的目标对象识别装置的又一结构框图；

图14为本发明实施例提供的目标对象识别装置的又另一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的目标对象识别系统的结构框图，通过图1所示目标对象识别系统可实现本发明实施例提供的目标对象识别方法，参照图1，该目标对象识别系统可以包括：终端10和后台服务器20。

终端10可以是用户所使用的终端设备，终端10可以包括但不限于如下任一种：智能手机、平板电脑、笔记本电脑等；

后台服务器20可以是网络侧设置的服务设备，后台服务器20可以由单一服务器实现，也可以是由多台服务器组成的服务器群组实现。

在一种可选示例中，如以在搜索领域的应用为例，终端10可以装载有浏览组件(如浏览器等具有搜索功能的软件产品)，该浏览组件可以具有由终端侧执行的目标对象识别方法相应的程序；后台服务器20可以是浏览服务器(为浏览组件提供网络服务)，该浏览服务器可以装载有由后台服务器侧执行的目标对象识别方法相应的程序；从而通过终端10的浏览组件与浏览服务器的交互，实现本发明实施例提供的目标对象识别方法。

显然，上述以在搜索领域的应用为例所说明的终端和后台服务器形式，仅是一种可选情况；终端和后台服务器的形式可以根据实际情况调整，如根据在不同领域的应用，终端和后台服务器的形式可以相应的调整；但不管在何种领域中进行应用，本发明实施例提供的终端侧执行的目标对象识别方法相应的程序，和后台服务器侧执行的目标对象识别方法相应的程序是不变的。

基于图1所示目标对象识别系统，图2示出了本发明实施例提供的目标对象识别方法的信令流程图，图2所示信令流程可由终端执行相应程序，后台服务器执行相应程序实现；参照图2，该信令流程可以包括：

步骤S10、终端获取待识别图像。

待识别图像可以是需进行目标对象识别的图像，待识别图像中对象的数量为至少一个，且待识别图像中存在需识别的目标对象。

可选的，终端可通过拍照形式获取待识别图像，如终端可获取摄像头等图像采集装置采集的待识别图像，该摄像头可以是终端自带的摄像头；

以在搜索领域的应用为例，如图3所示，终端可运行浏览器(浏览组件的一种可选形式)，触发浏览器界面的第一图标以调用终端的图像采集装置，获取所调用的图像采集装置采集的待识别图像，该第一图标可以是浏览器界面中预先关联的调用图像采集装置的图标；图3所示浏览器的界面示意仅是可选的，仅作为一种示例示意。

可选的，另一方面，终端可从本地图像中获取待识别图像；如终端可调取本地图像库(如本地图库、本地相册等)，从本地图像库中选取待识别图像；

以在搜索领域的应用为例，终端可运行浏览器(浏览组件的一种可选形式)，触发第二图标以调用终端的本地图像库，获取从本地图像库中选取的待识别图像，第二图标可以是浏览器界面中预先关联的调用本地图像库的图标。

可选的，上述通过触发第一图标和第二图标来获取待识别图像的情况也可结合，在浏览器场景下，用户可择一选择获取待识别图像的方式；在一种可选设置中，第一图标可设置于浏览器界面的第一预设位置，第二图标可设置于图像采集界面的第二预设位置(图像采集界面可以如第一图标触发后，图像采集装置被调用所显示的图像采集界面)；

可选的，在通过本地图像库获取待识别图像的情况下，本发明实施例获取待识别图像的另一种实现也可以是：在触发浏览器界面的第一图标以调用图像采集装置，显示图像采集装置对应的图像采集界面后，触发图像采集界面的第二图标以调用本地图像库，获取从本地图像库中选取的待识别图像，第二图标可以是图像采集界面中预先关联的调用本地图像库的图标。

步骤S11、终端获取识别辅助信息。

识别辅助信息可用于描述待识别图像中的目标对象；可选的，本发明实施例可在终端获取待识别图像后，提示用户输入识别辅助信息，终端可根据用户的输入结果，获取识别辅助信息。

进一步，本发明实施例可设置识别辅助信息的获取前提，如在待识别图像中对象的数量为多个(如至少两个)时，进行识别辅助信息的获取，而在待识别图像中对象的数量为一个时，可直接在后续使用图像识别模型从待识别图像中识别出目标对象，不需实现识别辅助信息的获取；

显然，本发明实施例也可不设置识别辅助信息的获取前提，如可支持在待识别图像中对象的数量为一个时，获取识别辅助信息；从而基于图像识别模型和识别辅助信息，结合验证识别的目标对象的准确性。

可选的，识别辅助信息的形式可以是语音或者文本。

以语音形式的识别辅助信息为例，终端可提示用户输入辅助语音，终端可获取用户输入的辅助语音，实现识别辅助信息的获取；相应的，终端可显示语音输入界面，并调用麦克风等语音采集装置采集用户输入的辅助语音；

可选的，识别辅助信息的收集可由终端装载的语音助手实现，终端可通过调用语音助手，通过语音助手提示用户输入识别辅助信息。语音助手可以认为是通过语音交互来实现或替代部分用户在手机上的查询与操作的软件，通过智能对话与即时问答的智能交互，来帮助用户解决问题。

以文本形式的识别辅助信息为例，终端可提示用户输入辅助语音，终端获取用户输入的辅助语音后，可转换为相应的辅助文本，实现识别辅助信息的获取；

或者，终端可获取用户输入的文本形式的识别辅助信息，如终端可提示用户输入辅助文字(识别辅助信息的另一种可选形式)，相应的，终端可显示文字输入框，并在用户点击该文字输入框时，激活输入法。

可选的，识别辅助信息可以用于描述待识别图像中的目标对象，如待识别图像中的目标对象的类型、名称、属性特征(如颜色、形状等)等目标对象的描述信息；一般而言，在用户不清楚目标对象的类型和/或名称时，表达目标对象的属性特征的识别辅助信息，可对后续从待识别图像中筛选目标对象提供帮助；

进一步，终端在提示用户输入待识别图像的识别辅助信息时，可通过语音或文字提示用户输入目标对象的类型，和/或名称，和/或属性特征等目标对象的描述信息。

步骤S12、终端将所述待识别图像及识别辅助信息发送给后台服务器。

可选的，终端可将辅助语音发送给后台服务器(语音形式的识别辅助信息的情况下)，或者，终端可将辅助语音相应的辅助文本发送给后台服务器(文本形式的识别辅助信息的情况下)。

步骤S13、后台服务器根据图像识别模型识别所述待识别图像中的各对象。

可选的，待识别图像可作为后台服务器所预置的图像识别模型的输入，通过图像识别模型对待识别图像的处理，可识别出待识别图像中的各对象；图像识别模型识别出待识别图像中的各对象，可以理解为是，识别出待识别图像中的各对象的名称、类型等对象描述信息。

进一步，图像识别模型可输出各对象的识别概率。

步骤S14、后台服务器根据所述识别辅助信息，从所识别的各对象中确定目标对象。

可选的，后台服务器可将所识别的各对象的对象描述信息，与所述识别辅助信息进行匹配，根据匹配结果从所识别的各对象中确定目标对象；

可选的，后台服务器可确定所述识别辅助信息表示的目标对象的描述信息(如识别辅助信息中目标对象的类型，名称，属性特征等的描述信息)，从而将所识别的各对象的对象描述信息，与识别辅助信息中目标对象的描述信息进行匹配，从所识别的各对象中确定出对象描述信息与识别辅助信息表示的目标对象的描述信息相匹配的对象，得到匹配结果，从而根据匹配结果从所识别的各对象中确定目标对象。

可选的，如果识别辅助信息为文本形式(即识别辅助信息为辅助文本，该辅助文本可以是用户输入的文本，也可能是用户输入的辅助语音相应的辅助文本)，则后台服务器可根据辅助文本，从所识别的各对象中确定目标对象；

而如果识别辅助信息为语音形式(即识别辅助信息为辅助语音)，则后台服务器可确定辅助语音相应的辅助文本，以辅助文本，从所识别的各对象中确定目标对象。

本发明实施例提供的目标对象识别方法中，终端获取待识别图像后，可获取识别辅助信息，所述识别辅助信息可用于描述待识别图像中的目标对象，从而将所述待识别图像及所述识别辅助信息发送给后台服务器，由后台服务器进行进一步的识别处理；后台服务器在获取所述识别辅助信息以及待识别图像后，可根据图像识别模型识别所述待识别图像中的各对象，并根据所述识别辅助信息，从所识别的各对象中确定出目标对象，实现待识别图像中目标对象的识别确定。由于本发明实施例可结合识别辅助信息与图像识别模型的识别结果确定目标对象，使得所确定的目标对象为图像识别模型识别的对象中与识别辅助信息相匹配的对象，提升了待识别图像中目标对象的识别准确性。

在本发明实施例的一种可选实现上，本发明实施例可在待识别图像中对象的数量为至少两个时，提示用户输入识别辅助信息，从而根据输入结果获取识别辅助信息；需要说明的是，在图像中同时存在多个对象等识别干扰较大的情况下，图像识别模型的优化对于目标对象的识别准确性的提升也是有限的；基于此，本发明实施例可在待识别图像中对象的数量为多个时，提示用户输入识别辅助信息，从而以识别辅助信息结合图像识别模型，从待识别图像的多个对象中识别出目标对象；

可选的，图4示出了本发明实施例提供的目标对象识别方法的另一信令流程图，参照图4，该信令流程可以包括：

步骤S20、终端获取待识别图像。

可选的，步骤S20可参照上文步骤S10的描述。

步骤S21、终端确定所述待识别图像中对象的数量。

可选的，本发明实施例可提取待识别图像中的图像特征点，根据所提取的图像特征点的聚集度来确定待识别图像中对象的数量。

显然，根据待识别图像的图像特征点的聚集度来确定待识别图像中的对象数量，仅是一种可选方式，本发明实施例并不排除其他确定图像中对象的数量的方式；如可分析待识别图像中范围连续的轮廓，以识别轮廓的方式确定待识别图像中对象的数量，一般而言，待识别图像中一个范围连续的轮廓对应一个对象。

可选的，终端可处理分析该待识别图像，确定待识别图像中的对象的数量(如终端可提取待识别图像中的图像特征点，根据所提取的图像特征点的聚集度来确定待识别图像中对象的数量)；另一方面，终端也可将待识别图像传输至后台服务器，由后台服务器处理分析该待识别图像，确定待识别图像中的对象的数量，后台服务器可将待识别图像中的对象的数量告知终端，使得终端确定出待识别图像中对象的数量。

待识别图像中对象的数量可能是一个，也可能是多个(至少两个)，本发明实施例所要解决的是待识别图像中存在多个对象的情况下，如何从该多个对象中确定目标对象，并使得目标对象的识别准确性较高的问题。

显然，在待识别图像中对象的数量为一个时，也是可结合识别辅助信息，对图像识别模型识别的目标对象的准确性进行验证；即在待识别图像中对象的数量为一个时，上述图2所示方法也可支持识别辅助信息的获取。

步骤S22、若所述待识别图像中对象的数量为至少两个，终端提示输入识别辅助信息。

在确定待识别图像中对象的数量为至少两个时，直接使用图像识别模型识别待识别图像，由于图像识别模型缺少从所识别的多个对象中确定目标对象的依据，因此直接使用图像识别模型识别待识别图像来得到目标对象，将存在误识别目标对象的可能，导致目标对象的识别准确性较低；基于此，本发明实施例考虑在确定待识别图像中对象的数量为至少两个时，由终端提示用户进一步输入识别辅助信息，以便后续可结合识别辅助信息对图像识别模型识别的多个对象进行进一步的筛选，提升最终识别的目标对象的识别准确性。

步骤S23、终端根据输入结果，获取识别辅助信息。

可选的，终端可调用语音助手，通过语音助手提示输入辅助语音；如果识别辅助信息设置为语音形式，则可将所述辅助语音作为识别辅助信息；

如果识别辅助信息设置为文本形式，则可确定所述辅助语音相应的辅助文本，将所述辅助文本作为识别辅助信息；

可选的，将辅助语音转换为相应的文本的工作可由终端实现，也可以是终端将辅助语音传输给语音识别服务器，由语音识别服务器识别出辅助语音相应的文本后反馈回终端，使得终端确定出辅助语音相应的辅助文本，得到识别辅助信息；此处的语音识别服务器与图1所示后台服务器可以不同，也可能集合在同一服务器集群中。

可选的，在另一种实现上，如果识别辅助信息设置为文本形式，且用户以文本方式输入识别辅助信息，则终端可确定用户输入的文本为识别辅助信息。

步骤S24、终端将所述待识别图像及所述识别辅助信息发送给后台服务器。

可选的，在确定用户输入的识别辅助信息后，终端可将识别辅助信息与待识别图像相关联(设置关联关系)，并将关联后的待识别图像及识别辅助信息发送给后台服务器，使得后台服务器在根据图像识别模型识别出待识别图像中的各对象后，进一步根据所述识别辅助信息从所识别的各对象中确定目标对象，

步骤S25、后台服务器根据图像识别模型识别所述待识别图像中的各对象。

步骤S26、后台服务器根据所述识别辅助信息，从所识别的各对象中确定目标对象。

可选的，后台服务器可确定所述识别辅助信息表示的目标对象的描述信息(如辅助文本中目标对象的类型，名称，属性特征等的描述信息)，从而将所识别的各对象的对象描述信息，与识别辅助信息中目标对象的描述信息进行匹配，从所识别的各对象中确定出对象描述信息与识别辅助信息表示的目标对象的描述信息相匹配的对象，得到匹配结果，从而根据匹配结果从所识别的各对象中确定目标对象。

本发明实施例提供的目标对象识别方法中，终端获取待识别图像后，可确定所述待识别图像中对象的数量，如果所述待识别图像中对象的数量为至少两个，则终端可提示输入识别辅助信息，根据输入结果，获取识别辅助信息；从而终端可将识别辅助信息以及待识别图像发送给后台服务器，由后台服务器进行进一步的识别处理；后台服务器在获取所述识别辅助信息以及待识别图像后，可根据图像识别模型识别所述待识别图像中的各对象，并根据所述识别辅助信息，从所识别的各对象中确定出目标对象，实现待识别图像中目标对象的识别确定。由于本发明实施例可在待识别图像中同时存在多个对象这一识别干扰较大的情况下，提示用户输入识别辅助信息，从而结合识别辅助信息与图像识别模型的识别结果确定目标对象，使得所确定的目标对象为图像识别模型识别的对象中与辅助文本相匹配的对象，提升待识别图像中目标对象的识别准确性。

可选的，作为一种可选实现，终端可通过提取待识别图像中的图像特征点，来确定待识别图像中对象的数量；可选的，图5示出了终端确定待识别图像中的对象的数量的方法流程图，图5所示方法可由终端执行实现，参照图5，该方法可以包括：

步骤S100、终端提取待识别图像的图像特征点。

可选的，终端可利用图像特征选取算法，标识出待识别图像中的图像特征点。

步骤S110、终端根据所述图像特征点的聚集度，确定所述待识别图像中图像特征点的聚集区域的数量，将所述聚集区域的数量确定为待识别图像中对象的数量。

在提取出待识别图像的图像特征点后，本发明实施例可分析图像特征点在待识别图像中的聚集度情况，确定出待识别图像中图像特征点的聚集区域(一个聚集区域可以认为是待识别图像中连续的且图像特征点数量超过设定数量的图像特征点区域)，及聚集区域的数量，从而将所确定的聚集区域的数量作为待识别图像中对象的数量，确定出待识别图像中对象的数量；如图6所示，黑点表示图像特征点，则待识别图像中连续的且图像特征点数量超过设定数量的聚集区域为3个，如图示虚线所圈定的大致区域，相应的，可确定待识别图像中的对象的数量为3个。

在确定待识别图像的对象的数量为至少两个时，终端可执行提示用户输入识别辅助信息的流程；而在确定待识别图像的对象的数量为一个时，本发明实施例可将待识别图像传输给后台服务器，由后台服务器根据图像识别模型直接识别出待识别图像中的目标对象。

可选的，图5所示方法也可由后台服务器执行，终端可将待识别图像传输给后台服务器，由后台服务器基于图5所示流程确定待识别图像中对象的数量后，后台服务器可将所确定的待识别图像中对象的数量反馈给终端，以使终端确定出待识别图像中对象的数量。

作为一种优选方案，终端可通过摄像头采集待识别图像，并基于语音助手实现识别辅助信息的获取。可选的，图7示出了本发明实施例提供的目标对象识别方法的再一信令流程，参照图7，该信令流程可以包括：

步骤S30、终端调用摄像头获取待识别图像。

可选的，终端可受用户操作触发调用摄像头，以获取待识别图像。如用户可触发终端运行的浏览器的第一图标，从而调用摄像头。

可选的，终端调用摄像头后，本发明实施例可将用户点击拍摄键时对应拍摄的图像作为待识别图像；另一种实现中，本发明实施例可将摄像头静止时长超过一定时长(如1秒)时对应拍摄的图像作为待识别图像。

步骤S31、终端确定所述待识别图像中对象的数量。

可选的，可通过图5所示方法实现待识别图像中对象的数量的确定。

步骤S32、若所述待识别图像中对象的数量为至少两个，终端调用语音助手，通过语音助手提示用户输入辅助语音。

可选的，调用语音助手后，语音助手可通过显示文字或发出语音的方式，提示用户当前需进行辅助识别目标对象的辅助语音的输入；从而用户说出语音后，语音助手可通过监听麦克风，实现辅助语音至终端的录入。

步骤S33、终端确定用户输入的辅助语音相应的辅助文本。

可选的，终端可将用户输入的辅助语音转换为文本，得到相应的辅助文本；可选的，另一种实现上，终端可将辅助语音发送给语音识别服务器(如为语音助手提供网络服务的服务设备)，由语音识别服务器转换出辅助语音相应的文本后反馈给终端，从而终端可基于语音识别服务器的反馈确定辅助语音相应的辅助文本。

在本发明实施例中，辅助文本作为识别辅助信息使用。

步骤S34、终端将所述待识别图像与辅助文本相关联，将所述待识别图像及所述辅助文本发送给后台服务器。

在本发明实施例中，终端获取待识别图像后并不直接上传至后台服务器，而是需等待待识别图像中对象的数量确定，在待识别图像中仅一个对象时，可直接上传待识别图像至后台服务器；而在待识别图像中存在至少两个对象时，需进一步等待语音助手采集的辅助语音，将辅助语音相应的辅助文本与待识别图像相关联，指示辅助文本为待识别图像中目标对象的辅助识别依据(即辅助文本可用于描述待识别图像中的目标对象，以辅助识别待识别图像中的目标对象)，再将待识别图像及辅助文本发送给后台服务器，由后台服务器进行后续处理。

步骤S35、后台服务器根据图像识别模型识别所述待识别图像中的各对象。

可选的，后台服务器根据图像识别模型处理待识别图像后，可识别出待识别图像中的各对象，得到各对象的对象描述信息以及各对象的识别概率。

步骤S36、后台服务器根据所述辅助文本，从所识别的各对象中确定目标对象。

可选的，后台服务器可将所识别的各对象的对象描述信息，与所述辅助文本中目标对象的描述信息相匹配，从所识别的各对象中确定对象描述信息与所述辅助文本相匹配的对象，将该对象的识别概率增加(增加识别概率的方式可以设定，如成一定倍数增加，或增加一定概率数值等)，从而根据增加识别概率后各对象的识别概率，从所识别的各对象中确定目标对象(如可将识别概率最大的对象作为目标对象)。

可选的，通过增加对象描述信息与所述辅助文本相匹配的对象的识别概率，来确定目标对象仅是一种可选方式，在其他种实现上，如本发明实施例也可直接将对象描述信息与所述辅助文本相匹配的对象作为目标对象。

可选的，图7所示流程中也可将用户输入的辅助语音作为识别辅助信息，通过将待识别图像与辅助语音相关联，将所述待识别图像及所述辅助语音发送给后台服务器，由后台服务器转换出辅助语音相应的辅助文本，根据辅助语音相应的辅助文本，从图像识别模型所识别的待识别图像的各对象中确定目标对象。

可选的，在确定目标对象后，根据应用领域的不同，后台服务器基于目标对象所进行的应用操作也可能不同；以搜索领域为例，后台服务器可根据目标对象确定相应的搜索结果，将搜索结果反馈给终端，相应的，终端可获取后台服务器发送的目标对象相应的搜索结果，并在搜索页面进行展示，以使得用户可进一步了解目标对象的具体信息。

这里需要说明的是，本发明实施例提供的目标对象识别方法，基于用户输入的识别辅助信息，辅助确定图像识别模型识别的待识别图像的各对象中的目标对象，这与现有技术在待识别图像中同时存在多个对象时，确定目标对象的改进技术思路和方向存在较大的实质差异；

在现有技术中，当待识别图像中同时存在多个对象时，为使得图像识别模型能够准确的确定出目标对象，改进的思路和方向一般是：要求用户调整摄像头的角度，使得待识别图像在拍摄时，目标对象居中在待识别图像中展示，后续图像识别模型可将识别到的待识别图像中居中展示的对象作为目标对象，从而以此方式在待识别图像中同时存在多个对象时，确定出待识别图像中的目标对象；

可见，本发明实施例提供的目标对象识别方法，与现有这种使目标对象居中在待识别图像中展示来确定目标对象的改进思路存在明显的区别，两者存在实质差异；本发明实施例基于用户输入的识别辅助信息，辅助图像识别模型确定待识别图像中的目标对象的方法，以新型的目标对象识别方法提升了目标对象的识别准确性。

以搜索领域的应用为例，本发明实施例提供的目标对象识别方法的应用示例可如图8所示，过程包括：

用户打开手机(终端的一种可选形式)的浏览器，点击浏览器界面中的第一图标，调用手机的摄像头，进入“识你所见”的模式(目标对象识别模式的一种表示形式)；进一步，摄像界面的左小角(第二预设位置的可选形式)可设置第二图标“图库”，该第二图标触发后可调用手机的本地图库；

用户操作手机，将摄像头对准目标对象，并静止摄像头1秒(也可是用户点击摄像界面的摄像键)，手机获取到摄像头拍摄的待识别图像，该待识别图像中同时存在“苹果”和“笔”两个对象，其中“苹果”为用户希望识别的目标对象；

手机提取待识别图像的图像特征点，并分析图像特征点在待识别图像中的聚集情况，发现图像特征点的聚集区域为两个，因此确定待识别图像中存在的对象的数量为两个；此时，手机调用语音助手，并通过语音助手提示用户输入辅助识别目标对象的辅助语音；

用户说出辅助语音“水果”后，语音助手可采集“水果”相应的辅助语音，终端将语音助手采集的辅助语音传送给语音识别服务器；语音识别服务器进行语音识别后，向手机反馈“水果”相应的辅助文本；

手机将“水果”相应的辅助文本与待识别图像相关联后，传输给后台服务器；

后台服务器根据图像识别模型识别待识别图像，确定待识别图像中存在“苹果”和“笔”这两个对象，确定出“苹果”这一对象的名称、对象类型、形状等对象描述信息，确定出“笔”这一对象的名称、对象类型、形状等对象描述信息；同时服务器输出“苹果”和“笔”的对象分别的识别概率；

后台服务器根据辅助文本中对目标对象的描述“水果”，可确定待识别图像中“苹果”这一对象的对象描述信息与辅助文本相匹配，增加“苹果”这一对象的识别概率；

后台服务器基于增加识别概率后，“苹果”和“笔”的对象分别的识别概率，可确定“苹果”的识别概率较大，确定“苹果”为所识别的目标对象；

后台服务器搜索“苹果”相应的搜索结果，并反馈至终端，从而终端可在浏览器的搜索页面展示“苹果”相应的搜索结果。

可选的，上述应用示例中，终端也可将辅助语音“水果”随同待识别图像传输给后台服务器，由后台服务器转换出辅助语音“水果”相应的辅助文本后，根据辅助语音“水果”相应的辅助文本，从待识别图像中存在的“苹果”和“笔”这两个对象中，确定目标对象“苹果”。

下面以终端的角度对本发明实施例提供的目标对象识别装置进行介绍，下文描述的目标对象识别装置可以认为是，终端为实现本发明实施例提供的目标对象识别方法所需设置的程序模块。下文描述的目标对象识别装置可与上文描述的目标对象识别方法相互对应参照。

图9为本发明实施例提供的目标对象识别装置的结构框图，该装置可应用于终端；可选的，该装置可具体应用于终端的浏览器中；参照图9，该装置可以包括：

图像获取模块100，用于获取待识别图像；

识别辅助信息获取模块110，用于获取识别辅助信息，所述识别辅助信息用于描述待识别图像中的目标对象；

发送模块120，用于将所述待识别图像及所述识别辅助信息发送给后台服务器，以便后台服务器根据所述识别辅助信息，从图像识别模型识别的待识别图像的各对象中确定目标对象。

可选的，识别辅助信息可以表示有目标对象的描述信息，包括但不限于目标对象的类型，和/或名称，和/或属性特征。

可选的，图10示出了目标对象识别装置的另一结构框图，结合图9和图10所示，该装置还可包括：

对象数量确定模块130，用于确定所述待识别图像中对象的数量；

触发执行模块140，用于若所述数量为至少两个，触发识别辅助信息获取模块110获取识别辅助信息。

可选的，识别辅助信息获取模块110，用于获取识别辅助信息，具体包括：

提示输入识别辅助信息；

根据输入结果，获取识别辅助信息。

可选的，识别辅助信息获取模块110，用于提示输入识别辅助信息，具体包括：

调用语音助手，通过语音助手提示输入辅助语音；

相应的，识别辅助信息获取模块110，用于根据输入结果，获取识别辅助信息，具体包括：

将所述辅助语音作为识别辅助信息；

或，确定所述辅助语音相应的辅助文本，将所述辅助文本作为识别辅助信息。

可选的，确定所述辅助语音相应的辅助文本可由终端实现，也可是终端将辅助语音传输给语音识别服务器后，获得语音识别服务器反馈的相应的辅助文本实现。

可选的，识别辅助信息的形式可以是文本形式，如可提示用户输入辅助文本，相应的，用户输入的辅助文本可视为识别辅助信息。

可选的，对象数量确定模块130，用于确定所述待识别图像中对象的数量，具体包括：

提取所述待识别图像的图像特征点；

根据所述图像特征点的聚集度，确定所述待识别图像中图像特征点的聚集区域的数量，将所述聚集区域的数量确定为待识别图像中对象的数量。

可选的，图像获取模块100，用于获取待识别图像，具体包括：

触发浏览器界面的第一图标以调用图像采集装置，获取所调用的图像采集装置采集的待识别图像。

可选的，另一种实现上，图像获取模块100，用于获取待识别图像，可具体包括：

触发浏览器界面的第一图标以调用图像采集装置，显示图像采集装置对应的图像采集界面；

触发所述图像采集界面的第二图标以调用本地图像库，获取从本地图像库中选取的待识别图像。

可选的，图11示出了本发明实施例提供的目标对象识别装置的再一结构框图，结合图9和图11所示，该装置还可以包括：

搜索结果获取模块150，用于获取所述后台服务器发送的所述目标对象相应的搜索结果。

可选的，图12示出了终端的硬件结构框图，上文所示应用于终端的程序模块可被配置为可执行的程序，写入终端的存储器中，由终端的处理器调用执行；可选的，该程序可是存储器存储的浏览器程序的部分，即浏览器程序可包括该程序，浏览器程序可存储于存储器中，受处理器的调用；参照图12，该终端可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储有可执行的程序，该程序可用于：

获取待识别图像；

可选的，该程序可以是浏览器程序的部分，该程序的功能细化及功能扩展可参照上文相应部分。

可选的，本发明实施例还提供一种存储介质，该存储介质存储有可执行的程序，该程序可被终端的处理器调用执行，该程序可具体用于：

获取待识别图像；

可选的，该程序的功能细化及功能扩展可参照上文相应部分。

下面以后台服务器的角度对本发明实施例提供的目标对象识别装置进行介绍，下文描述的目标对象识别装置可以认为是，后台服务器为实现本发明实施例提供的目标对象识别方法所需设置的程序模块。下文描述的目标对象识别装置可与上文描述的目标对象识别方法相互对应参照。

图13为本发明实施例提供的目标对象识别装置的又一结构框图，该装置可应用于后台服务器，参照图13，该装置可以包括：

获取模块200，用于获取终端发送的待识别图像以及识别辅助信息；所述识别辅助信息用于描述待识别图像中的目标对象；

对象识别模块210，用于根据图像识别模型识别所述待识别图像中的各对象；

目标对象确定模块220，用于根据所述识别辅助信息，从所识别的各对象中确定目标对象。

可选的，如果识别辅助信息为辅助语音，则目标对象确定模块220可根据辅助语音相应的辅助文本，从所识别的各对象中确定目标对象。

如果识别辅助信息为辅助文本，则目标对象确定模块220可根据辅助文本，从所识别的各对象中确定目标对象。

可选的，对象识别模块210，用于根据图像识别模型识别所述待识别图像中的各对象，可具体包括：

根据图像识别模型识别所述待识别图像，确定所述待识别图像中各对象的对象描述信息；

相应的，目标对象确定模块220，用于根据所述识别辅助信息，从所识别的各对象中确定目标对象，具体包括：

将所识别的各对象的对象描述信息，与所述识别辅助信息表示的目标对象的描述信息进行匹配，从所识别的各对象中确定出对象描述信息与识别辅助信息表示的目标对象的描述信息相匹配的对象，得到匹配结果，根据匹配结果从所识别的各对象中确定目标对象。

可选的，对象识别模块210，还可用于：确定所识别的各对象的识别概率；

相应的，目标对象确定模块220，用于根据匹配结果从所识别的各对象中确定目标对象，具体包括：

将对象描述信息与辅助文本表示的目标对象的描述信息相匹配的对象的识别概率增加，根据增加识别概率后各对象的识别概率，从所识别的各对象中确定目标对象。

可选的，图14示出了本发明实施例提供的目标对象识别装置的又另一结构框图，结合图13和图14，该装置还可以包括：

搜索结果确定及反馈模块230，用于搜索目标对象相应的搜索结果，将所述搜索结果反馈给所述终端。

可选的，后台服务器的硬件结构可与图12类似，可相参照；在本发明实施例中，后台服务器可设置有存储器，该存储器中可存储可执行的程序，该程序的功能可对应上文应用于后台服务器的程序模块的功能；

在本发明实施例中，后台服务器的存储器中所存储的可执行的程序，可用于：

获取终端发送的待识别图像以及识别辅助信息；所述识别辅助信息用于描述待识别图像中的目标对象；

根据图像识别模型识别所述待识别图像中的各对象；

根据所述识别辅助信息，从所识别的各对象中确定目标对象。

可选的，本发明实施例还提供一种存储介质，该存储介质存储有可执行的程序，该程序可被后台服务器的处理器调用执行，该程序可具体用于：

根据图像识别模型识别所述待识别图像中的各对象；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标对象识别方法，其特征在于，应用于终端，所述方法包括：

获取待识别图像；

2.根据权利要求1所述的目标对象识别方法，其特征在于，所述方法还包括：

确定所述待识别图像中对象的数量；

若所述数量为至少两个，触发执行所述获取识别辅助信息的步骤。

3.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述获取识别辅助信息包括：

提示输入识别辅助信息；

根据输入结果，获取识别辅助信息。

4.根据权利要求2所述的目标对象识别方法，其特征在于，所述确定所述待识别图像中对象的数量包括：

提取所述待识别图像的图像特征点；

5.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述获取待识别图像包括：

6.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述获取待识别图像包括：

7.根据权利要求3所述的目标对象识别方法，其特征在于，所述提示输入识别辅助信息包括：

调用语音助手，通过语音助手提示输入辅助语音；

所述根据输入结果，获取识别辅助信息包括：

将所述辅助语音作为识别辅助信息；

8.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述方法还包括：

获取所述后台服务器发送的所述目标对象相应的搜索结果。

9.一种目标对象识别装置，其特征在于，应用于终端，所述装置包括：

图像获取模块，用于获取待识别图像；

10.一种终端，其特征在于，包括：存储器；所述存储器存储有可执行的程序，所述程序用于：

获取待识别图像；

11.一种存储介质，其特征在于，所述存储介质存储有可执行的程序，所述程序用于：

获取待识别图像；