CN110956058B

CN110956058B - 图像识别方法、装置及电子设备

Info

Publication number: CN110956058B
Application number: CN201811126791.7A
Authority: CN
Inventors: 赵元
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2023-10-24
Anticipated expiration: 2038-09-26
Also published as: CN110956058A

Abstract

本发明实施例提供一种图像识别方法、装置及电子设备。所述图像识别方法包括：将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果；将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列；使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率；根据各个预测目标序列的组合概率得到所述待识别图像的识别结果。

Description

图像识别方法、装置及电子设备

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像识别方法、装置及电子设备。

背景技术

在语音识别或机器翻译中，可以使用校正模型对识别结果进行进一步地校正，由于自然语言中，字、词、短语之间会有固定的搭配和组合，通过校正可以使得到的最终结果可以更符合字、词、短语之间的搭配和组合。但是现有技术中对于图像之间的组合方面却没有更多的研究。

发明内容

有鉴于此，本发明实施例的目的在于提供一种图像识别方法、装置及电子设备。

第一方面，本发明实施例提供的一种图像识别方法，包括：

将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果；

将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列；

使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率；

根据各个预测目标序列的组合概率得到所述待识别图像的识别结果。

可选地，在所述将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列的步骤之前，所述方法还包括：

根据每个目标识别区域在所述待识别图像中的位置确定出多个目标识别区域中的起始区域词；

获取其它目标识别区域的中心与所述起始区域词的中心的距离；

根据其它图像的距离将所述目标识别区域进行排序，得到所述起始区域词的上下文目标识别区域及对应的排列顺序；

所述将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列的步骤，包括：将每个目标识别区域的识别候选结果按照所述排列顺序进行组合得到有序的多个预测目标序列。

可选地，所述使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率的步骤，包括：

将每个预测目标序列中的每个目标识别区域转换为图向量，得到每个预测目标序列对应的图向量组；

将所述图向量组输入所述图像语言模型进行计算，得到每个预测目标序列的组合概率。

可选地，所述将每个预测目标序列中的每个目标识别区域转换为图向量，得到每个预测目标序列对应的图向量组的步骤，包括：

从预存的图向量表中查找获取每个预测目标序列中的每个目标识别区域对应的图向量。

可选地，所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤，包括：

对待识别图像进行检测得到该待识别图像中每个目标识别区域的候选图像词；

从预存的图向量表中查找获取每个候选图像词对应的候选图向量，将每个目标识别区域对应的候选图向量作为识别候选结果。

将待识别图像输入基于神经网络的检测模型中进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

使用不同尺寸的滑动窗口框对待识别图像中的部分区域框出作为候选区域；

提取所述候选区域中的视觉特征；

将所述视觉特征使用分类器进行检测得到该候选区域的识别候选结果；

重复上述步骤直到将所述待识别图像中的每个目标识别区域进行检测得到对应的识别候选结果。

可选地，所述将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列的步骤，包括：

将所述待识别图像划分成多个子图像；

获取每个子图像中的识别候选结果进行组合，得到每个子图像对应的多个预测目标序列；

所述根据各个预测目标序列的组合概率得到所述待识别图像的识别结果的步骤，包括：

根据每个子图像对应的预测目标序列的组合概率得到每个子图像的识别结果；

将每个子图像的识别结果进行组合得到所述待识别图像的识别结果。

可选地，应用于电子设备，所述电子设备包括图像采集设备，或与一图像采集设备通信连接；在所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤之前，所述方法还包括：

获取所述图像采集设备采集的待识别图像。

可选地，在所述根据各个预测目标序列的组合概率得到所述待识别图像的识别结果的步骤之后，所述方法还包括：

根据所述识别结果生成提示消息，并播放该提示消息。

根据所述识别结果生成推荐操作选项，并播放所述推荐操作选项对应的音频或视频消息。

可选地，所述图像语言模型通过以下方式训练得到：

将训练图像集中的每个图像词转换成图向量，所述训练图像集包括预收集得到的图像词，每个图像词是一图像集合；

根据所述训练图像集中所携带的标记将获得的图向量生成训练序列；

将所述训练序列输入预设的语言训练模型进行训练得到所述图像语言模型。

可选地，在所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤之前，所述方法还包括：

获取预存的图像词表，所述图像词表包括多个图像词，每一个图像词包括多个表达该图像词对应的多张图像；

为所述图像词表中的图像词分配数值，得到每个图像词对应的图向量；

将所述图像词表与该图像词表中的图像词进行关联存储形成图向量表。

第二方面，本发明实施例还提供一种图像识别装置，包括：

检测模块，用于将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果；

组合模块，用于将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列；

概率计算模块，用于使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率；

得到模块，用于根据各个预测目标序列的组合概率得到所述待识别图像的识别结果。

可选地，所述装置还包括：

确定模块，用于根据每个目标识别区域在所述待识别图像中的位置确定出多个目标识别区域中的起始区域词；

距离获取模块，用于获取其它目标识别区域的中心与所述起始区域词的中心的距离；

排序模块，用于根据其它图像的距离将所述目标识别区域进行排序，得到所述起始区域词的上下文目标识别区域及对应的排列顺序；

所述组合模块还用于将每个目标识别区域的识别候选结果按照所述排列顺序进行组合得到有序的多个预测目标序列。

提取所述候选区域中的视觉特征；

将所述待识别图像划分成多个子图像；

可选地，应用于电子设备，所述电子设备包括图像采集设备，或与一图像采集设备通信连接；在所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤之前，所述装置还包括：

获取所述图像采集设备采集的待识别图像。

可选地，在所述根据各个预测目标序列的组合概率得到所述待识别图像的识别结果的步骤之后，所述装置还包括：

根据所述识别结果生成提示消息，并播放该提示消息。

可选地，所述图像语言模型通过以下方式训练得到：

可选地，在所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤之前，所述装置还包括：

第三方面，本发明实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储支持处理器执行上述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

与现有技术相比，本发明实施例的图像识别方法，通过先对图像进行检测得到每个目标识别区域的识别候选结果，识别候选结构进行排序得到预测目标序列，所述预测目标序列可以表示所述待识别图像可能是的物品。再通过所述图像语言模型计算各序列的组合概率得到最后的识别结果，可以使得到的识别结果更符合自然界中物与物之间的组合，使识别结果的可信度更高。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的方框示意图。

图2为本发明实施例提供的图像识别方法的流程图。

图3为本发明实施例提供的图像识别方法的部分流程图。

图4a表示一个实例中的待识别图像的示意图。

图4b表示图4a的线框示意图。

图5为本发明另一实施例提供的图像识别方法的流程图。

图6为本发明一实施例提供的图像识别方法所使用的图像语言模型的训练的流程图。

图7为本发明一实施例提供的图像识别方法所使用的图像语言模型的训练示意图。

图8为本发明实施例提供的图像识别装置的功能模块示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，是一电子设备100的方框示意图。所述电子设备100包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。本实施例所述的电子设备100可以是个人计算机、图像处理服务器、车载设备或者移动电子设备等具有图像处理能力的计算设备。

所述存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器111中存储至少一个以软件或固件(Firmware)的形式的软件功能模块，或所述电子设备100的操作系统(Operating System，OS)中固化有软件功能模块。所述处理器113用于执行存储器中存储的可执行模块。

其中，所述存储器111可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序，本发明实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

所述处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述外设接口114将各种输入/输入装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

所述输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是，但不限于，鼠标和键盘等。

所述显示单元116在所述电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

进一步地，所述电子设备100是车载设备、个人电脑时，所述电子设备100还可以包括定位模块。所述定位模块可以是GPS模块，用于接收GPS卫星播报的定位信号，并根据定位信号计算出自身的位置。上述位置例如可用经度、纬度以及海拔高度来表示。可以理解，实现定位的方式并不限于GPS系统。例如，其他可用的卫星定们系统还包括北斗卫星定位系统(Compass Navigation Satellite System，CNSS)或者格洛纳斯系统(Global NavigationSatellite System，GLONASS)。此外，定位也并不限于采用卫星定位技术，例如，还可采用无线定位技术，例如基于无线基站的定位技术或者无线热点的定位技术。此时，GPS模块可被替换成相应的模块，或者直接经由处理器执行特定的定位程序来实现。

发明人研究确定，在语音的识别过程中，通过语言模型通过对识别到的初步结果进行校正，判断初步结果进行打分排序，其中，分数高的被认为是更符合自然语言的形式，通过校正得到的结果可能具有更好的可信度。例如，在语音识别中，“我举个例子”和“蜗居个粒子”具有较为相似的发音，因此，在接收到“wo ju ge li zi”的语音时，从声学模型解码之后，可能得到两个候选识别结果：“我举个例子”和“蜗居个粒子”；然后，再将所述“我举个例子”和“蜗居个粒子”分别输入语言模型中可得到结果，“我举个例子”更符合自然语言的形式，前者的字符串组合具有更大的可能性出现，因此“我举个例子”具有更高的可信度，打分更高，从而将“wo ju ge li zi”的语音识别结果为“我举个例子”。与之相似的是，发明人研究发现在现实场景或根据显示场景生成的图像中，某些物品的搭配和组合也是有一定的规律可循。例如，相对于鸟类，羽毛球拍更容易和羽毛球组合出现；再例如，相对于鸡蛋，乒乓球拍更容易与乒乓球组合出现；又例如，相对于老鼠，电脑更容易与鼠标组合出现等。因此，如果对图像的识别结果进一步地根据图像中相关的其它物体进行组合的概率进行判断，可以提高图像识别的可信度。基于上述研究，本申请通过以下几个实施例进行详细描述可以实施的多种方式。

实施例一

请参阅图2，是本发明实施例提供的应用于图1所示的电子设备的图像识别方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤S201，将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

本实施例中，对图像的检测可以使用神经网络模型进行识别；也可以使用其它图像识别方式进行识别，例如，通过提取SIFT特征、SURF特征、Haar特征进行对特征的识别以识别图像。

在一种实施方式中，将待识别图像输入基于神经网络的检测模型中进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

在另一种实施方式中，使用不同尺寸的滑动窗口框对待识别图像中的部分区域框出作为候选区域；提取所述候选区域中的视觉特征；将所述视觉特征使用分类器进行检测得到该候选区域的识别候选结果；重复上述步骤直到将所述待识别图像中的每个目标识别区域进行检测得到对应的识别候选结果。

其中，可以先对所述待识别图像进行划分区域，以获得该待识别图像中的多个目标识别区域。如图4a所示，图中示出了包含有五个对象的图，其中，包括：男性A、女性B、羽毛球拍C、羽毛球拍D以及羽毛球E。分别将男性A、女性B、羽毛球拍C、羽毛球拍D以及羽毛球E对应的区域划分出来，形成五个目标识别区域。

进一步地，对每个目标识别区域进行识别得到识别候选结果。例如，对羽毛球E所在目标识别区域进行对象识别可以得到：羽毛球、羽毛、鸟等三个识别候选结果。再例如，对羽毛球拍C所在目标识别区域进行对象识别可以得到：羽毛球拍、网球拍、平底锅等三个识别候选结果。再例如，对男性A和女性B所在目标识别区域进行对象识别可以得到：人的识别候选结果。

进一步地，步骤S201包括：对待识别图像进行检测得到该待识别图像中每个目标识别区域的候选图像词，从预存的图向量表中查找获取每个候选图像词对应的候选图向量，将每个目标识别区域对应的候选图向量作为识别候选结果。

步骤S202，将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列。

进一步地，可以按照设定的排序规则将所述该待识别图像中每个目标识别区域的识别候选结果依次排序。本实施例中，可以按照目标识别区域的大小，从小到大进行排序，也可以从大到小进行排序；也可以按照目标识别区域的中心点距离所述待识别图像的中心点的距离进行排序，从近到远进行排序，也可以从远到近进行排序。

下面以图4a为例进行进一步地描述。

将五个目标识别区域的识别候选结果进行排序可以得到多个序列。例如，可以按照目标识别区域的中心点距离所述待识别图像的中心点的距离进行排序，与之对应，对应的顺序可以是男性A、羽毛球拍C、女性B、羽毛球拍D以及羽毛球E。可以得到预测目标序列可以包括为：

人、羽毛球拍、人、羽毛球拍、羽毛球；

人、羽毛球拍、人、羽毛球拍、鸟；

人、网球拍、人、羽毛球拍、羽毛球；

人、网球拍、人、网球拍、羽毛球；等序列，在此不再一一列举可能的预测目标序列。

本实施例中，所述多个预测目标序列包括由所有目标识别区域的识别候选结果组成的全部组合。

步骤S202包括：将所述待识别图像划分成多个子图像；获取每个子图像中的识别候选结果进行组合，得到每个子图像对应的多个预测目标序列。

当所述待识别图像包含的对象比较多时，可以将所述待识别图像进行划分，以形成多个子图像。

本实施例中，当所述待识别图像被划分成多个子图像时，所述多个预测目标序列包括每个子图像对应的全部组合形成的预测目标序列。

下面还是以图4a为例进行描述。

假设将图4a所示的图像划分成两个子图像，第一子图像包括：女性B及羽毛球拍C(羽毛球拍C表示女性A手中拿着的羽毛球拍)；第二子图像包括：男性A、羽毛球拍D(羽毛球拍C表示男性B手中拿着的羽毛球拍)及羽毛球E。第一子图像对应的预存目标序列可包括由女性B及羽毛球拍C对应的识别候选结果组成；第二子图像对应的预存目标序列可包括由男性A、羽毛球拍D及羽毛球E对应的识别候选结果组成。

步骤S203，使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率。

本实施例中，将所述多个预测目标序列输入所述图像语言模型进行计算可以得到每个序列的组合概率。例如，羽毛球拍和羽毛球的组合概率相对大于羽毛球拍和鸟的组合概率。再例如，羽毛球拍和羽毛球的组合概率相对大于平底锅和羽毛球的组合概率。

步骤S204，根据各个预测目标序列的组合概率得到所述待识别图像的识别结果。

本实施例中，可以将组合概率最高的预测目标序列作为所述待识别图像的识别结果。

所述步骤S204，包括：根据每个子图像对应的预测目标序列的组合概率得到每个子图像的识别结果，将每个子图像的识别结果进行组合得到所述待识别图像的识别结果。

本实施例中，可以将每个子图像得到最高的预测目标序列合并形成所述待识别图像的识别结果。

本发明实施例的图像识别方法，通过先对图像进行检测得到每个目标识别区域的识别候选结果，识别候选结构进行排序得到预测目标序列，所述预测目标序列可以表示所述待识别图像可能是的物品。再通过所述图像语言模型计算各序列的组合概率得到最后的识别结果，可以使得到的识别结果更符合自然界中物与物之间的组合，使识别结果的可信度更高。

本实施例中，在步骤S202之前，如图3所示，所述图像识别方法还包括以下步骤。

步骤S2011，根据每个目标识别区域在所述待识别图像中的位置确定出多个目标识别区域中的起始区域词。

相对与文字中的词语和句子，图像中没有明确的开始点和结束点。因此，本申请通过自定义的方式确定图像中的起始区域词、以及每个图像中的对象对应的上下文目标识别区域。

如图4b所示，其中，图4b为图4a对应的线框示意图。其中，点P表示所述待识别图像的中心点；点A表示男性A对应的目标识别区域的中心点；点B表示女性B对应的目标识别区域的中心点；点C表示羽毛球拍C对应的目标识别区域的中心点；点D表示羽毛球拍D对应的目标识别区域的中心点；点E表示羽毛球E对应的目标识别区域的中心点。

本实施例中，可以将距离点P最近的作为起始区域词。图4b所示实例中，可以将所述点A对应的目标识别区域作为图4a所示的待识别图像的起始区域词。

进一步地，还可以将目标识别区域最大的区域作为起始区域词。如果多个目标识别区域的面积相同时，可以将距离所述待识别图像的中心最近的作为起始区域词。进一步地，如果多个目标识别区域面积相同，且距离所述待识别图像的中心相同，则可以随机选取一个目标识别区域作为起始区域词。

步骤S2012，获取其它目标识别区域的中心与所述起始区域词的中心的距离。

步骤S2013，根据其它图像的距离将所述目标识别区域进行排序，得到所述起始区域词的上下文目标识别区域及对应的排列顺序。

对于图像这样的二位数据，其上下文信息的定义可以参当前目标区域各个方向的邻接区域。本申请可以通过将图像的上下文目标识别区域定义为当前目标识别区域的周边区域。进一步地，可以将先后遇到的新的目标识别区域作为当前目标识别区域的上下文目标识别区域。进一步地，当多个相邻目标识别区域距离当前目标识别区域相同时，可以随机选择目标识别区域作为当前目标识别区域的上下文目标识别区域。

详细地，可以按照与点A的距离进行排序。例如，可以由近至远进行排序。

本实施例中，步骤S203包括：将每个预测目标序列中的每个目标识别区域转换为图向量，得到每个预测目标序列对应的图向量组；将所述图向量组输入所述图像语言模型进行计算，得到每个预测目标序列的组合概率。

在一种实施方式中，从预存的图向量表中查找获取每个预测目标序列中的每个目标识别区域对应的图向量。

实施例二

在一个应用场景中，本实施例中的图像识别方法可以用在汽车上，用于识别行车记录仪所采集到的图像，从而有效地获取汽车的行驶过程中出现的障碍物，也能够获取汽车周边的环境，从而提高汽车的安全，也能够提高汽车驾驶的安全。本实施例中，应用于电子设备，所述电子设备可以是车载设备，该车载设备连接有图像采集设备。所述电子设备可以是行车电脑，所述行车电脑可以与行车记录仪通信连接，以进一步地获取行车记录仪采集到的图像或视频数据。

在另一个应用场景中，本实施例中的图像处理方法可以用于图像处理服务器中，该图像处理服务器与车载设备通信连接。车载设备将采集到的图像或视频数据传输给所述理服务器进行识别。

请参阅图5，本实施例中的方法可以包括以下步骤。

步骤S301，获取所述图像采集设备采集的待识别图像。

步骤S302，将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

步骤S303，将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列。

步骤S304，使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率。

步骤S305，根据各个预测目标序列的组合概率得到所述待识别图像的识别结果。

本实施例中的步骤S302至S305与实施例一中的步骤S201至S204相似，关于步骤S302至S305的具体实施细节可以进一步地参考实施例一种的描述，在此不再赘述。

步骤S306，根据所述识别结果生成提示消息，并播放该提示消息。

所述提示消息可以包括检测到的识别结果，以及所述待识别图像距离该车辆的距离。

步骤S305之后，所述方法还包括：根据所述识别结果生成推荐操作选项，并播放所述推荐操作选项对应的音频或视频消息。

所述推荐操作选项可以包括控制汽车运动方向、运动角度、停车刹车等操作的选项。

根据识别结果再进一步地产生提示消息，可以使用户能够在不需要转移视线或花费更多时间的情况下能够获知识别结果，以及得到产生的提示消息，从而有效地对当前操作的设备进行控制。例如，在用户在驾驶汽车时，能够有效地根据所述提示消息控制驾驶动态，提高驾驶的安全性。再例如，汽车在停放在停车区域时，识别到的汽车可能正在遭受破坏，可以向用户发送通知消息，从而提高汽车的安全性。

实施例三

所述图像语言模型可以通过神经网络模型训练得到。在一种实施方式中，所述图像语言训练过程可以是与实施例一和实施例二相同的设备执行，例如，实施例一、实施例二及实施例三均可以由图像处理服务器执行。在另一种实施方式中，所述实施例一、实施例二及实施例三均可以由不同的设备执行。例如，实施例一或实施例二中的步骤可以在车载设备上执行，实施例三中的步骤可以在服务器中执行。

本实施例中，请参阅图6，所述图像语言模型通过以下方式训练得到。

步骤S401，将训练图像集中的每个图像词转换成图向量，所述训练图像集包括预收集得到的图像词，每个图像词是一图像集合。

本实施例中，在训练所述图像语言模型之前，需要构造一个图像词表，图像词表中的每个图像词，对应一组与该图像词对应的图像，例如，图像词表示牛时，该图像词对应一组牛的图像，其中包括不同品种的牛的图像、不同角度得到的牛的图像以及不同年龄段的牛的图像。每个图像词都有一个映射矩阵将其映射为一个图向量。

本实施例中，所述训练图像集中包括所述图像词表和包括多个对象的训练图像词库。

步骤S402，根据所述训练图像集中所携带的标记将获得的图向量生成训练序列。

电子设备的相关程序模块将所述训练图像词库的图像进行识别分区域，每个区域中包含一个对象，将每个图像中的各个包含有对象的区域进行识别排序，并将每个图像中的每个对象转换成图向量形成一个长的图向量，将所述长的图向量作为所述训练序列。

步骤S403，将所述训练序列输入预设的语言训练模型进行训练得到所述图像语言模型。

在一种实施方式中，所述语言训练模型可以是softmax模型。当然，所述语言训练模型可以是长短期记忆网络LSTM模型、GRU(Gated Recurrent Unit，门控循环单元)模型、Bi-LSTM模型等RNN系列的模型。

下面以所述语言训练模型是softmax模型为例进行详细描述。

将所述训练序列中的一长图向量表示为x；将该向量乘以系数矩阵H加上偏置项d经过激活函数后，与另外一个系数矩阵W和x的乘积相加，再加上偏置项b。可表示为公式：y＝softmax(b+Wx+Utanh(d+Hx))；最后，得到的结果输入softmax分类器得到归一化概率。通过将所述训练序列中的所有长图向量输入公式以及所述softmax模型进行训练以得到所述图像语言模型。

如图7所示，图中最下方的w_t-n+1,…,w_t-2,w_t-1表示n-1个图像词。现在需要根据这已知的n-1个词预测下一个图像词w_t。C(w)表示图像词w所对应的图向量，整个模型中使用的是一套图像词表，存在矩阵C(一个|V|×m的矩阵)中。其中|V|表示图像词表的大小(语料中的总词数)，m表示图向量的维度。w到C(w)的转化就是从矩阵中取出一行。

网络的第一层(输入层)是将C(w_t-n+1),…,C(w_t-2),C(w_t-1)这n-1个图向量首尾相接拼起来，形成一个(n-1)m维的向量，下面记为x。

网络的第二层(隐藏层)，可以是普通的神经网络，可以使用d+Hx计算得到。d是一个偏置项。在此之后，使用tanh作为激活函数。

网络的第三层(输出层)一共有|V|个节点，每个节点y_i表示下一个词为i的未归一化log概率。最后使用softmax激活函数将输出值y归一化成概率。最终，y的计算公式为：

y＝b+Wx+Utanh(d+Hx)；

式子中的U(一个|V|×h的矩阵)是隐藏层到输出层的参数，整个模型的多数计算集中在U和隐藏层的矩阵乘法中。

式子中还有一个矩阵W(|V|×(n-1)m)，这个矩阵包含了从输入层到输出层的直连边。直连边就是从输入层直接到输出层的一个线性变换。在一种实施方式中，如果不需要直连边的话，可以将W置为0。

通过训练的得到图像语言模型，可以将将图像的识别结果再进一步地验证从有效地提高识别的可信度。

实施例四

上述的实施例一、实施例二及实施例三中提到的图向量可以通过以下方式获取。

本实施例中，在步骤S201之前，所述方法还包括：

本实施例中，所述图像词表可以是预先收集的图像集。其中，每一个图像词多个表达该图像词对应的多张图像。例如，图像词马对应一马的图像集合，其中，包括：各种颜色的马、各种角度的马、各种年龄段的马、各种品的马、各种状态下的马。再例如，图像词汽车对应一汽车的图像集合，其中，包括：不同牌子的汽车、不同角度的汽车、不同颜色的汽车、不同型号的汽车等。可以理解的是，每一图像词对应的多张图像可以尽可能的少且能够表示出该图像词的各种可能。

要将图像的识别转化为计算机处理的问题，首先，需要将图像进行数字化。

在一种实施方式中，将每个图像词表示为一个很长的向量。这个向量的维度是图像词表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词。

在一个实例中：

“马”图像词表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0...0000]；

“牛”图像词表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0...0000]；

每个图像词都是茫茫0海中的一个1。

本实施例中，One-hot Representation(离散表示法)如果采用稀疏方式存储，会是非常的简洁：也就是给每个图像词分配一个数字ID。比如刚才的例子中，图像词“马”记为3，图像词“牛”记为8(假设从0开始记)。如果要编程实现的话，用Hash表给每个词分配一个编号就可以了。这么简洁的表示方法配合上最大熵、SVM、CRF等算法已经很好地完成了NLP领域的各种主流任务。

当然这种表示方法也存在一个重要的问题就是“词汇鸿沟”现象：任意两个图像词之间都是孤立的。光从这两个向量中看不出两个词是否有关系，哪怕是“牛”和“马”这样的相接近的动物词汇也相互独立，且相隔很远。通过上述方法表达出每个图向量，可以使图向量的生成方式相对简单。

在另一种实施方式中，图向量可以在训练语言模型时得到。例如，可以通过VGG、AlexNet或Google LeNet对所述图像词表中的图像词进行分类得到每一图像词对应的图向量。

通过预先得到图向量并进行存储，可以在需要使用图向量时候可以直接通过查表获取图向量，以将图像的校正转换成向量组的校正，可以提高处理效率。

进一步地，在其它实施例可以包括实施例二和实施例三中的全部步骤。各个步骤的具体细节可以进一步参考实施例二和实施例三中的描述。

进一步地，在其它实施例可以包括实施例一和实施例三中的全部步骤。各个步骤的具体细节可以进一步参考实施例一和实施例三中的描述。

实施例五

请参阅图8，是本发明实施例提供的图1所示的图像识别装置的功能模块示意图。本实施例中的图像识别装置用于执行上述方法实施例中的各个步骤。所述图像识别装置包括以下模块。

检测模块501，用于将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

组合模块502，用于将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列。

概率计算模块503，用于使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率。

得到模块504，用于根据各个预测目标序列的组合概率得到所述待识别图像的识别结果。

本发明实施例的图像识别装置，通过先对图像进行检测得到每个目标识别区域的识别候选结果，识别候选结构进行排序得到预测目标序列，所述预测目标序列可以表示所述待识别图像可能是的物品。再通过所述图像语言模型计算各序列的组合概率得到最后的识别结果，可以使得到的识别结果更符合自然界中物与物之间的组合，使识别结果的可信度更高。

本实施例中，请再次参阅图8，所述图像识别装置还包括以下模块。

确定模块505，用于根据每个目标识别区域在所述待识别图像中的位置确定出多个目标识别区域中的起始区域词。

距离获取模块506，用于获取其它目标识别区域的中心与所述起始区域词的中心的距离。

排序模块507，用于根据其它图像的距离将所述目标识别区域进行排序，得到所述起始区域词的上下文目标识别区域及对应的排列顺序。

所述组合模块502还用于将每个目标识别区域的识别候选结果按照所述排列顺序进行组合得到有序的多个预测目标序列。

本实施例中，所述概率计算模块503还用于：

本实施例中，所述检测模块501，还用于：

本实施例中，所述检测模块501，还用于：将待识别图像输入基于神经网络的检测模型中进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

本实施例中，所述检测模块501，还用于：

提取所述候选区域中的视觉特征；

本实施例中，所述组合模块502，还用于：

将所述待识别图像划分成多个子图像；

本实施例中的装置可以应用于电子设备，所述电子设备包括图像采集设备，或与一图像采集设备通信连接；所述图像识别装置还包括：

图像获取模块，用于获取所述图像采集设备采集的待识别图像。

本实施例中，所述图像识别装置还包括：

提示模块，用于根据所述识别结果生成提示消息，并播放该提示消息。

本实施例中，所述图像识别装置还包括：

推荐模块，用于根据所述识别结果生成推荐操作选项，并播放所述推荐操作选项对应的音频或视频消息。

本实施例中，所述图像语言模型通过训练模块训练得到：所述训练模块用于：

本实施例中，所述图像识别装置还包括：

图表获取模块，用于获取预存的图像词表，所述图像词表包括多个图像词，每一个图像词包括多个表达该图像词对应的多张图像；

向量计算模块，用于为所述图像词表中的图像词分配数值，得到每个图像词对应的图向量；

存储模块，用于将所述图像词表与该图像词表中的图像词进行关联存储形成图向量表。

关于上述装置的进一步地细节可以参考实施例一、实施例二及实施例三中的描述，在此不再赘述。

进一步，本实施例还提供了一种计算机存储介质，用于储存为前述任一项图像识别装置所用的计算机软件程序。所述计算机软件程序被处理器运行时执行上述方法实施例中的步骤。

本申请实施例所提供的图像识别方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，包括：

根据每个目标识别区域在所述待识别图像中的位置确定出多个目标识别区域中的起始区域词，其中，将距离所述待识别图像的中心点最近的目标识别区域作为起始区域词，或者，将所述目标识别区域中最大的区域作为起始区域词；

根据其它目标识别区域的中心与所述起始区域词的中心的距离，将多个所述目标识别区域进行排序，得到所述起始区域词的上下文目标识别区域及对应的排列顺序；

将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列，包括：将每个目标识别区域的识别候选结果按照所述排列顺序进行组合得到有序的多个预测目标序列；

2.如权利要求1所述的图像识别方法，其特征在于，所述使用预训练的图像语言模型对所述多个预测目标序列进行计算得到每个预测目标序列的组合概率的步骤，包括：

3.如权利要求2所述的图像识别方法，其特征在于，所述将每个预测目标序列中的每个目标识别区域转换为图向量，得到每个预测目标序列对应的图向量组的步骤，包括：

4.如权利要求1所述的图像识别方法，其特征在于，所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤，包括：

5.如权利要求1所述的图像识别方法，其特征在于，所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤，包括：

6.如权利要求1所述的图像识别方法，其特征在于，所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤，包括：

提取所述候选区域中的视觉特征；

7.如权利要求1所述的图像识别方法，其特征在于，所述将所有目标识别区域的识别候选结果进行组合得到多个预测目标序列的步骤，包括：

将所述待识别图像划分成多个子图像；

8.如权利要求1-7任意一项所述的图像识别方法，其特征在于，应用于电子设备，所述电子设备包括图像采集设备，或与一图像采集设备通信连接；在所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤之前，所述方法还包括：

获取所述图像采集设备采集的待识别图像。

9.如权利要求8所述的图像识别方法，其特征在于，在所述根据各个预测目标序列的组合概率得到所述待识别图像的识别结果的步骤之后，所述方法还包括：

根据所述识别结果生成提示消息，并播放该提示消息。

10.如权利要求9所述的图像识别方法，其特征在于，在所述根据各个预测目标序列的组合概率得到所述待识别图像的识别结果的步骤之后，所述方法还包括：

11.如权利要求1-7任意一项所述的图像识别方法，其特征在于，所述图像语言模型通过以下方式训练得到：

12.如权利要求1-7任意一项所述的图像识别方法，其特征在于，在所述将待识别图像进行检测，得到该待识别图像中每个目标识别区域的识别候选结果的步骤之前，所述方法还包括：

13.一种图像识别装置，其特征在于，包括：

得到模块，用于根据各个预测目标序列的组合概率得到所述待识别图像的识别结果；

其中，所述组合模块还用于将每个目标识别区域的识别候选结果按照所述排列顺序进行组合得到有序的多个预测目标序列。

14.如权利要求13所述的图像识别装置，其特征在于，所述概率计算模块，用于将每个预测目标序列中的每个目标识别区域转换为图向量，得到每个预测目标序列对应的图向量组；

15.如权利要求14所述的图像识别装置，其特征在于，所述概率计算模块还用于从预存的图向量表中查找获取每个预测目标序列中的每个目标识别区域对应的图向量。

16.如权利要求13所述的图像识别装置，其特征在于，所述检测模块，用于对待识别图像进行检测得到该待识别图像中每个目标识别区域的候选图像词；从预存的图向量表中查找获取每个候选图像词对应的候选图向量，将每个目标识别区域对应的候选图向量作为识别候选结果。

17.如权利要求13所述的图像识别装置，其特征在于，所述检测模块，用于将待识别图像输入基于神经网络的检测模型中进行检测，得到该待识别图像中每个目标识别区域的识别候选结果。

18.如权利要求13所述的图像识别装置，其特征在于，所述检测模块，用于使用不同尺寸的滑动窗口框对待识别图像中的部分区域框出作为候选区域；提取所述候选区域中的视觉特征；将所述视觉特征使用分类器进行检测得到该候选区域的识别候选结果；重复上述步骤直到将所述待识别图像中的每个目标识别区域进行检测得到对应的识别候选结果。

19.如权利要求13所述的图像识别装置，其特征在于，所述组合模块，用于将所述待识别图像划分成多个子图像；获取每个子图像中的识别候选结果进行组合，得到每个子图像对应的多个预测目标序列；

所述得到模块，用于根据每个子图像对应的预测目标序列的组合概率得到每个子图像的识别结果；将每个子图像的识别结果进行组合得到所述待识别图像的识别结果。

20.如权利要求13-19任意一项所述的图像识别装置，其特征在于，应用于电子设备，所述电子设备包括图像采集设备，或与一图像采集设备通信连接；所述装置还包括：

21.如权利要求20所述的图像识别装置，其特征在于，所述装置还包括：

22.如权利要求21所述的图像识别装置，其特征在于，所述装置还包括：

23.如权利要求13-19任意一项所述的图像识别装置，其特征在于，所述图像语言模型通过训练模块训练得到：所述训练模块用于：

24.如权利要求13-19任意一项所述的图像识别装置，其特征在于，所述装置还包括：

25.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储支持处理器执行权利要求1～12任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

26.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述的权利要求1～12中任一项所述的方法的步骤。