CN112949689A

CN112949689A - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN112949689A
Application number: CN202110139313.5A
Authority: CN
Inventors: 陈诗敏; 陈忱; 陶训强; 郭彦东; 何苗
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-06-11

Abstract

本申请公开了一种图像识别方法、装置、电子设备及存储介质。该图像识别方法包括：获取待处理图像；基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像；根据所述行为识别结果，执行预设操作。本方法可以提高图像行为识别的准确性，提升了交互体验。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

随着物联网的发展，智能设备的应用越来越广泛，智能设备的一个重要功能就是可以进行人机交互。然而目前人与智能设备的交互方式通常为语音交互或接触交互，语音交互无法应对多人的嘈杂环境，且对各个地区的语言不具备普适性，接触交互又需要人与控制中心接触，交互不便，人机交互体验不佳。

发明内容

鉴于上述问题，本申请提出了一种图像识别方法、装置、电子设备及存储介质，可改善上述问题。

第一方面，本申请实施例提供了一种图像识别方法，所述方法包括：获取待处理图像；基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像；根据所述行为识别结果，执行预设操作。

第二方面，本申请实施例提供了一种图像识别方法，所述方法包括：图像获取模块，用于获取待处理图像；图像识别模块，用于基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像；操作执行模块，用于根据所述行为识别结果，执行预设操作。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述第一方面提供的图像识别方法

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的图像识别方法。

本申请提供的方案，在获取到待处理图像之后，可以通过预先训练好的行为识别模型，识别该待处理图像中的交互行为，得到行为识别结果，以根据该行为识别结果，执行预设操作。其中，行为识别模型可以预先根据训练样本对初始模型训练得到，训练样本包括至少一种交互行为在不同视角下所呈现的图像。本申请通过多视角的行为识别模型，可以对同一交互行为进行各个角度的识别，使得交互行为识别可以摆脱摄像头的视角约束，提高了图像行为识别的准确率，提升了交互体验。且本申请是通过计算机视觉技术来实现灵敏、高效、低成本的用户行为感知，不仅对各个地区与国家都具备普适性，且也实现了无接触交互，让交互更为便捷。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请一个实施例的图像识别方法的一种流程图。

图2示出了本申请提供的不同视角的行为图像示意图。

图3示出了根据本申请另一个实施例的图像识别方法的一种流程图。

图4示出了根据本申请另一个实施例的图像识别方法中步骤S210的一种流程图。

图5示出了根据本申请另一个实施例的图像识别方法中步骤S230的一种流程图。

图6示出了本申请提供的人体检测效果示意图。

图7示出了根据本申请另一个实施例的图像识别方法中步骤S232的一种流程图。

图8示出了本申请提供的人脸检测效果示意图。

图9示出了根据本申请另一个实施例的图像识别方法中步骤S232的另一种流程图。

图10示出了本申请实施例提供的一种图像识别方法装置的模块框图。

图11是本申请实施例的用于执行根据本申请实施例的图像识别方法的电子设备的框图。

图12是本申请实施例的用于保存或者携带实现根据本申请实施例的图像识别方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

现有的智能设备交互系统主要聚焦于多终端控制方向，建立智能家居中心控制器，并通过无线通信设备或者语音识别装置进行调度，系统庞大且复杂。即使人与设备能够交互，交互方式也通常为语音交互和接触交互。但语音交互无法应对多人的嘈杂环境，且对各个地区的语言不具备普适性。而接触交互又需要人与控制中心接触，为交互带来不便。

因此，发明人提出了本申请实施例提供的图像识别方法、装置、电子设备以及存储介质，可以利用纯视觉技术进行设备调度指引，同时可以对同一动作进行各个角度的识别，使得交互可以摆脱摄像头的视角约束，从而提升了交互体验，让交互更为便捷。具体的图像识别方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的图像识别方法的流程示意图。该图像识别方法可以应用于电子设备。下面将针对图1所示的流程进行详细的阐述，所示图像识别方法具体可以包括以下步骤：

步骤S110：获取待处理图像。

在本申请实施例中，交互系统可以是基于“视觉”图像信息的交互方式，也即可以是通过识别图像中的交互行为，来实现人机交互。如此人与设备即可实现无接触交互。

具体地，在本申请实施例中，电子设备在需要进行行为识别时，可以先获取待处理图像。其中，待处理图像可以是需要识别交互行为的图像序列，该图像序列有多帧连续的图像构成，其可以是仅包含一种交互行为的图像序列，也可以是包含多种交互行为(两个或两个以上)的图像序列，此处不作限定。该交互行为可以是指定的功能性的动作行为，如对于音箱，指定的功能性的动作行为可以是“打开”和“关闭”音箱，“调高”和“调低”音量四个动作，也可以是日常行为动作，如走路，跑步，骑车等。此处不做具体限定。

由于视频由连续的图像组成，因此视频中的交互行为通常由一连串的图像表示，因此，可以将视频中交互行为所对应的连续的视频图像序列作为本申请的待处理图像进行获取，从而后续可以将该视频图像序列输入行为识别模型，以进行行为识别。

在一些实施例中，待处理图像可以是电子设备拍摄获取的视频中，分解出的多帧连续的视频图像序列。在另一些实施例中，待处理图像也可以是电子设备中存储的的视频(如拍摄完成后保存在本地的视频)中，分解出的多帧连续的视频图像序列，还可以是电子设备下载的视频中分解出的多帧连续的视频图像序列，具体的待处理图像在此并不作限定。

例如，电子设备上可以安装摄像头，电子设备在检测到拍摄指令时，通过拍摄指令控制摄像头来采集用户的交互动作视频。电子设备在获取到交互动作视频之后，可以根据该交互动作视频，生成该交互动作对应的动作图像序列，并作为本申请的待处理图像进行获取，然后进行后续的行为识别。

在又一些实施例中，电子设备为服务器时，待处理图像还可以是从数据库服务器或者从用户的客户端获取到的待进行处理的视频后，对该视频分解后的图像序列。

当然，上述仅为举例，电子设备具体获取待处理图像的方式在本申请实施例中可以不作为限定。例如，待处理图像也可以是待处理视频中的部分图像，电子设备可以截取待处理视频中前N帧图像作为待处理图像，也可以获取待处理视频的关键帧作为待处理图像，此处不作限定。

步骤S120：基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像。

在本申请实施例中，在获取到待处理图像后，可以将该待处理图像输入预先训练好的行为识别模型，以通过该行为识别模型对待处理图像中的交互行为进行识别，然后在行为识别模型输出待处理图像的行为识别结果后，电子设备可以获取到待处理图像中的行为识别结果。

在一些实施例中，上述预先训练好的行为识别模型可以预先根据大量训练样本对初始模型进行训练得到。其中，训练样本可以包括包括至少一种交互行为在不同视角下所呈现的图像序列，每种交互行为都可以对应有两种或两种以上视角下所呈现的图像序列。例如，请参阅图2，图2示出了一帧同一交互行为在不同视角下呈现的图像。在一些实施例中，每种交互行为对应的视角可以相同，也可以不同，此处不作限定，仅需训练好的行为识别模型可以对交互行为进行各个角度的识别。从而预先训练好的行为识别模型可以用于根据获取的待处理图像，输出待处理图像中的主行为识别结果。

在一些实施例中，初始模型可以是神经网络模型、编码-解码模型、生成对抗网络等模型。在另一些实施例中，初始模型也可以是从未通过训练样本训练过的原始模型，也可以是现有的用于实现其他功能的已训练好的现有模型，此时可以通过模型迁移，将该现有模型利用本申请的训练样本重新训练，从而在减少了训练周期的基础上，也可以保证得到模型可实现本申请的方案。

在一些实施例中，行为识别模型可以预先存储于电子设备本地，电子设备可以直接从本地调用行为识别模型，并将待处理图像输入至行为识别模型。在另一些实施例中，行为识别模型也可以存储于服务器，电子设备在需要对待处理图像进行交互行为识别时，可以调用服务器中的行为识别模型。例如，将待处理图像发送至服务器，以指示服务器将该待处理图像输入至行为识别模型中，进行图像的交互行为识别。

步骤S130：根据所述行为识别结果，执行预设操作。

在本申请实施例中，电子设备将待处理图像输入预先训练好的行为识别模型之后，可以获得行为识别模型输出的待处理图像中的行为识别结果，从而电子设备可以根据该行为识别结果，执行预设操作。

在一些实施例中，电子设备可以根据行为识别结果，判断待处理图像中的动作行为是否为有效行为，当为有效行为时，可以执行与该有效行为对应的操作。例如，对于已唤醒的设备音箱，当识别出指定的“打开”、“关闭”、“升高”、“降低”等四个有效行为动作时，可以对设备进行相应的调度，也即“打开”和“关闭”音箱，“调高”和“调低”音量。在一些实施例中，当为非有效行为时，电子设备可以清除该待处理图像，也可以暂存该待处理图像，以结合后续连续的待处理图像再次进行行为识别。具体不作限定。

本申请实施例提供的图像识别方法，在获取到待处理图像之后，可以通过预先训练好的行为识别模型，识别该待处理图像中的交互行为，得到行为识别结果，以根据该行为识别结果，执行预设操作。其中，行为识别模型可以预先根据训练样本对初始模型训练得到，训练样本包括至少一种交互行为在不同视角下所呈现的图像。本申请通过多视角的行为识别模型，可以对同一交互行为进行各个角度的识别，使得交互行为识别可以摆脱摄像头的视角约束，提高了图像行为识别的准确率，提升了交互体验。

请参阅图3，图3示出了本申请另一个实施例提供的图像识别方法的流程示意图，所示图像识别方法具体可以包括以下步骤：

步骤S210：获取训练样本，所述训练样本包括多视角图像样本以及与所述多视角图像样本对应的行为标注样本，所述多视角图像样本为至少一种交互行为在不同视角下所呈现的图像。

在本申请实施例中，在获取到训练好的行为识别模型之前，首先要获取模型训练的训练样本。该训练样本可以包括多视角图像样本以及与该多视角图像样本对应的行为标注样本，多视角图像样本为至少一种交互行为在不同视角下所呈现的图像序列。其中，一个多视角图像样本、一个与多视角图像样本对应的行为标注样本为一组训练样本，一个多视角图像样本可以是一个交互行为在至少一种视角下呈现的图像序列，行为标注样本可以是对该交互行为的标注信息。

作为一种方式，训练样本可以是其他设备进行建立的，从而电子设备可以从其他设备处获取到该训练样本。当然，也可以是本地进行建立的，还可以是从服务器下载的，具体的训练样本获取方式在本申请实施例中并不作为限定。

由于训练样本量通常比较大，如果全部手动构建，工作量会比较大，因此，在一些实施例中，可以直接对现有的训练样本进行更新扩展，得到本申请所用的训练样本，从而减少工作量，提高模型训练效率。具体地，请参阅图4，步骤S210可以包括：

步骤S211：获取初始样本，所述初始样本包括初始图像样本以及与所述初始图像样本对应的行为标注样本，所述初始图像样本为交互行为在单一视角下所呈现的图像。

在一些实施例中，初始样本可以根据UCF101，Activity Net，Charadas，Youtube8M，Kinetics几个常用行为识别数据集确定。作为一种方式，可以是从现有的常用行为识别数据集中提取出多个指定动作行为的图像序列为初始图像样本，以及提取出对应的动作标签作为该初始图像样本对应的行为标注样本，一个初始图像样本和一个与该初始图像样本对应的行为标注样本，作为一组初始样本。由于现有的行为识别数据集通常都是在单一视角下拍摄动作行为时，得到的二维图像序列，因此，初始样本中的初始图像样本通常为交互行为在单一视角下所呈现的二维平面图像序列。

具体地，由于视频中的交互行为通常由一连串的图像表示(也可以称为动作序列)，因此可以是从常用行为识别数据集中提取多个指定动作行为的图像序列集Q和对应的标签集L。图像序列集Q中的每个动作序列即为初始图像样本，标签集L中每个标签即为行为标注样本。

步骤S212：提取所述初始图像样本中与所述交互行为所对应的三维人体图像。

步骤S213：根据所述三维人体图像，生成所述交互行为在不同视角下所呈现的图像，得到多视角图像样本。

在一些实施例中，针对每个初始图像样本，可以预先从二维(2Dimensional，2D)的初始图像样本中提取出述交互行为所对应的三维(3Dimensional，3D)人体图像，以建立3D人体动作合成数据集。从而可以在该3D人体动作合成数据集对同一交互动作进行各角度的图像捕捉，从而可以得到同一人体同一动作在不同视角下的动作图像序列，进而得到每个初始图像样本对应的多视角图像样本。

在一些实施例中，当初始图像样本中有多个交互行为时，可以提取出每个交互行为对应的三维人体图像，从而可以对每个交互动作进行各角度的图像捕捉，得到每个交互行为的多视角图像样本。在另一些实施例中，当初始图像样本中有多个交互行为时，也可以先确定出交互主体，然后确定该交互主体在图像中的路径并提取位置信息，从而对该交互主体的每个交互动作都可以进行各角度的图像捕捉。

步骤S214：将所述多视角图像样本以及所述行为标注样本作为一组训练样本。

在得到一个初始图像样本对应的多视角图像样本后，可以将该初始图像样本对应的行为标注样本作为该多视角图像样本对应的行为标注样本，从而可以将该多视角图像样本以及行为标注样本作为一组训练样本。

步骤S220：将所述多视角图像样本作为初始模型的输入，将所述行为标注样本作为所述初始模型的期望输出，对所述初始模型进行训练，得到所述预先训练好的行为识别模型。

在本申请实施例中，在得到训练样本后，可以将训练样本中的多视角图像样本作为初始模型的输入，该多视角图像样本对应的行为标注样本作为模型的期望输出(即学习目标)，从而可通过模型的实际输出和期望输出，对初始模型进行训练，得到前述预先训练好的行为识别模型。

具体地，在得到训练样本中的多视角图像样本之后，可以将该多视角图像样本输入初始模型进行前向计算，得到初始的实际输出，该实际输出为初始模型预测的交互行为。由于将多视角图像样本对应的行为标注样本作为初始模型的期望输出，因此，可以根据预测的交互行为与行为标注样本的误差进行模型参数的更新，通过大量的迭代训练，从而得到前述预先训练好的行为识别模型。

在一些实施例中，通过上述步骤对现有常用行为识别数据集的多个指定动作行为的图像序列集Q中的每个动作序列，都生成不同视角对应的动作序列，得到每个动作序列的多视角图像样本后，可以将这些多视角图像样本作为正样本送入初始模型，其他动作行为的动作序列作为负样本送入初始模型，对该初始模型进行训练，从而得到前述预先训练好的行为识别模型。由于数据集对同一动作，有各个角度的捕捉，从而本申请的行为识别模型对视角有很强的鲁棒性。

在一些实施例中，由于用户可能会对一些特殊动作赋予个性化的功能设置，而现有的常用行为识别数据集中可能没有该特殊动作，因此，可以通过预先采集该特殊动作对应的图像序列作为本申请的训练样本，对上述初始模型，或者是训练过一段时间的行为识别模型，或者是预先训练好的行为识别模型进行训练，以使最终得到的行为识别模型可以对用户个性化的特殊动作进行识别。具体地，当用户需要设定个性化的特殊动作时，可以触发电子设备的动作录入功能，从而电子设备可以通过摄像头对用户所展示的特殊动作进行录入，得到特殊动作的动作视频，并将用户对该特殊动作所赋予的行为标签(如播放xxx歌手的歌曲等功能化设定标签)，与该特殊动作的动作视频对应存储。然后电子设备科根据该动作视频生成对应的动作图像序列，并将该动作图像序列以及该特殊动作对应的行为标签作为训练样本，输入模型进行训练。从而使模型可以学习到用户个性化设置的特殊动作。

步骤S230：获取待处理图像。

在一些实施例中，当图像采集设备固定拍摄某个区域时，可以将拍摄得到的环境图像作为上述待处理图像。具体地，请参阅图5，步骤S230可以包括：

步骤S231：获取图像采集设备采集到的环境图像。

在一些实施例中，图像采集设备是具有采集图像功能的功能器件，也可以是独立的设备。作为一种方式，该图像采集设备可以包括用于采集图像的摄像头、用于处理摄像头采集到的图像的处理器和用于存储图像的存储器。该图像采集设备可以是照相机、摄像机、手机、平板电脑和电子书阅读器等等。当该图像采集设备采集到的环境图像或视频时，可以将该环境图像或视频发送至本申请的电子设备。作为另一方式，该图像采集设备可以仅是用于采集图像的摄像头，其可以安装与本申请的电子设备上，从而电子设备可以直接获取到图像采集设备采集到的环境图像或视频。

在一些实施例中，可以是将图像采集设备安装在指定位置，从而摄像头可以拍摄到可交互区域的图像视频数据。其中，可交互区域可以理解为可以根据人体动作行为进行交互区域。在一些实施例中，图像采集设备可以是实时采集可交互区域的图像视频数据，也可以是在接收到拍摄指令时，才采集可交互区域的图像视频数据，此处不作限定。

步骤S232：对所述环境图像中的用户位置进行定位跟踪，得到用户位置信息。

在一些实施例中，在获取环境图像或视频时，可以对环境图像或视频中的用户位置进行定位跟踪，得到用户位置信息，从而可以根据该用户位置信息，准确地对环境图像或视频中的人体动作行为进行识别。具体地，可以是通过人体检测算法定位出环境图像或视频中的人体位置，然后根据对该人体位置所在的区域进行行为识别。其中，人体检测算可以是yolov5检测算法，其可以从图像或视频中识别并定位出人体位置。如图6所示，检测框300表示检测出来的人体区域。

在一些实施例中，由于交互行为可能是由一连串的图像表示，因此，需要通过人体跟踪算法持续捕捉人体的连续位置信息。作为一种方式，可以是通过单目标跟踪算法回归出跟踪人体对象的位置。具体地，请参阅图7，步骤S232可以包括：

步骤S2321：确定当前帧环境图像中的用户位置。

在一些实施例中，在获取到当前帧环境图像后，可以确定当前帧环境图像中的待跟踪的目标用户的用户位置，以根据该用户位置连续回归出目标用户的位置。

在一些实施例中，当当前帧环境图像中的用户为多个时，可以先确定出交互主体，从而后续可以根据单目标跟踪算法持续捕捉交互主体的连续位置信息。作为一种方式，可以通过人脸识别方法选定交互主体。其中，人脸识别方法可以采用传统的机器学习方法，也可以采用基于CNN(Convolutional Neural Networks，卷积神经网络)模型的深度学习方法，如采用MTCNN(Multi Task Convolutional Neural Network，多任务卷积神经网络)算法进行人脸检测，采用InsightFace算法进行人脸特征提取，并利用提取的人脸特征进行识别比对，选取正确的交互主体。防止了交互的误触发。

示例性地，请参阅图8，截取检测出的人体区域330的上半部分310作为人脸检测区域，从人脸检测区域中利用人脸检测算法检测人脸位置320。利用人脸识别算法提取两幅人脸的特征，并与预先设定的交互主体人脸特征进行比对，可以选取出交互主体。其中，预先设定的交互主体可以有多个，若当前帧环境图像中的用户都为预设的交互主体时，可以根据交互行为的产生时间前后，来选定当前的交互主体。

步骤S2322：基于所述用户位置以及下一帧环境图像，对所述用户位置进行持续跟踪，得到用户位置信息。

在一些实施例中，由于交互行为是由一连串的连续图像组成，因此，相邻前后的环境图像帧中的用户位置变化通常不会太大，因此，可以基于当前帧环境图像中的用户位置以及下一帧环境图像，回归出同一用户的位置信息，从而实现对用户位置进行持续跟踪，得到交互行为产生时的用户位置信息。

在另一些实施例中，也可以是通过人物重识别算法，来持续捕捉人体的连续位置信息。具体地，请参阅图9，步骤S232也可以包括：

步骤S2323：提取所述环境图像中用户的人体特征数据。

步骤S2324：每隔指定时长，基于所述人体特征数据对所述指定时长所对应的当前帧环境图像中的用户位置进行定位跟踪，得到用户位置信息。

在一些实施例中，在获取到当前帧环境图像后，可以确定出当前待跟踪的用户的人体特征数据，从而可以根据该人体特征数据，跟踪目标用户的位置信息。具体地，可以每隔指定时长采用人物重识别算法对检测框位置进行校正和纠错，然后再使用人体检测算法检测的人体框作为候选框，使用人物重识别算法提取人体特征，并与交互主体的图像库中人体特征进行比对，从而可以确定出需要跟踪的目标用户的位置信息。其中，交互主体的图像库可预先建立。

可以理解的是，为保证视频的连贯性，视频中1S通常由多帧图像构成，因此，每隔指定时长，对当前实时采集的环境图像进行人体定位，交互主体以及交互主体的位置信息的确定时，可以理解为每隔指定帧的图像，重新进行交互主体的位置确定。如此，可不用对每帧环境图像都检测用户的位置信息。

在一些实施例中，也可以采用上述单目标跟踪算法和人物重识别算法结合的方式，共同捕捉交互主体的连续位置信息。作为一种方式，可以优先采用单目标跟踪算法来持续跟踪用户的位置信息，当单目标跟踪算法失败后，再采用人物重识别算法来持续跟踪交互主体的连续位置信息。

步骤S233：根据所述用户位置信息，从所述环境图像中获取所述用户对应的人体区域图像，作为待处理图像。

在一些实施例中，在得到用户位置信息后，可以从环境图像或视频中裁剪出用户对应的人体区域图像，作为待处理图像，以减少模型计算量。

步骤S240：基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像。

在一些实施例中，在利用本申请的人体跟踪算法持续捕捉到交互主体的连续位置信息后，可以利用多视角的行为识别模型对人体跟踪结果进行行为分类，得到预测的的每个预定义交互动作类别的执行度(分数)，并返回执行度最高的交互动作类别，也即输出行为识别模型识别出的待处理图像中的交互行为结果。

步骤S250：根据所述行为识别结果，执行预设操作。

在一些实施例中，电子设备可以预先存储有指定行为与控制指令的对应关系。当行为识别模型输出的行为识别结果为指定行为时，电子设备可以基于与该指定行为对应的控制指令，控制指定设备执行操作。其中，指定设备可以是智能电视、智能空调等智能家居设备。控制指令可以是开启，关闭，升高，降低等指令。具体的控制指令和指定设备执行操作仅为举例，并不代表对本申请实施例中的控制指令和执行设备执行操作的限定。

请参阅图10，其示出了本申请实施例提供的一种图像识别装置700的结构框图，该图像识别装置700包括：图像获取模块710、图像识别模块720以及操作执行模块730。其中，图像获取模块710用于获取待处理图像；图像识别模块720用于基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像；操作执行模块730用于根据所述行为识别结果，执行预设操作。

在一些实施例中，图像识别装置700还可以包括：样本获取模块以及模型训练模块。其中，样本获取模块用于获取训练样本，所述训练样本包括多视角图像样本以及与所述多视角图像样本对应的行为标注样本，所述多视角图像样本为至少一种交互行为在不同视角下所呈现的图像；模型训练模块用于将所述多视角图像样本作为初始模型的输入，将所述行为标注样本作为所述初始模型的期望输出，对所述初始模型进行训练，得到所述预先训练好的行为识别模。

在一些实施例中，上述样本获取模块可以具体用于：获取初始样本，所述初始样本包括初始图像样本以及与所述初始图像样本对应的行为标注样本，所述初始图像样本为交互行为在单一视角下所呈现的图像；提取所述初始图像样本中与所述交互行为所对应的三维人体图像；根据所述三维人体图像，生成所述交互行为在不同视角下所呈现的图像，得到多视角图像样本；将所述多视角图像样本以及所述行为标注样本作为一组训练样本。

在一些实施例中，上述图像获取模块710可以包括：图像采集单元、用户定位单元以及图像处理单元。其中，图像采集单元用于获取图像采集设备采集到的环境图像；用户定位单元用于对所述环境图像中的用户位置进行定位跟踪，得到用户位置信息；图像处理单元用于根据所述用户位置信息，从所述环境图像中获取所述用户对应的人体区域图像，作为待处理图像。

在一些实施例中，上述用户定位单元可以具体用于：确定当前帧环境图像中的用户位置；基于所述用户位置以及下一帧环境图像，对所述用户位置进行持续跟踪，得到用户位置信息。

在另一些实施例中，上述用户定位单元也可以具体用于：提取所述环境图像中用户的人体特征数据；每隔指定时长，基于所述人体特征数据对所述指定时长所对应的当前帧环境图像中的用户位置进行定位跟踪，得到用户位置信息。

在一些实施例中，上述操作执行模块730可以具体用于：当所述行为识别结果为指定行为时，基于与所述指定行为对应的控制指令，控制指定设备执行操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的图像识别装置用于实现前述方法实施例中相应的图像识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参考图11，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是PC电脑、移动终端、服务器等能够运行应用程序的终端设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中，一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

可以理解，图11所示结构仅为示例，电子设备100还可以包括比图11所示更多或更少的组件，或是具有与图11所示完全不同的配置。本申请实施例对此没有限制。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待处理图像；

基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像；

根据所述行为识别结果，执行预设操作。

2.根据权利要求1所述的方法，其特征在于，在所述基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果之前，所述方法还包括：

获取训练样本，所述训练样本包括多视角图像样本以及与所述多视角图像样本对应的行为标注样本，所述多视角图像样本为至少一种交互行为在不同视角下所呈现的图像；

将所述多视角图像样本作为初始模型的输入，将所述行为标注样本作为所述初始模型的期望输出，对所述初始模型进行训练，得到所述预先训练好的行为识别模型。

3.根据权利要求2所述的方法，其特征在于，所述获取训练样本，包括：

获取初始样本，所述初始样本包括初始图像样本以及与所述初始图像样本对应的行为标注样本，所述初始图像样本为交互行为在单一视角下所呈现的图像；

提取所述初始图像样本中与所述交互行为所对应的三维人体图像；

根据所述三维人体图像，生成所述交互行为在不同视角下所呈现的图像，得到多视角图像样本；

将所述多视角图像样本以及所述行为标注样本作为一组训练样本。

4.根据权利要求1所述的方法，其特征在于，所述获取待处理图像，包括：

获取图像采集设备采集到的环境图像；

对所述环境图像中的用户位置进行定位跟踪，得到用户位置信息；

根据所述用户位置信息，从所述环境图像中获取所述用户对应的人体区域图像，作为待处理图像。

5.根据权利要求4所述的方法，其特征在于，所述对所述环境图像中的用户位置进行定位跟踪，得到用户位置信息，包括：

确定当前帧环境图像中的用户位置；

基于所述用户位置以及下一帧环境图像，对所述用户位置进行持续跟踪，得到用户位置信息。

6.根据权利要求4所述的方法，其特征在于，所述对所述环境图像中的用户位置进行定位跟踪，得到用户位置信息，包括：

提取所述环境图像中用户的人体特征数据；

每隔指定时长，基于所述人体特征数据对所述指定时长所对应的当前帧环境图像中的用户位置进行定位跟踪，得到用户位置信息。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述行为识别结果，执行预设操作，包括：

当所述行为识别结果为指定行为时，基于与所述指定行为对应的控制指令，控制指定设备执行操作。

8.一种图像识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待处理图像；

图像识别模块，用于基于预先训练好的行为识别模型，识别所述待处理图像中的交互行为，得到行为识别结果，其中，所述行为识别模型预先根据训练样本对初始模型训练得到，所述训练样本包括至少一种交互行为在不同视角下所呈现的图像；

操作执行模块，用于根据所述行为识别结果，执行预设操作。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。