CN111414959B

CN111414959B - 图像识别方法、装置、计算机可读介质和电子设备

Info

Publication number: CN111414959B
Application number: CN202010191337.0A
Authority: CN
Inventors: 陈志熙
Original assignee: Nanjing Starfire Technology Co ltd
Current assignee: Nanjing Starfire Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2024-02-02
Anticipated expiration: 2040-03-18
Also published as: CN111414959A

Abstract

一种图像识别方法、装置、计算机可读介质和电子设备。该方法包括：基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；基于训练完成的图神经网络模型，根据输入的待识别图像，以及输入的与待识别图像中的图像特征对应的音频数据，对待识别图像进行识别，得到待识别图像的识别结果；其中，音频数据用于定义图像特征的特征属性。本申请实施例在对待识别图像进行识别过程中，融合了图像特征的音频数据，直接对待识别图像进行处理，而不需要再将图像转化为字符，提高了图像识别时的识别准确率。

Description

图像识别方法、装置、计算机可读介质和电子设备

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种图像识别方法、图像识别装置、计算机可读介质和电子设备。

背景技术

NLP(Neuro-Linguistic Programming，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方法，是一门融语言学、计算机科学、数学于一体的科学。

在通过NLP方法对图像进行识别时，通常是利用训练图像样本对NLP模型进行训练，利用训练完成的NLP模型对图像进行识别。比如，基于OCR(Optical CharacterRecognition，光学字符识别)方法，基于训练完成的识别模型，通过暗、亮模式检测待识别图像，确定待识别图像中特征的形状，然后用字符识别方法将形状转译为计算机可识别的字符，达到识别图像的目的。

发明内容

但是，在现有技术中，利用训练图像样本对NLP模型进行训练，训练完成的NLP模型通过字符对图像进行识别，在图像的识别过程中，存在着明显的局限。有鉴于此，本申请实施例提供一种图像识别方法、图像识别装置、计算机可读介质和电子设备。

本申请实施例提供了一种图像识别方法，包括：基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性。

可选地，在本申请的任一实施例中，所述基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练，包括：根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；根据所述知识图谱，对待训练的所述图神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，包括：选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱，包括：基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述根据所述知识图谱，对待训练的所述神经网络模型进行训练，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果，包括：对输入的所述待识别图像进行分割，生成多个子图像；提取多个所述子图像的图像特征，以及所述音频数据的音频特征；基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。

可选地，在本申请的任一实施例中，所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果，包括：对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。

本申请实施例还提供一种图像识别装置，包括：模型准备单元，配置为基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；识别单元，配置为基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性。

可选地，在本申请的任一实施例中，所述模型准备单元，包括：图谱子单元，配置为根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；训练子单元，配置为根据所述知识图谱，对待训练的图神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述图谱子单元，包括：样本分割模块，配置为选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；构建模块，配置为根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述构建模块，包括：第一提取子模块，配置为基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；第二提取子模块，配置为基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；图谱建立子模块，配置为根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述训练子单元，进一步配置为：根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述识别单元，包括：识别分割子单元，配置为对输入的所述待识别图像进行分割，生成多个子图像；提取子单元，配置为提取多个所述子图像的图像特征，以及所述音频数据的音频特征；编码子单元，配置为基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；解码子单元，配置为对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。

可选地，在本申请的任一实施例中，所述解码子单元，进一步配置为，对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。

本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，所述程序为上述任一实施例所述的图像识别方法。

本申请实施例还提供一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性。

可选地，在本申请的任一实施例中，所述处理器执行所述基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练的步骤，包括：根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；根据所述知识图谱，对待训练的图神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述处理器执行所述根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱的步骤，包括：选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述处理器执行所述根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱的步骤，包括：基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述处理器执行所述根据所述知识图谱，对待训练的所述图神经网络模型进行训练的步骤，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述处理器执行所述基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果的步骤，包括：对输入的所述待识别图像进行分割，生成多个子图像；提取多个所述子图像的图像特征，以及所述音频数据的音频特征；基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。

可选地，在本申请的任一实施例中，所述处理器执行所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果的步骤，包括：对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。

在本申请实施例的技术方案中，根据预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练，基于训练完成的图神经网络模型，根据输入的待识别图像，以及输入的与待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到识别结果。在对待识别图像进行识别过程中，融合了图像特征的音频数据，直接对待识别图像进行处理，而不需要再将图像转化为字符，提高了图像识别时的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本申请的一些实施例提供的应用场景示意图；

图2A为根据本申请的另一些实施例提供的应用场景示意图；

图2B为根据本申请的另一些实施例提供的应用场景示意图；

图3A为根据本申请的一些实施例提供的图像识别方法的流程示意图；

图3B为根据本申请的一些实施例提供的图像识别方法中步骤S301的流程示意图；

图3C为根据本申请的一些实施例提供的图像识别方法中步骤S311的流程示意图；

图3D为根据本申请的一些实施例提供的图像识别方法中步骤S311B的流程示意图；

图3E为根据本申请的一些实施例提供的图像识别方法中步骤S302的流程示意图；

图4A为根据本申请的一些实施例提供的图像识别装置的结构示意图；

图4B为根据本申请的一些实施例提供的图像识别装置中模型准备单元的结构示意图；

图4C为根据本申请的一些实施例提供的图像识别装置中图谱子单元的结构示意图；

图4D为根据本申请的一些实施例提供的图像识别装置中构建模块的结构示意图；

图4E为根据本申请的一些实施例提供的图像识别装置中识别单元的结构示意图；

图5为根据本申请的一些实施例提供的电子设备的结构示意图；

图6为根据本申请的一些实施例提供的电子设备的硬件结构。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

在一些技术方案中，利用训练图像样本对NLP模型进行训练，舍弃了训练图像样本中的图像特征所处的环境，训练完成的NLP模型精度和质量不高。利用该NLP模型在对图像进行识别时，需要将图像转译为字符，在此过程中不可避免的会产生转译错误以及信息丢失，使得图像识别准确率不高，可能会导致错误的图像识别结果。

示例性场景

图1为根据本申请的一些实施例提供的应用场景示意图；如图1所示，在该应用场景中，输入的是一段有关老虎的多媒体数据，在这段多媒体数据中，包含有老虎的各种姿态(比如，行走、爬卧等)，以及老虎的吼叫声。根据多媒体数据中有关老虎的多帧样本图像，以及老虎吼叫的音频数据，构建关于老虎的知识图谱。在构建知识图谱过程中，建立老虎的图像和老虎声音之间的关系，使构建完成的知识图谱中，融合了老虎的图像特征和声音特征。

相较于单独使用老虎的图像特征的训练图像样本，通过融合了老虎的图像特征和声音特征的知识图谱对神经网络模型进行训练，能够极大的提高神经网络模型训练精度和质量。

训练完成的神经网络模型在对待识别的老虎图像进行识别时，可以直接对待识别图像中老虎的图像特征进行特征提取，避免了将待识别图像转化为字符的过程，极大的提高待识别图像的识别准确率；此外，还可以在待识别图像的识别过程中，通过融合老虎声音的音频数据，直接对待识别图像中老虎的图像特征和声音特征进行特征提取，不需要再将待识别图像转化为字符。

图2A为根据本申请的另一些实施例提供的应用场景示意图；如图2所示，在该应用场景中，输入的是一段在赛场上，运动员竞赛过程中，观众为运动员“加油”的多媒体数据。通过这段多媒体数据中的运动赛场、观众、以及观众为运动员“加油”的声音，构建关于运动员的知识图谱。在知识图谱的构建过程中，建立了运动赛场、运动赛场中的运动员以及观众为运动员“加油”的声音之间的关系，使构建完成的知识图谱中，融合了运动赛场的环境信息，以及运动员的图像和观众为运动员“加油”的声音。

相较于单独使用图像特征的训练图像样本，通过融合了图像特征和声音特征的知识图谱对神经网络模型进行训练，能够极大的提高神经网络模型训练精度和质量。基于训练完成的神经网络模型，就可以根据图像中目标人物所处的场景和声音准确的识别出目标人物及其意图。比如，通过训练完成的神经网络模型，对在运动场上进行比赛的运动员进行识别时，识别结果为运动场上的运动员，图像中“加油”的意思是观众为运动员助威。

如图2B为根据本申请的另一些实施例提供的应用场景示意图；如图2B所示，在该应用场景中，输入的是一段在加油站中，加油站工作人员根据司机的“加油”请求，对车辆进行加油的多媒体数据。通过这段多媒体数据中的加油站、加油站工作人员、司机“加油”请求的声音，构建关于加油站工作人员的知识图谱。在知识图谱的构建过程中，建立了加油站、加油站工作人员、以及司机“加油”请求的声音之间的关系，使构建完成的知识图谱中，融合了加油站的环境信息，以及加油站工作人员的图像和司机“加油”请求的声音。

通过该知识图谱对神经网络模型进行训练时，神经网络模型对加油站工作人员工作时的环境(加油站、司机的“加油”请求)进行学习，基于训练完成的神经网络模型，对图像中加油站的工作人员进行识别时，识别结果为加油站工作人员，而不会将其识别为运动场上的运动员；图像中“加油”的意思为司机对加油站工作人员的加油请求，而不是观众为运动员的助威。

可以理解的是，图1、图2A、图2B所示的应用场景仅是本申请实施例可以在其中得以实现的部分示例，仅是为了便于理解本申请的精神和原理而示出。本申请实施例的适用范围不受到该应用场景任何方面的限制。

示例性方法

图3A为根据本申请的一些实施例提供的图像识别方法的流程示意图；如图3A所示，该模型训练方法，包括：

步骤S301、基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；

在本申请实施例中，待识别图像的图像特征的知识图谱可以是预先构建完成的，也可以实时构建完成的。利用包含待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练，籍此，可以有效提高待训练的图神经网络模型的训练精度和质量。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，根据输入的多媒体样本数据，构建所述待识别图像的图像特征的知识图谱。通过输入的多媒体样本数据中，样本图像的图像特征，以及定义图像特征的音频样本数据，将音频样本数据融入图像特征的知识图谱中，利用该知识图谱对图神经网络模型进行训练，避免使用单一的训练图像样本对图神经网络模型进行训练。籍此，可以有效提高图神经网络模型的训练精度和质量。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图3B为根据本申请的一些实施例提供的图像识别方法中步骤S301的流程示意图；如图3B所示，所述基于预设的待识别图像的图像特征的知识图谱，对图神经网络模型进行训练，包括：

步骤S311、根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；

在本申请实施例中，多媒体样本数据同时包含视频样本数据和音频样本数据。视频样本数据和音频样本数据可以按照时间序列相对应，比如，同一时间点的视频帧与同一时间点的音频帧相对应；视频样本数据和音频样本数据也可以不按照时间序列对应，比如，音频样本数据可以插入在视频样本数据中的任一时间。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，音频样本数据与样本图像中的图像特征相对应，用于定义图像特征的特征属性。图像特征的特征属性包括图像特征自身的客观属性(如，老虎身上皮毛的颜色、花纹、外表、老虎所处的环境等)。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，为了使构建的知识图谱更加全面的包含所需的图像特征，在根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱时，选取多帧样本图像中包含最多所述图像特征的一帧所述样本图像，根据包含最多所述图像特征的一帧所述样本图像、以及与所述图像特征对应的所述音频样本数据，构建所述图像特征的知识图谱。籍此，可以使构建的知识图谱更为完善，提高训练的神经网络模型的精度和质量。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图3C为根据本申请的一些实施例提供的图像识别方法中步骤S311的流程示意图；如图3C所示，所述根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，包括：

步骤S311A、选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；

在本申请实施例中，基于预设的光学设备，选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像。所述光学设备比如可以为具有截图功能的摄像头或红外成像仪等，通过摄像头或红外成像仪从多帧样本图像中截取包含有图像特征的一帧样本图像。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像时，基于边缘的图像分割算法，对选取的所述样本图像进行分割，生成N个所述样本子图像。边缘的图像分割算法包括：图像梯度算法、图像边缘算子算法等。可以理解的是，以上描述仅为示例性的，本申请实时对此并不进行限定。

在本申请实施例中，在基于边缘的图像分割算法对样本图像进行分割时，样本图像中的边缘检测可以通过对样本图像的灰度值求倒数确定，而对灰度值求导数可以通过微分算子计算来实现。籍此，在噪声较小的样本图像中，可以加快对样本图像的分割处理速度。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像时，基于区域分割算法，对选取的所述样本图像进行分割，生成N个所述样本子图像。区域分割算法包括：区域生长算法、区域分裂合并算法、分水岭算法、基于区域和语意的深度学习算法等。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，基于区域分割算法对样本图像进行分割，可以使样本图像形成封闭的边缘，获得较好的连续的区域边界，加快对复杂的样本图像的分割速度，提高对复杂样本图像的分割效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像时，选取多帧所述样本图像中包含有最多所述图像特征的一帧所述样本图像，基于区域和语意的深度学习算法，对选取的所述样本图像进行分割，生成N个样本子图像。比如，在对包含老虎和字符的一帧图像进行分割时，基于区域和语意的深度学习算法，将老虎和字符进行分割，生成N个样本子图像，即N的值等于字符的数量与老虎数量之和。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，在基于区域和语意的深度学习算法对样本图像进行分割时，利用图像特征的空间位置、颜色信息提高样本图像的分割精度，以精确确定图像特征的位置和类别，提高了样本图像的分割效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S311B、根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。

在本申请实施例中，在根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建N+1个节点的所述知识图谱时，通过将每个所述样本子图像与一个节点对应起来，将每个所述样本子图像中包含的特征信息，以及所述音频样本数据的特征信息分别输入对应的节点，并按照各子图像之间、以及与音频样本数据之间的属性关系，在各个节点之间建立相对应的属性关系，构建N+1个节点的所述知识图谱。其中，所述属性关系可以用于定义各子图像之间的空间位置关系、以及与音频样本数据之间的时间关系。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱时，根据N个所述样本子图像的特征编码，以及与所述图像特征对应的所述音频样本数据的特征编码，构建包含N+1个节点的所述知识图谱。籍此，可以将每个样本子图像以及音频样本数据中所包含的特征信息作为节点的属性信息，使构建的知识图谱不但融合了图像特征的环境信息，同时使构建完成的知识图谱最简化。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图3D为根据本申请的一些实施例提供的图像识别方法中步骤S311B的流程示意图；如图3D所示，所述根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱，包括：

步骤S311B1、基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；

在一些可选实施例中，对于颜色差异较大的图像，在基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，由于样本子图像的颜色特征差异较大，因而其颜色特征易于提取，基于颜色特征对样本子图像进行特征提取，可以加快特征提取的速度。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，通过N个所述样本子图像中每个样本子图像的颜色直方图，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，通过N个所述样本子图像中每个样本子图像的颜色集，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其它一些具体实施例中，在基于预设的卷积神经网络模型，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，还可以基于预设的卷积神经网络模型，通过N个所述样本子图像中每个样本子图像的颜色矩/颜色复合向量/颜色相关图，对N个所述样本子图像的颜色特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，为了消除图像在进行特征提取时产生的冗余信息，在基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，可以采用最小距离判别函数，对样本子图像的特征进行分类识别，提取样本子图像的纹理特征。纹理特征包括规则纹理特征和准规则纹理特征；对于规则纹理特征，可以采用结构分析方法提取；对于准规则纹理特征，可以采用统计分析方法提取。籍此，可以得到较高维数的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，通过纹理粗糙度，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，通过纹理相似性，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其它一些具体实施例中，在基于预设的卷积神经网络模型，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，还可以基于预设的卷积神经网络模型，通过纹理对比度/纹理方向性/纹理规则性/纹理粗略度，对N个所述样本子图像的纹理特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，对N个所述样本子图像的代数特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，可以通过特征矩阵和Fisher(费舍尔)判别准则，对样本子图像的代数特征进行特征提取。籍此，使提取的样本子图像的特征包含有好的特征信息和代数不变性，实现了很好的特征提取效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的代数特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，对N个所述样本子图像的线性特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的代数特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，对N个所述样本子图像的非线性特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，为了对包含有大量混合噪声(比如高斯噪声和椒盐噪声)的图像进行处理，在基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，通过对样本子图像的变换特征进行特征提取，在处理混合噪声的同时更好的保护了样本子图像的边缘，具有更好的噪声滤波效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，基于预设的卷积神经网络模型，通过傅里叶变换方法，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，还可以基于预设的卷积神经网络模型，通过小波变化方法，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其他一些具体的例子中，在基于预设的卷积神经网络模型，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码时，还可以基于预设的卷积神经网络模型，通过小波包变化方法/K-L变换(Karhunen-LoeveTransform，霍特林变换)方法，对N个所述样本子图像的变换特征分别进行特征提取，得到每个所述样本子图像的图像样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，所述颜色特征、所述纹理特征均描述了样本图像中所对应的图像特征的表面性质；所述代数特征述了样本图像中所对应的图像特征位置；所述变换特征描述了样本图像中所对应的图像特征的形状。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S311B2、基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；

在本申请实施例中，通过对音频样本数据进行特征提取，将音频样本数据转换成一种简洁而且逻辑性较强的表示形式，使之具有更好的鉴别性和可靠性，提高知识图谱的质量，进而使训练的神经网络模型具有更好的质量和精度。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码时，基于所述卷积神经网络模型，通过MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)技术，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码时，基于所述卷积神经网络模型，通过LPC(Linear Predictive Coding，线性预测编码)技术，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其他一些具体的例子中，在基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码时，基于所述卷积神经网络模型，通过LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱)技术/LSF(Line-Spectrum Frequency，谱线频率)技术/DWT(Discrete Wavelet Transform，离散小波变换)技术/PLP(Perceptual Linear Predict ive，感知线性预测)技术，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，步骤S311B1与步骤S311B2之间并无前后时序关系，可以是先执行步骤S311B1，然后执行步骤S311B2；也可以是先执行步骤S311B2，然后执行步骤S311B1；或者是，同时执行步骤S311B1和步骤S311B2。可以理解的是，以上描述仅为示例性的，本申请实施例都对此并不进行限定。

步骤S311B3、根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。

在本申请实施例中，将各个样本子图像的图像样本特征编码中包含的特征信息，以及音频样本数据的音频样本特征编码中包含的特征信息作为知识图谱中的N+1个节点中的属性信息，并按照各子图像之间、以及与音频样本数据之间的属性关系，在各个节点之间建立相对应的属性关系，完成知识图谱的构建。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，利用对多媒体数据中的其它帧样本图像和音频样本数据，对构建的知识图谱进行完善。具体为，通过对每一帧样本图像分别进行分割，生成多个样本子图像；进而，根据每一帧样本图像分割的多个样本子图像，以及与所述图像特征对应的所述音频样本数据，对构建的包含N+1个节点的知识图谱中各节点的属性信息，及各节点之间的属性关系进行完善。比如，通过update function(更新函数)对知识图谱中的节点属性、边(节点之间的关系)属性以及全局属性进行更新，以完善知识图谱，其中，全局属性用于定义样本图像和音频样本数据的属性信息；通过Aggregation function(聚合函数)计算知识图谱中对被更新对象有影响的节点、边以及全局的属性值等。籍此，通过多媒体数据中的多帧样本图像和音频样本数据，构建一个融合了图像特征、以及音频样本数据(音频样本数据用于定义样本图像的图像特征的特征属性)的知识图谱，即在知识图谱中融合了图像特征的环境信息。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S321、根据所述知识图谱，对待训练的图神经网络模型进行训练。

在一些可选实施例中，在根据所述知识图谱，对待训练的图神经网络模型进行训练时，根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。通过图神经网络模型对知识图谱中各节点之间的关系进行学习，完成对图神经网络模型的训练。图神经网络模型在学习各节点之间的属性关系时，同时对各节点的属性信息进行学习，以完善图神经网络模型的训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练时，根据所述知识图谱中N+1个节点之间的属性关系，对待训练的所述图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，根据所述知识图谱，还可以对基于注意力机制的transformer模型(也称之为多头注意力模型)或者其变种Bert模型(Bidirectional EncoderRepresentations from Transformers，预训练语言表示模型)等进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S302、基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果，其中，所述音频数据用于定义所述图像特征的特征属性。

在本申请实施例中，通过训练完成的图神经网络模型，根据输入的待识别图像，以及输入的与待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到识别结果。在对待识别图像进行识别过程中，融合了图像特征对应的音频数据，直接对待识别图像中的图像和声音进行编码，而不需要再将图像转化为字符，同时提高了对待识别图像进行识别时的识别准确率。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果时，基于训练完成的所述图神经网络模型，根据所述待识别图像和所述音频数据，得到所述待识别图像的特征编码；通过对所述特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图3E为根据本申请的一些实施例提供的图像识别方法中步骤S302的流程示意图；如图3E所示，所述基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果，包括：

步骤S312、对输入的所述待识别图像进行分割，生成多个子图像；

在本申请实施例中，在对输入的所述待识别图像进行分割，生成多个子图像时，可以基于边缘的图像分割算法/区域分割算法，对输入的所述待识别图像进行分割，生成多个子图像。其中，基于边缘的图像分割算法包括：图像梯度算法、图像边缘算子算法等；区域分割算法包括：区域生长算法、区域分裂合并算法、分水岭算法、基于区域和语意的深度学习算法等。由待识别图像进行分割生成的子图像的数量可以为N个，具体的流程可以参考步骤S311A的流程。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S322、提取多个所述子图像的图像特征，以及所述音频数据的音频特征；

在本申请实施例中，在提取多个所述子图像的图像特征，可以参考上述步骤S311B1的流程；在提取所述音频数据的音频特征时，可以参考上述步骤S311B2的流程，在此不再一一赘述。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，通过提取多个所述子图像的图像特征，以及所述音频数据的音频特征，建立N个所述子图像与所述音频数据之间的特征关系。籍此，将各个所述子图像与音频数据充分的联系起来，以利于对待识别图像进行识别，提高待识别图像的识别准确率。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S332、基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；

在本申请实施例中，基于所述图神经网络模型，将待识别图像中，各个所述子图像、音频数据的特征，以及它们之间的特征关系进行加权，输出待识别图像的特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S342、对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。

在一些可选实施例中，在对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果时，通过对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。所述硬解码可以包括通过解码芯片对所述待识别图像的特征编码进行解码；所述软解码可以包括通过逻辑回归模型对所述待识别图像的特征编码进行解码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，根据输入的多媒体数据中的多帧样本图像，以及多媒体数据中，与样本图像中的图像特征对应的音频样本数据，构建图像特征的知识图谱，使构建的知识图谱中融合了图像特征的环境信息，即与图像特征的特征属性对应的音频样本数据；进而，根据融合了图像特征的环境信息的知识图谱，对待训练的图神经网络模型进行训练，避免了使用单一的训练图像样本对图神经网络模型进行训练，同时从图像和声音进行采样，避免了转化成字符的过程，提高了图神经网络模型训练的精度和质量。基于训练完成的图神经网络模型，根据输入的待识别图像，以及输入的与待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到识别结果。在对待识别图像进行识别过程中，融合了图像特征的音频数据，直接对待识别图像进行编码，而不需要再将图像转化为字符，提高图像识别时的识别准确率。

示例性装置

图4A为根据本申请的一些实施例提供的图像识别装置的结构示意图；如图4A所示，该图像识别装置，包括：

模型准备单元401，配置为基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；识别单元402，配置为基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果，其中，所述音频数据用于定义所述图像特征的所述特征属性。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图4B为根据本申请的一些实施例提供的图像识别装置中模型准备单元的结构示意图；如图4B所示，所述模型准备单元401，包括：图谱子单元411，配置为根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；训练子单元421，配置为根据所述知识图谱，对待训练的图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图4C为根据本申请的一些实施例提供的图像识别装置中图谱子单元的结构示意图；如图4C所示，所述图谱子单元411，包括：

样本分割模块411A，配置为选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；构建模块411B，配置为根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图4D为根据本申请的一些实施例提供的图像识别装置中构建模块的结构示意图；如图4D所示，所述构建模块411B，包括：

第一提取子模块411B1，配置为基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；第二提取子模块411B2，配置为基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；图谱建立子模块411B3，配置为根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，所述训练子单元421，配置为根据所述知识图谱中节点之间的关系，对待训练的图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，所述训练子单元421，进一步配置为根据所述知识图谱中N+1个所述节点之间的属性关系，对待训练的所述图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图4E为根据本申请的一些实施例提供的图像识别装置中识别单元的结构示意图；如图4E所示，所述识别单元402，包括：

图像分割子单元412，配置为对输入的所述待识别图像进行分割，生成多个子图像；提取子单元422，配置为提取多个所述子图像的图像特征，以及所述音频数据的音频特征；编码子单元432，配置为基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；解码子单元442，配置为对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，所述解码子单元442，进一步配置为，对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例提供的图像识别装置能够实现前述图像识别方法实施例中的各个过程，并达到相同的功能和效果，在此不再重复。

示例性介质

本申请实施例还提供一种计算机可读介质，用于存储计算机程序，该计算机可读介质可以为可读存储介质，比如U盘、光盘、硬盘等；也可以为可读信号介质，比如光、电、磁、电磁等器件。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，该计算机可读介质存储的计算机程序在被处理器执行时，可以实现以下流程：基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练，包括：根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；根据所述知识图谱，对待训练的图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，包括：选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱，包括：基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据所述知识图谱，对待训练的图神经网络模型进行训练，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据所述知识图谱中节点之间的属性关系，对待训练的图神经网络模型进行训练，包括：根据所述知识图谱中N+1个所述节点之间的属性关系，对待训练的所述图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果，包括：对输入的所述待识别图像进行分割，生成多个子图像；提取多个所述子图像的图像特征，以及所述音频数据的音频特征；基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果，包括：对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例提供的计算机可读介质能够实现前述图像识别方法实施例中的各个过程，并达到相同的功能和效果，在此不再重复。

示例性设备

图5为根据本申请的一些实施例提供的电子设备的结构示意图；如图5所示，该电子设备包括：

一个或多个处理器501；

计算机可读介质502，可以配置为存储一个或多个程序，

所述一个或多个处理器501执行一个或多个程序时，实现如下步骤：基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练的步骤，包括：根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；根据所述知识图谱，对待训练的图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱的步骤，包括：选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；构建N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱的步骤，包括：基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据所述知识图谱，对待训练的图神经网络模型进行训练的步骤，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据所述知识图谱，对待训练的图神经网络模型进行训练的步骤，包括：根据所述知识图谱中N+1个所述节点之间的属性关系，对待训练的所述图神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果的步骤，包括：对输入的所述待识别图像进行分割，生成多个子图像；提取多个所述子图像的图像特征，以及所述音频数据的音频特征；基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果的步骤，包括：对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例提供的电子设备能够实现前述图像识别方法实施例中的各个过程，并达到相同的功能和效果，在此不再重复。

图6为根据本申请的一些实施例提供的电子设备的硬件结构；如图6所示，该电子设备的硬件结构可以包括：处理器601、通信接口602、计算机可读介质603和通信总线604；

其中，处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信；

可选地，通信接口602可以为通信模块的接口，如GSM模块的接口；

其中，处理器601具体可以配置为：基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性。

处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器存储介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的长曝光拍摄控制方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专业保护范围应由权利要求限定。

Claims

1.一种图像识别方法，其特征在于，包括：

基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；

基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性；其中，所述基于预设的待识别图像的图像特征的知识图谱，对图神经网络模型进行训练，包括：

根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱；其中，所述音频样本数据用于定义所述样本图像中的图像特征的特征属性；

根据所述知识图谱，对待训练的所述图神经网络模型进行训练；

其中，所述根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱，包括：

选取多帧所述样本图像中包含有所述图像特征的一帧所述样本图像进行分割，生成N个样本子图像，其中，N为正整数；

根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱；

其中，在根据输入的多媒体样本数据中的多帧样本图像，以及所述多媒体样本数据中，与所述样本图像中的图像特征对应的音频样本数据，构建所述图像特征的知识图谱时，选取多帧样本图像中包含最多所述图像特征的一帧所述样本图像，根据包含最多所述图像特征的一帧所述样本图像、以及与所述图像特征对应的所述音频样本数据，构建所述图像特征的知识图谱；

其中，在根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建N+1个节点的所述知识图谱时，通过将每个所述样本子图像与一个节点对应起来，将每个所述样本子图像中包含的特征信息，以及所述音频样本数据的特征信息分别输入对应的节点，并按照各子图像之间、以及与音频样本数据之间的属性关系，在各个节点之间建立相对应的属性关系，构建N+1个节点的所述知识图谱；其中，所述属性关系用于定义各子图像之间的空间位置关系、以及与音频样本数据之间的时间关系。

2.根据权利要求1所述的方法，其特征在于，所述根据N个所述样本子图像，以及与所述图像特征对应的所述音频样本数据，构建包含N+1个节点的所述知识图谱，包括：

基于预设的卷积神经网络模型，对N个所述样本子图像分别进行特征提取，得到每个所述样本子图像的图像样本特征编码；

基于所述卷积神经网络模型，对所述音频样本数据进行特征提取，得到所述音频样本数据的音频样本特征编码；

根据所述音频样本特征编码和N个所述图像样本特征编码，构建包含N+1个所述节点的所述知识图谱。

3.根据权利要求1所述的方法，其特征在于，根据所述知识图谱，对待训练的所述图神经网络模型进行训练，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述图神经网络模型进行训练。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果，包括：

对输入的所述待识别图像进行分割，生成多个子图像；

提取多个所述子图像的图像特征，以及所述音频数据的音频特征；

基于所述图神经网络模型，根据所述图像特征和所述音频特征，得到所述待识别图像的特征编码；

对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。

5.根据权利要求4所述的方法，其特征在于，所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果，包括：

对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。

6.一种图像识别装置，其特征在于，包括：

模型准备单元，配置为基于预设的待识别图像的图像特征的知识图谱，对待训练的图神经网络模型进行训练；

识别单元，配置为基于训练完成的所述图神经网络模型，根据输入的所述待识别图像，以及与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果；其中，所述音频数据用于定义所述图像特征的特征属性；

其中，所述基于预设的待识别图像的图像特征的知识图谱，对图神经网络模型进行训练，包括：

7.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：