CN111401259A

CN111401259A - 模型训练方法、系统、计算机可读介质和电子设备

Info

Publication number: CN111401259A
Application number: CN202010190950.0A
Authority: CN
Inventors: 陈志熙
Original assignee: Nanjing Starfire Technology Co ltd
Current assignee: Nanjing Starfire Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-10
Anticipated expiration: 2040-03-18
Also published as: CN111401259B

Abstract

一种模型训练方法、系统、计算机可读介质和电子设备。该模型训练方法包括：根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；根据所述知识图谱，对待训练的神经网络模型进行训练。该方法避免了使用单一的训练图像对神经网络模型进行训练，同时对图像和声音采样并提取特征，避免了转化成字符的过程，提高了神经网络模型训练的精度和质量。

Description

模型训练方法、系统、计算机可读介质和电子设备

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种模型训练方法、模型训练系统、计算机可读介质和电子设备。

背景技术

NLP(Neuro-Linguistic Programming，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方法，是一门融语言学、计算机科学、数学于一体的科学。

在通过NLP方法对图像进行识别时，通常是利用训练图像对NLP模型进行训练，利用训练完成的NLP模型对图像进行识别。比如，基于OCR(Optical Character Recognition，光学字符识别)方法，基于训练完成的识别模型，通过暗、亮模式检测待识别图像，确定待识别图像中特征的形状，然后用字符识别方法将形状转译为计算机可识别的字符，达到识别图像的目的。

发明内容

但是，在现有技术中，利用训练图像对NLP模型进行训练，通过这种方法训练完成的NLP模型在图像的识别过程中，存在着明显的局限。有鉴于此，本申请实施例提供一种模型训练方法、系统、计算机可读介质和电子设备。

本申请实施例提供了一种模型训练方法，包括：根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；根据所述知识图谱，对待训练的神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱，包括：选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱，包括：基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述根据所述知识图谱，对待训练的神经网络模型进行训练，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练。

可选地，在本申请的任一实施例中，待训练的所述神经网络模型为图神经网络模型。

本申请实施例还提供一种模型训练系统，包括：图谱单元，配置为根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；训练单元，配置为根据所述知识图谱，对待训练的神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述图片单元，包括：分割子单元，配置为选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；构建子单元，配置为根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述构建子单元，包括：第一提取模块，配置为基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；第二提取模块，配置为基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；图谱建立模块，配置为根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述训练单元，进一步配置为：根据所述知识图谱中节点之间的属性关系，对待训练的神经网络模型进行训练。

本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，所述程序为上述任一实施例所述的模型训练方法。

本申请实施例还提供一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；根据所述知识图谱，对待训练的神经网络模型进行训练。

可选地，在本申请的任一实施例中，所述处理器执行所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱的步骤，包括：选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述处理器执行所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱的步骤，包括：基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。

可选地，在本申请的任一实施例中，所述处理器执行所述根据所述知识图谱，对待训练的神经网络模型进行训练的步骤，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练。

在本申请实施例的技术方案中，根据输入的多媒体数据中的多帧视频图像，以及多媒体数据中，与视频图像中的图像特征对应的音频数据，构建图像特征的知识图谱，使构建的知识图谱中融合了图像特征的环境信息，即与图像特征的特征属性对应的音频数据；进而，根据融合了图像特征的环境信息的知识图谱，对待训练的神经网络模型进行训练，避免了使用单一的训练图像对神经网络模型进行训练，同时对图像和声音进行采样，提高了神经网络模型训练的精度和质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本申请的一些实施例提供的应用场景示意图；

图2A为根据本申请的另一些实施例提供的应用场景示意图；

图2B为根据本申请的另一些实施例提供的应用场景示意图；

图3A为根据本申请的一些实施例提供的模型训练方法的流程示意图；

图3B为根据本申请的一些实施例提供的模型训练方法中步骤S301的流程示意图；

图3C为根据本申请的一些实施例提供的模型训练方法中步骤S321的流程示意图；

图4A为根据本申请的一些实施例提供的模型训练系统的结构示意图；

图4B为根据本申请的一些实施例提供的模型训练系统中图谱单元的结构示意图；

图4C为根据本申请的一些实施例提供的模型训练系统中构建子单元的结构示意图；

图5为根据本申请的一些实施例提供的电子设备的结构示意图；

图6为根据本申请的一些实施例提供的电子设备的硬件结构。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

在一些技术方案中，利用训练图像对NLP模型进行训练，舍弃了训练图像中的图像特征所处的环境，训练完成的NLP模型精度和质量不高；利用这种方法训练的NLP模型在对图像进行识别时，需要将图像转译为字符，在此过程中不可避免的会产生转译错误以及信息丢失，使得图像识别准确率不高，可能会导致错误的图像识别结果。

示例性场景

图1为根据本申请的一些实施例提供的应用场景示意图；如图1所示，在该应用场景中，输入的是一段有关老虎的多媒体数据，在这段多媒体数据中，包含有老虎的各种姿态(比如，行走、爬卧等)，以及老虎的吼叫声。根据多媒体数据中有关老虎的多帧视频图像，以及老虎吼叫的音频数据，构建关于老虎的知识图谱。在构建知识图谱过程中，建立老虎的图像和老虎声音之间的关系，使构建完成的知识图谱中，融合了老虎的图像特征和声音特征。

相较于单独使用老虎的图像特征的训练图像，通过融合了老虎的图像特征和声音特征的知识图谱对神经网络模型进行训练，能够极大的提高神经网络模型训练精度和质量。

训练完成的神经网络模型在对待识别的老虎图像进行识别时，可以直接对待识别图像中老虎的图像特征进行特征提取，避免了将待识别图像转化为字符的过程，极大的提高待识别图像的识别准确率；此外，还可以在待识别图像的识别过程中，通过融合老虎声音的音频数据，直接对待识别图像中老虎的图像特征和声音特征进行特征提取，不需要再将待识别图像转化为字符。

图2A为根据本申请的另一些实施例提供的应用场景示意图；如图2A所示，在该应用场景中，输入的是一段在赛场上，运动员竞赛过程中，观众为运动员“加油”的多媒体数据。通过这段多媒体数据中的运动赛场、观众、以及观众为运动员“加油”的声音，构建关于运动员的知识图谱。在知识图谱的构建过程中，建立了运动赛场、运动赛场中的运动员以及观众为运动员“加油”的声音之间的关系，使构建完成的知识图谱中，融合了运动赛场的环境信息，以及运动员的图像和观众为运动员“加油”的声音。

相较于单独使用图像特征的训练图像，通过融合了图像特征和声音特征的知识图谱对神经网络模型进行训练，能够极大的提高神经网络模型训练精度和质量。基于训练完成的神经网络模型，就可以根据图像中目标人物所处的场景和声音准确的识别出目标人物及其意图。比如，通过训练完成的神经网络模型，对在运动场上进行比赛的运动员进行识别时，识别结果为运动场上的运动员，图像中“加油”的意思是观众为运动员助威。

如图2B为根据本申请的另一些实施例提供的应用场景示意图；如图2B所示，在该应用场景中，输入的是一段在加油站中，加油站工作人员根据司机的“加油”请求，对车辆进行加油的多媒体数据。通过这段多媒体数据中的加油站、加油站工作人员、司机“加油”请求的声音，构建关于加油站工作人员的知识图谱。在知识图谱的构建过程中，建立了加油站、加油站工作人员、以及司机“加油”请求的声音之间的关系，使构建完成的知识图谱中，融合了加油站的环境信息，以及加油站工作人员的图像和司机“加油”请求的声音。

通过该知识图谱对神经网络模型进行训练时，神经网络模型对加油站工作人员工作时的环境(加油站、司机的“加油”请求)进行学习，基于训练完成的神经网络模型，对图像中加油站的工作人员进行识别时，识别结果为加油站工作人员，而不会将其识别为运动场上的运动员；图像中“加油”的意思为司机对加油站工作人员的加油请求，而不是观众为运动员的助威。

可以理解的是，图1、图2A、图2B所示的应用场景仅是本申请实施例可以在其中得以实现的部分示例，仅是为了便于理解本申请的精神和原理而示出。本申请实施例的适用范围不受到该应用场景任何方面的限制。

示例性方法

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图3A为根据本申请的一些实施例提供的模型训练方法的流程示意图；如图3A所示，该模型训练方法，包括：

步骤S301、根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱，其中，所述音频数据用于定义所述图像特征的特征属性；

在本申请实施例中，多媒体数据同时包含视频数据和音频数据。视频数据和音频数据可以按照时间序列相对应，比如，同一时间点的视频帧与同一时间点的音频帧相对应；视频数据和音频数据也可以不按照时间序列对应，比如，音频数据可以插入在视频数据中的任一时间。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，音频数据与视频图像中的图像特征相对应，用于定义图像特征的特征属性。图像特征的特征属性包括图像特征自身的客观属性(如，老虎身上皮毛的颜色、花纹、外表、老虎所处的环境等)。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，为了使构建的知识图谱更加全面的包含所需的图像特征，在根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱时，选取多帧视频图像中包含最多所述图像特征的一帧所述视频图像，根据包含最多所述图像特征的一帧所述视频图像以及与所述图像特征对应的所述音频数据，构建所述图像特征的知识图谱。籍此，同时根据图像和声音进行采样，使构建的知识图谱更为完善，提高训练的神经网络模型的精度和质量。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图3B为根据本申请的一些实施例提供的模型训练方法中步骤S301的流程示意图；如图3B所示，所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱，包括：

步骤S311、选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；

在本申请实施例中，基于预设的光学设备，选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像。所述光学设备比如可以为具有截图功能的摄像头或红外成像仪等，通过摄像头或红外成像仪从多帧视频图像中截取包含有图像特征的一帧视频图像。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个子图像时，基于边缘的图像分割算法，对选取的所述视频图像进行分割，生成N个所述子图像。边缘的图像分割算法包括：图像梯度算法、图像边缘算子算法等。可以理解的是，以上描述仅为示例性的，本申请实时对此并不进行限定。

在本申请实施例中，在基于边缘的图像分割算法对图像进行分割时，图像中的边缘检测可以通过对图像的灰度值求导数来确定，而对灰度值求导数可以通过微分算子计算来实现。籍此，在噪声较小的图像中，可以加快对图像的分割处理速度。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像时，基于区域分割算法，对选取的所述视频图像进行分割，生成N个所述视频子图像。区域分割算法包括：区域生长算法、区域分裂合并算法、分水岭算法、基于区域和语意的深度学习算法等。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，基于区域分割算法对视频图像进行分割，可以使视频图像形成封闭的边缘，获得较好的连续的区域边界，加快对复杂的视频图像的分割速度，提高对复杂视频图像的分割效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像时，选取多帧所述视频图像中包含有最多所述图像特征的一帧所述视频图像，基于区域和语意的深度学习算法，对选取的所述视频图像进行分割，生成N个视频子图像。比如，在对包含老虎和字符的一帧视频图像进行分割时，基于区域和语意的深度学习算法，将老虎和字符进行分割，生成N个视频子图像，即N的值等于字符的数量与老虎数量之和。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，在基于区域和语意的深度学习算法对视频图像进行分割时，利用图像特征的空间位置、颜色信息提高视频图像的分割精度，以精确确定图像特征的位置和类别，提高了视频图像的分割效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S321、根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。

在本申请实施例中，在根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建N+1个节点的所述知识图谱时，通过将每个所述视频子图像与一个节点对应起来，将每个所述视频子图像中包含的特征信息，以及所述音频数据的特征信息分别输入对应的节点，并按照各视频子图像之间、以及与音频数据之间的属性关系，在各个节点之间建立相对应的属性关系，构建N+1个节点的所述知识图谱。其中，所述属性关系可以定义各视频子图像之间的空间位置关系、以及与音频数据之间的时间关系。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱时，根据N个所述视频子图像的特征编码，以及与所述图像特征对应的所述音频数据的特征编码，构建包含N+1个节点的所述知识图谱。籍此，可以将每个视频子图像以及音频数据中所包含的特征信息作为节点的属性信息，使构建的知识图谱不但融合了图像特征的环境信息，同时使构建完成的知识图谱最简化。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图3C为根据本申请的一些实施例提供的模型训练方法中步骤S321的流程示意图；如图3C所示，所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱，包括：

步骤S321A、基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；

在一些可选实施例中，对于颜色差异大的图像，在基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，由于视频子图像的颜色差异较大，因而其颜色特征易于提取，基于颜色特征对视频子图像进行特征提取，可以加快特征提取的速度。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，通过N个所述视频子图像中每个视频子图像的颜色直方图，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，通过N个所述视频子图像中每个视频子图像的颜色集，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其它一些具体实施例中，在基于预设的卷积神经网络模型，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，还可以基于预设的卷积神经网络模型，通过N个所述视频子图像中每个视频子图像的颜色矩/颜色复合向量/颜色相关图，对N个所述视频子图像的颜色特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，为了消除视频子图像在进行特征提取时产生的冗余信息，在基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，可以采用最小距离判别函数，对视频子图像的特征进行分类识别，提取视频子图像的纹理特征。纹理特征包括规则纹理特征和准规则纹理特征；对于规则纹理特征，可以采用结构分析方法提取；对于准规则纹理特征，可以采用统计分析方法提取。籍此，可以得到较高维数的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，通过纹理粗糙度，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，通过纹理相似性，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其它一些具体实施例中，在基于预设的卷积神经网络模型，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，还可以基于预设的卷积神经网络模型，通过纹理对比度/纹理方向性/纹理规则性/纹理粗略度，对N个所述视频子图像的纹理特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，对N个所述视频子图像的代数特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，可以通过特征矩阵和Fisher(费舍尔)判别准则，对视频子图像的代数特征进行特征提取。籍此，使提取的视频子图像的特征包含有很好的特征信息和代数不变性，实现了很好的特征提取效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的代数特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，对N个所述视频子图像的线性特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的代数特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，对N个所述视频子图像的非线性特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，为了对包含有大量混合噪声(比如高斯噪声和椒盐噪声)的图像进行处理，在基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，通过对视频子图像的变换特征进行特征提取，在处理混合噪声的同时更好的保护了视频子图像的边缘，具有更好的噪声滤波效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，基于预设的卷积神经网络模型，通过傅里叶变换方法，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，还可以基于预设的卷积神经网络模型，通过小波变化方法，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其他一些具体的例子中，在基于预设的卷积神经网络模型，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码时，还可以基于预设的卷积神经网络模型，通过小波包变化方法/K-L变换(Karhunen-Loeve Transform，霍特林变换)方法，对N个所述视频子图像的变换特征分别进行特征提取，得到每个所述视频子图像的图像特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，所述颜色特征、所述纹理特征均描述了视频图像中对应的图像特征的表面性质；所述代数特征述了视频图像中对应的图像特征位置；所述变换特征描述了视频图像中对应的图像特征的形状。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

步骤S321B、基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；

在本申请实施例中，通过对音频数据进行特征提取，将音频数据转换成一种简洁而且逻辑性较强的表示形式，使之具有更好的鉴别性和可靠性，提高知识图谱的质量，进而使训练的神经网络模型具有更好的质量和精度。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码时，基于所述卷积神经网络模型，通过MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)技术，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码时，基于所述卷积神经网络模型，通过LPC(LinearPredictive Coding，线性预测编码)技术，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在其他一些具体的例子中，在基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码时，基于所述卷积神经网络模型，通过LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱)技术/LSF(Line-SpectrumFrequency，谱线频率)技术/DWT(Discrete Wavelet Transform，离散小波变换)技术/PLP(Perceptual Linear Predict ive，感知线性预测)技术等，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，步骤S321A与步骤S321B之间并无前后时序关系，可以是先执行步骤S321A，然后执行步骤S321B；也可以是先执行步骤S321B，然后执行步骤S321A；或者是，同时执行步骤S321A和步骤S321B。可以理解的是，以上描述仅为示例性的，本申请实施例都对此并不进行限定。

步骤S321C、根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。

在本申请实施例中，将各个视频子图像的图像特征编码中包含的特征信息，以及音频数据的音频特征编码中包含的特征信息作为知识图谱中的N+1个节点中的属性信息，并按照各视频子图像之间、以及与音频数据之间的属性关系，在各个节点之间建立相对应的属性关系，完成知识图谱的构建。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，利用对多媒体数据中的其它帧视频图像和音频数据，对构建的知识图谱进行完善。具体为，通过对每一帧视频图像分别进行分割，生成多个视频子图像；进而，根据每一帧视频图像分割的多个视频子图像，以及与所述图像特征对应的所述音频数据，对构建的包含N+1个节点的知识图谱中各节点的属性信息，及各节点之间的属性关系进行完善。比如，通过update function(更新函数)对知识图谱中的节点属性、边(节点之间的关系)属性以及全局属性进行更新，以完善知识图谱，其中，全局属性定义视频图像和音频数据的属性信息；通过Aggregation function(聚合函数)计算知识图谱中对被更新对象有影响的节点、边以及全局的属性值等。籍此，通过多媒体数据中的多帧视频图像和音频数据，构建一个融合了图像特征、以及音频数据(音频数据用于定义图像特征的特征属性)的知识图谱，即在知识图谱中融合了图像特征的环境信息。可以理解的是，以上描述仅为示例性的，本申请实施例都对此并不进行限定。

步骤S302、根据所述知识图谱，对待训练的神经网络模型进行训练。

本申请实施例中，待训练的神经网络模型可以为图神经网络模型，也可以为基于注意力机制的transformer模型(也称之为多头注意力模型)或者其变种Bert(Bidirectional Encoder Representations from Transformers，预训练语言表示模型)模型等。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在根据所述知识图谱，对待训练的神经网络模型进行训练时，根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练。通过神经网络模型对知识图谱中各节点之间的关系进行学习，完成对神经网络模型的训练。神经网络模型在学习各节点之间的属性关系时，同时对各节点的属性信息进行学习，以完善神经网络模型的训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练时，根据所述知识图谱中N+1个所述节点之间的属性关系，对待训练的所述神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在根据所述知识图谱，对待训练的神经网络模型进行训练之后，还可以包括：基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的所述待识别图像进行识别，得到所述待识别图像的识别结果，其中，与所述待识别图像中的图像特征对应的所述音频数据，定义所述待识别图像的图像特征的特征属性。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在本申请实施例中，通过训练完成的图神经网络模型，根据输入的待识别图像，以及输入的与待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到识别结果。在对待识别图像进行识别过程中，融合了待识别图像的图像特征对应的音频数据，可以直接对待识别图像中的图像和声音进行编码，而不需要再将图像转化为字符，同时提高了对待识别图像进行识别时的识别准确率。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果时，基于训练完成的所述图神经网络模型，根据所述待识别图像和所述音频数据，得到所述待识别图像的特征编码；通过对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，在基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像的图像特征对应的音频数据，对输入的待识别图像进行识别，得到所述待识别图像的识别结果时，具体为：对输入的所述待识别图像进行分割，生成多个识别子图像；提取多个所述识别子图像的图像特征，以及与所述待识别图像的图像特征对应的音频数据的音频特征；基于所述图神经网络模型，根据所述识别子图像的图像特征、以及所述待识别图像的图像特征对应的音频数据的音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，在对输入的所述待识别图像进行分割，生成多个识别子图像时，可以基于边缘的图像分割算法/区域分割算法，对输入的所述待识别图像进行分割，生成多个所述识别子图像。其中，基于边缘的图像分割算法包括：图像梯度算法、图像边缘算子算法等；区域分割算法包括：区域生长算法、区域分裂合并算法、分水岭算法、基于区域和语意的深度学习算法等。由待识别图像进行分割生成的识别子图像的数量可以为N个，具体的流程可参考步骤S311的流程。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在提取多个所述识别子图像的图像特征，以及与所述待识别图像的图像特征对应的音频数据的音频特征时，通过提取多个所述识别子图像的图像特征，以及与所述待识别图像的图像特征对应的音频数据的音频特征，建立N个所述识别子图像与所述待识别图像的图像特征对应的音频数据之间的特征关系。籍此，将各个所述识别子图像与所述待识别图像的图像特征对应的音频数据充分的联系起来，以利于对待识别图像进行识别，提高待识别图像的识别准确率。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在基于所述图神经网络模型，根据所述识别子图像的图像特征、以及所述待识别图像的图像特征对应的音频数据的音频特征，得到所述待识别图像的特征编码时，基于所述图神经网络模型，将待识别图像中，各个所述识别子图像的图像特征、与所述待识别图像的图像特征对应的音频数据的音频特征、以及它们之间的特征关系进行加权，输出所述待识别图像的特征编码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一具体的例子中，在对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果时，通过对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。所述硬解码可以包括通过解码芯片对所述待识别图像的特征编码进行解码；所述软解码可以包括通过逻辑回归模型对所述待识别图像的特征编码进行解码。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例中，根据输入的多媒体数据中的多帧视频图像，以及多媒体数据中，与视频图像中的图像特征对应的音频数据，构建图像特征的知识图谱，使构建的知识图谱中融合了图像特征的环境信息，即与图像特征的特征属性对应的音频数据；进而，根据融合了图像特征的环境信息的知识图谱，对待训练的神经网络模型进行训练，籍此，避免了使用单一的训练图像对神经网络模型进行训练，同时从图像和声音进行采样，避免了转化成字符的过程，提高了神经网络模型训练的精度和质量。进而，可以基于训练完成的图神经网络模型，根据输入的待识别图像，以及输入的与待识别图像中的图像特征对应的音频数据，对输入的待识别图像进行识别，得到识别结果；在对待识别图像进行识别过程中，融合待识别图像的图像特征的音频数据，直接对待识别图像进行编码，而不需要再将图像转化为字符，提高了图像识别时的识别准确率。

示例性系统

图4A为根据本申请的一些实施例提供的模型训练系统的结构示意图；如图4A所示，该模型训练系统，包括：

图谱单元401，配置为根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱，其中，所述音频数据用于定义所述图像特征的特征属性；训练单元402，配置为根据所述知识图谱，对待训练的神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图4B为根据本申请的一些实施例提供的模型训练系统中图谱单元的结构示意图；如图4B所示，所述图谱单元401，包括：

分割子单元411，配置为选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；构建子单元421，配置为根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

图4C为根据本申请的一些实施例提供的模型训练系统中构建子单元的结构示意图；如图4C所示，所述构建子单元421，包括：

第一提取模块421A，配置为基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；第二提取模块421B，配置为基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；图谱建立模块421C，配置为根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，所述训练单元402，进一步配置为根据所述知识图谱中节点之间的属性关系，对待训练的神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，所述训练单元402，具体可以配置为根据所述知识图谱中N+1个节点之间的属性关系，对待训练的神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，待训练的所述神经网络模型为图神经网络模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，通过模型训练系统训练完成的图神经网络模型可以用于进行图像识别，具体为，在模型训练系统中增加识别单元，所述识别单元用于对待识别图像进行识别。所述识别单元，包括：

识别分割子单元，配置为对输入的所述待识别图像进行分割，生成多个识别子图像；提取子单元，配置为提取多个所述识别子图像的图像特征，以及与所述待识别图像的图像特征对应的音频数据的音频特征；编码子单元，配置为基于所述图神经网络模型，根据所述识别子图像的图像特征、以及所述待识别图像的图像特征对应的音频数据的音频特征，得到所述待识别图像的特征编码；解码子单元，配置为对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一具体的例子中，所述解码子单元，进一步配置为，对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例提供的模型训练系统能够实现前述方法实施例中的各个过程，并达到相同的功能和效果，在此不再重复。

示例性介质

本申请实施例还提供一种计算机可读介质，用于存储计算机程序，该计算机可读介质可以为可读存储介质，比如U盘、光盘、硬盘等；也可以为可读信号介质，比如光、电、磁、电磁等器件。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，该计算机可读介质存储的计算机程序在被处理器执行时，可以实现以下流程：根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；根据所述知识图谱，对待训练的神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱，包括：选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱，包括：基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据所述知识图谱，对待训练的神经网络模型进行训练，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练，包括：根据所述知识图谱中N+1所述节点之间的属性关系，对待训练的所述神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，待训练的所述神经网络模型为图神经网络模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在另一些可选实施例中，该计算机可读介质存储的计算机程序在被处理器执行时，在根据所述知识图谱，对待训练的神经网络模型进行训练之后，还可以实现以下流程：基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果。可以理解的是，以上描述即为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对所述待识别图像进行识别，得到所述待识别图像的识别结果，包括：对输入的所述待识别图像进行分割，生成多个识别子图像；提取多个所述识别子图像的图像特征，以及与所述待识别图像的图像特征对应的音频数据的音频特征；基于所述图神经网络模型，根据所述识别子图像的图像特征、以及所述待识别图像的图像特征对应的音频数据的音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，该计算机可读介质存储的计算机程序在被处理器执行时，所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果，包括，对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例提供的计算机可读介质能够实现前述模型训练方法实施例中的各个过程，并达到相同的功能和效果，在此不再重复。

示例性设备

图5为根据本申请的一些实施例提供的电子设备的结构示意图；如图5所示，该电子设备包括：

一个或多个处理器501；

计算机可读介质502，可以配置为存储一个或多个程序，

所述一个或多个处理器501执行一个或多个程序时，实现如下步骤：根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；根据所述知识图谱，对待训练的神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱的步骤，包括：选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱的步骤，包括：基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据所述知识图谱，对待训练的神经网络模型进行训练的步骤，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练的步骤，包括：根据所述知识图谱中N+1个节点之间的属性关系，对待训练的所述神经网络模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述待训练的所述神经网络模型为图神经网络模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

在一些可选实施例中，所述一个或多个处理器501执行一个或多个程序时，在根据所述知识图谱，对待训练的神经网络模型进行训练的步骤之后，还可以实现如下步骤：基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的所述待识别图像进行识别，得到所述待识别图像的识别结果，其中，与所述待识别图像中的图像特征对应的所述音频数据，用于定义所述待识别图像的图像特征的特征属性。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述基于训练完成的所述图神经网络模型，根据输入的待识别图像，以及输入的与所述待识别图像中的图像特征对应的音频数据，对输入的所述待识别图像进行识别，得到所述待识别图像的识别结果的步骤，包括：对输入的所述待识别图像进行分割，生成多个识别子图像；提取多个所述识别子图像的图像特征，以及与所述待识别图像的图像特征对应的音频数据的音频特征；基于所述图神经网络模型，根据所述识别子图像的图像特征、以及所述待识别图像的图像特征对应的音频数据的音频特征，得到所述待识别图像的特征编码；对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

可选地，所述一个或多个处理器501执行一个或多个程序时，所述对所述待识别图像的特征编码进行解码，得到所述待识别图像的识别结果的步骤，包括：对所述待识别图像的特征编码进行硬解码和/或软解码，得到所述待识别图像的识别结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此并不进行限定。

本申请实施例提供的电子设备能够实现前述模型训练方法实施例中的各个过程，并达到相同的功能和效果，在此不再重复。

图6为根据本申请的一些实施例提供的电子设备的硬件结构；如图6所示，该电子设备的硬件结构可以包括：处理器601、通信接口602、计算机可读介质603和通信总线604；

其中，处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信；

可选地，通信接口602可以为通信模块的接口，如GSM模块的接口；

其中，处理器601具体可以配置为：根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；根据所述知识图谱，对待训练的神经网络模型进行训练。

处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器存储介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的长曝光拍摄控制方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专业保护范围应由权利要求限定。

Claims

1.一种模型训练方法，其特征在于，包括：

根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；

根据所述知识图谱，对待训练的神经网络模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱，包括：

选取多帧所述视频图像中包含有所述图像特征的一帧所述视频图像进行分割，生成N个视频子图像，其中，N为正整数；

根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱。

3.根据权利要求2所述的方法，其特征在于，所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱，包括：

基于预设的卷积神经网络模型，对N个所述视频子图像分别进行特征提取，得到每个所述视频子图像的图像特征编码；

基于所述卷积神经网络模型，对所述音频数据进行特征提取，得到所述音频数据的音频特征编码；

根据所述音频特征编码和N个所述图像特征编码，构建包含N+1个节点的所述知识图谱。

4.根据权利要求1所述的方法，其特征在于，所述根据所述知识图谱，对待训练的神经网络模型进行训练，包括：根据所述知识图谱中节点之间的属性关系，对待训练的所述神经网络模型进行训练。

5.根据权利要求1-4任一所述的方法，其特征在于，待训练的所述神经网络模型为图神经网络模型。

6.一种模型训练系统，其特征在于，包括：

图谱单元，配置为根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱；其中，所述音频数据用于定义所述图像特征的特征属性；

训练单元，配置为根据所述知识图谱，对待训练的神经网络模型进行训练。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序为如权利要求1-5任一所述的模型训练方法。

8.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：

根据所述知识图谱，对待训练的神经网络模型进行训练。

9.根据权利要求8所述的电子设备，其特征在于，所述处理器执行所述根据输入的多媒体数据中的多帧视频图像，以及所述多媒体数据中，与所述视频图像中的图像特征对应的音频数据，构建所述图像特征的知识图谱的步骤，包括：

10.根据权利要求9所述的电子设备，其特征在于，所述处理器执行所述根据N个所述视频子图像，以及与所述图像特征对应的所述音频数据，构建包含N+1个节点的所述知识图谱的步骤，包括：