CN110795973A - 多模态融合的动作识别方法、装置及计算机可读存储介质 - Google Patents

多模态融合的动作识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110795973A
CN110795973A CN201810877125.0A CN201810877125A CN110795973A CN 110795973 A CN110795973 A CN 110795973A CN 201810877125 A CN201810877125 A CN 201810877125A CN 110795973 A CN110795973 A CN 110795973A
Authority
CN
China
Prior art keywords
trained
model
mode
modal
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810877125.0A
Other languages
English (en)
Inventor
刘家瑛
蒋鸿达
宋思捷
厉扬豪
郭宗明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201810877125.0A priority Critical patent/CN110795973A/zh
Publication of CN110795973A publication Critical patent/CN110795973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多模态融合的动作识别方法、装置及计算机可读存储介质,方法包括:通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理,提高神经网络模型的性能。

Description

多模态融合的动作识别方法、装置及计算机可读存储介质
技术领域
本发明涉及计算机领域,尤其涉及一种多模态融合的动作识别方法、装置及计算机可读存储介质。
背景技术
随着科技的发展,用于认知的人工智能得到了很大的发展,应用新颖的材料和先进的技术,认知的能力也有了显著地进步,从环境的认知,到人体的认知,从静态的认知,到动态的认知。对于认知而言,一个重要环节就是对人体的认知,利用计算机视觉的人工智能在实际的认知中,动作的识别是其中比较重要的一个部分。人体的动作是指身体的活动或行动,在日常的生活,人体本身就是一个动态的生活过程,所谓的静态也只是动态的一个衔接过程。因而,提高认知的能力,其中的一个大问题就是人体动作的识别研究。
为了实现对动作的识别,现有技术中一般都是建立动作识别网络模型,并对其进行训练,后续可以将待识别数据添加至动作识别网络模型中进行识别。
但是,随着深度摄像机的发展,可以获取的视频信息越来越丰富,除传统的RGB视频之外,深度视频、红外视频、人体骨架视频等视频模态也更易获得。不同模态的视频具有不同的特征,以深度视频为例,相比较RGB视频,深度视频去除了纹理信息,但增加了第三维的信息,在刻画动作时具有更好的空域表现能力。然而,上述方法只能够实现对一种模态的数据进行动作识别,由于多模态数据在表现形式上的差异性,不同模态间互补信息的挖掘依然存在困难。
发明内容
本发明提供一种多模态融合的动作识别方法、装置及计算机可读存储介质,用于解决现有技术中由于多模态数据在表现形式上的差异性,不同模态的待识别数据无法进行动作识别的技术问题。
本发明的第一个方面是提供一种多模态融合的动作识别方法,包括:
通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
本发明的另一个方面是提供一种多模态融合的动作识别装置,包括:
第一训练模块,用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
连接模块,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
第二训练模块,用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
识别模块,用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
本发明的又一个方面是提供一种多模态融合的动作识别装置,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的多模态融合的动作识别方法。
本发明的又一个方面是提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的多模态融合的动作识别方法。
本发明提供的多模态融合的动作识别方法、装置及计算机可读存储介质,通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理,提高神经网络模型的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的多模态融合的动作识别方法的流程示意图;
图2为本发明实施例二提供的多模态融合的动作识别方法的流程示意图;
图3为本发明实施例三提供的多模态融合的动作识别装置的结构示意图;
图4为本发明实施例四提供的多模态融合的动作识别装置的结构示意图;
图5为本发明实施例五提供的多模态融合的动作识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的多模态融合的动作识别方法的流程示意图,如图1所示,所述方法包括:
步骤101、通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型。
随着深度摄像机的发展,可以获取的视频信息越来越丰富,除传统的RGB视频之外,深度视频、红外视频、人体骨架视频等视频模态也更易获得。不同模态的视频具有不同的特征,以深度视频为例,相比较RGB视频,深度视频去除了纹理信息,但增加了第三维的信息,在刻画动作时具有更好的空域表现能力。因此,为了实现对多种模态的视频的动作识别,首先,可以根据预设的单模态待训练数据对至少一个单模态待训练模型进行训练,具体地,单模态待训练数据包括但不限于RGB视频待训练数据、深度视频待训练数据等。可以根据当前单模态待训练数据的模态数量训练相应数量的单模态待训练模型,获得至少一个单模态神经网络模型。
步骤102、在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型。
在本实施方式中,通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型之后,由于单模态神经网络模型只能够实现对单模态的视频进行动作识别,因此,为了使神经网络模型能够兼容多种模态的视频,可以在任意两个单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型,该多模态待训练模型能够实现对多种模态的视频的动作识别。
具体地,以RGB和光流场同时作为输入为例,将封装好的Resnet101模型进行拆分和重组。Resnet101共有1个卷积层和4个卷积块,其中每个卷积块均会对输入先进行维度调整,然后进行残差学习,定义光流场模型的卷积块残差学习部分的输入为
Figure BDA0001753562260000041
输出为
Figure BDA0001753562260000042
RGB图像输出为
Figure BDA0001753562260000043
输出为
Figure BDA0001753562260000044
Figure BDA0001753562260000045
相乘作为RGB图像新的残差学习对象,建立模态流动后输入输出分别如公式1所示:
Figure BDA0001753562260000047
Figure BDA0001753562260000048
其他模态间的融合也采用这种连接模型的方式,连接的方向由单模态下模型分类性能决定,数据由分类性能较高的模型流向较低的模型。
步骤103、通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型。
在本实施方式中,获得能够实现对多种模态的视频的动作识别的多模态待训练模型之后,可以对其进行训练,以提高多模态待训练模型的识别精准度。具体地,可以通过预设的多模态待训练数据对多模态待训练模型进行训练,其中多模态待训练数据中多个模态下的视频数据。对多模态待训练模型进行训练之后,获得多模态神经网络模型,该多模态神经网络模型能够用于对多个模态的视频进行动作识别。
步骤104、将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
在本实施方式中,通过预设的多模态待训练数据对多模态待训练模型进行训练,获得多模态神经网络模型之后,可以将待识别的多模态数据添加至多模态神经网络模型中,从而能够获得多模态神经网络模型输出的识别结果。
本实施例提供的多模态融合的动作识别方法,通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理,提高神经网络模型的性能。
进一步地,在上述实施例的基础上,所述方法包括:
将所述单模态待训练数据转换为多帧图像,并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练;
针对每一所述单模态待训练模型,接收所述单模态待训练模型输出的第一训练结果;
根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差;
根据所述第一网络误差对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型;
在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
在本实施例中,为了方便单模态待训练模型对单模态待训练数据的识别,首先可以将单模态待训练数据转换为图像的形式,例如,可以将RGB视频待训练数据转换为多帧RGB待训练图像。并根据单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练。针对每一个单模态待训练模型,接收单模态待训练模型输出的第一训练结果。由于单模态待训练模型在训练过程中输出的第一训练结果可能不够准确,因此,为了提高单模态待训练模型的识别精准度,可以将第一训练结果与预设的标准结果进行比对,根据第一训练结果与预设的第一真实结果计算单模态待训练模型的第一网络误差;若二者误差超过预设的阈值时,则根据第一网络误差对单模态待训练模型进行参数调整,直至单模态待训练模型收敛,获得单模态神经网络模型。由于单模态神经网络模型只能够实现对单模态的视频进行动作识别,因此,为了使神经网络模型能够兼容多种模态的视频,可以在任意两个单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型,该多模态待训练模型能够实现对多种模态的视频的动作识别。通过预设的多模态待训练数据对多模态待训练模型进行训练,从而后续可以将待识别多模态数据添加至多模态神经网络模型中进行识别。
本实施例提供的多模态融合的动作识别方法,通过将单模态待训练数据转换为多帧图像,并根据单模态待训练模型输出的第一训练结果与预设的标准结果进行比对,不断调整单模态待训练模型的参数,直至模型收敛。从而能够提高单模态待训练模型的识别精度,进而为实现对多模态待识别设备的处理,提高神经网络模型的性能提供了基础。
进一步地,在上述任一实施例的基础上,所述方法包括:
通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
将所述多模态待训练数据转换为多帧图像,并根据所述多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练;
接收所述多模态待训练模型输出的第二训练结果;
根据所述第二训练结果与预设的第二真实结果计算所述多模态待训练模型的第二网络误差;
根据所述第而网络误差对所述多模态待训练模型进行参数调整,直至所述多模态待训练模型收敛,获得所述多模态神经网络模型;
将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
在本实施例中,通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;在任意两个单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型之后,为了方便多模态待训练模型对多模态待训练数据的识别,首先可以将多模态待训练数据转换为图像的形式,例如,可以将RGB视频待训练数据转换为多帧RGB待训练图像。并根据多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练。针对每二个多模态待训练模型,接收多模态待训练模型输出的第二训练结果。由于多模态待训练模型在训练过程中输出的第二训练结果可能不够准确,因此,为了提高多模态待训练模型的识别精准度,可以将第二训练结果与预设的标准结果进行比对,根据第二训练结果与预设的第二真实结果计算多模态待训练模型的第二网络误差;若二者误差超过预设的阈值时,则根据第二网络误差对多模态待训练模型进行参数调整,直至多模态待训练模型收敛,获得多模态神经网络模型。从而后续可以将待识别多模态数据添加至多模态神经网络模型中进行识别。
本实施例提供的多模态融合的动作识别方法,通过将多模态待训练数据转换为多帧图像,并根据多模态待训练模型输出的第二训练结果与预设的标准结果进行比对,不断调整多模态待训练模型的参数,直至模型收敛。从而能够提高多模态待训练模型的识别精度,进而为实现对多模态待识别设备的处理,提高神经网络模型的性能提供了基础。
进一步地,在上述任一实施例的基础上,所述方法包括:
将所述单模态待训练数据转换为多帧图像,并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练;
针对每一所述单模态待训练模型,接收所述单模态待训练模型输出的第一训练结果;
根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差;
根据所述第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型;
在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
在本实施例中,为了方便单模态待训练模型对单模态待训练数据的识别,首先可以将单模态待训练数据转换为图像的形式。并根据单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练。针对每一个单模态待训练模型,接收单模态待训练模型输出的第一训练结果。由于单模态待训练模型在训练过程中输出的第一训练结果可能不够准确,因此,为了提高单模态待训练模型的识别精准度,可以将第一训练结果与预设的标准结果进行比对,根据第一训练结果与预设的第一真实结果计算单模态待训练模型的第一网络误差;若二者误差超过预设的阈值时,则可以第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛。
具体地,首先将视频数据转化成多帧的图像,训练RGB视频和深度视频等模态采用单张训练的方法,把视频中的一帧输入模型,前传网络获得各个动作类别的预测概率,对比预测概率和视频真实类别,使用交叉熵函数作为网络误差,误差L使用交叉熵函数衡量,交叉熵刻画实际概率分布p(x)与期望概率分布q(x)的距离如公式2所示:
以反向传播的方法调整模型的参数,设置学习率η,模型权重参数whj反向传播之后的结果为如公式3所示:
Figure BDA0001753562260000082
训练光流场视频则采用堆叠图像的方式,将连续的光流场图像堆叠起来作为模型的输入,模型的参数更新同样采取反向传播的方法。重复输入训练集,降低学习率,直到模型参数收敛。保存该模型,作为后续多模态结合的基础。
相应地,针对多模态待训练模型也可以采用反向传播的方法进行参数的调整。在前传网络模型输出各个动作类别的概率后,使用交叉熵代价函数计算误差,然后通过反向传播算法将误差用于调整模型的参数。重复输入训练数据,直到模型的参数趋于稳定。
本实施例提供的多模态融合的动作识别方法,通过反向传播的方法对单模态待训练模型进行参数调整,直至单模态待训练模型收敛,获得单模态神经网络模型从而能够提高单模态待训练模型的识别精度,进而为实现对多模态待识别设备的处理,提高神经网络模型的性能提供了基础。
图2为本发明实施例二提供的多模态融合的动作识别方法的流程示意图,在上述任一实施例的基础上,如图2所示,所述多模态融合的动作识别方法包括:
步骤201、通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
步骤202、在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
步骤203、通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
步骤204、将所述待识别多模态数据转换为多帧图像,将所述待识别多模态数据对应的多帧图像添加至所述多模态神经网络模型中;
步骤205、选取所述待识别多模态数据对应的K帧图像对应的输出结果;
步骤206、计算所述K帧图像对应的输出结果的平均值,将所述平均值作为识别结果。
在本实施例中,通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型,在任意两个单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型,通过预设的多模态待训练数据对多模态待训练模型进行训练,获得多模态神经网络模型之后,为了方便多模态待训练模型对多模态待训练数据的识别,首先可以将多模态待训练数据转换为图像的形式,并将转换为多帧图像的待识别多模态数据添加至多模态神经网络模型中进行动作识别。为了提高多模态神经网络模型的识别精度,可以选取待识别多模态数据对应的K帧图像对应的输出结果,并求取该K帧图像的输出结果的平均值,将该均值作为识别结果。
具体地,为了提高动作识别的准确性,选取待测试视频中K帧的信息,并对它们的预测结果进行求和。对于一个有N类、M个模态的数据集的视频,第i个模态的第j帧的预测结果为一个N维向量scoreij,第i个模态最终的预测结果如公式4所示:
Figure BDA0001753562260000101
对于M个模态(RGB图像、光流场、深度图像等)的预测结果scorei,最终的各类动作的预测概率为它们的平均值,如公式5所示:
Figure BDA0001753562260000102
其中score是一个N维向量,第i个值代表视频为第i类动作的概率,概率最高的一项,即为该视频预测的动作类别,如公式6所示:
Figure BDA0001753562260000103
本实施例提供的多模态融合的动作识别方法,通过在多模态神经网络模型的识别过程中,选取K帧图像的识别结果,并将K帧图像的识别结果的均值作为最终识别结果,从而能够提高多模态神经网络模型的识别精度。
图3为本发明实施例三提供的多模态融合的动作识别装置的结构示意图,如图3所示,所述装置包括:
第一训练模块31,用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型。
连接模块32,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型。
第二训练模块33,用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型。
识别模块34,用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
本实施例提供的多模态融合的动作识别装置,通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理,提高神经网络模型的性能。
进一步地,在上述实施例的基础上,所述装置包括:
所述第一训练模块具体包括:
第一转换单元,用于将所述单模态待训练数据转换为多帧图像,并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练;
第一接收单元,用于针对每一所述单模态待训练模型,接收所述单模态待训练模型输出的第一训练结果;
第一计算单元,用于根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差;
第一调整单元,用于根据所述第一网络误差对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型;
连接模块,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
第二训练模块,用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
识别模块,用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
本实施例提供的多模态融合的动作识别装置,通过将单模态待训练数据转换为多帧图像,并根据单模态待训练模型输出的第一训练结果与预设的标准结果进行比对,不断调整单模态待训练模型的参数,直至模型收敛。从而能够提高单模态待训练模型的识别精度,进而为实现对多模态待识别设备的处理,提高神经网络模型的性能提供了基础。
进一步地,在上述任一实施例的基础上,所述装置包括:
第一训练模块,用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
连接模块,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
所述第二训练模块具体包括:
第二转换单元,用于将所述多模态待训练数据转换为多帧图像,并根据所述多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练;
第二接收单元,用于接收所述多模态待训练模型输出的第二训练结果;
第二计算单元,用于根据所述第二训练结果与预设的第二真实结果计算所述多模态待训练模型的第二网络误差;
第二调整单元,用于根据所述第而网络误差对所述多模态待训练模型进行参数调整,直至所述多模态待训练模型收敛,获得所述多模态神经网络模型;
识别模块,用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
本实施例提供的多模态融合的动作识别装置,通过将多模态待训练数据转换为多帧图像,并根据多模态待训练模型输出的第二训练结果与预设的标准结果进行比对,不断调整多模态待训练模型的参数,直至模型收敛。从而能够提高多模态待训练模型的识别精度,进而为实现对多模态待识别设备的处理,提高神经网络模型的性能提供了基础。
进一步地,在上述任一实施例的基础上,所述装置包括:
所述第一训练模块具体包括:
第一转换单元,用于将所述单模态待训练数据转换为多帧图像,并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练;
第一接收单元,用于针对每一所述单模态待训练模型,接收所述单模态待训练模型输出的第一训练结果;
第一计算单元,用于根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差;
第一调整单元具体包括:
调整子单元,用于根据所述第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型;
连接模块,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
第二训练模块,用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
识别模块,用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
本实施例提供的多模态融合的动作识别装置,通过反向传播的方法对单模态待训练模型进行参数调整,直至单模态待训练模型收敛,获得单模态神经网络模型从而能够提高单模态待训练模型的识别精度,进而为实现对多模态待识别设备的处理,提高神经网络模型的性能提供了基础。
图4为本发明实施例四提供的多模态融合的动作识别装置的结构示意图,在上述任一实施例的基础上,如图4所示,所述多模态融合的动作识别装置包括:
第一训练模块41,用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
连接模块42,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
第二训练模块43,用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
识别模块44具体包括:
添加单元401,用于将所述待识别多模态数据转换为多帧图像,将所述待识别多模态数据对应的多帧图像添加至所述多模态神经网络模型中;
选取单元402,用于选取所述待识别多模态数据对应的K帧图像对应的输出结果;
第三计算单元403,用于计算所述K帧图像对应的输出结果的平均值,将所述平均值作为识别结果。
本实施例提供的多模态融合的动作识别装置,通过在多模态神经网络模型的识别过程中,选取K帧图像的识别结果,并将K帧图像的识别结果的均值作为最终识别结果,从而能够提高多模态神经网络模型的识别精度。
图5为本发明实施例五提供的多模态融合的动作识别装置的结构示意图,如图5所示,所述多模态融合的动作识别装置包括:存储器51,处理器52;
存储器51;用于存储所述处理器52可执行指令的存储器51;
其中,所述处理器52被配置为由所述处理器52执行如上述的多模态融合的动作识别方法。
本发明的又一实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的多模态融合的动作识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种多模态融合的动作识别方法,其特征在于,包括:
通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
2.根据权利要求1所述的方法,其特征在于,所述通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型,包括:
将所述单模态待训练数据转换为多帧图像,并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练;
针对每一所述单模态待训练模型,接收所述单模态待训练模型输出的第一训练结果;
根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差;
根据所述第一网络误差对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型。
3.根据权利要求1所述的方法,其特征在于,所述通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型,包括:
将所述多模态待训练数据转换为多帧图像,并根据所述多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练;
接收所述多模态待训练模型输出的第二训练结果;
根据所述第二训练结果与预设的第二真实结果计算所述多模态待训练模型的第二网络误差;
根据所述第而网络误差对所述多模态待训练模型进行参数调整,直至所述多模态待训练模型收敛,获得所述多模态神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述将待识别多模态数据添加至所述多模态神经网络模型中进行识别,包括:
将所述待识别多模态数据转换为多帧图像,将所述待识别多模态数据对应的多帧图像添加至所述多模态神经网络模型中;
选取所述待识别多模态数据对应的K帧图像对应的输出结果;
计算所述K帧图像对应的输出结果的平均值,将所述平均值作为识别结果。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一网络误差对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型,包括:
根据所述第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型。
6.一种多模态融合的动作识别装置,其特征在于,包括:
第一训练模块,用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练,获得至少一个单模态神经网络模型;
连接模块,用于在任意两个所述单模态神经网络模型之间添加信息流动连接,获得多模态待训练模型;
第二训练模块,用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练,获得多模态神经网络模型;
识别模块,用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。
7.根据权利要求6所述的装置,其特征在于,所述第一训练模块包括:
第一转换单元,用于将所述单模态待训练数据转换为多帧图像,并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练;
第一接收单元,用于针对每一所述单模态待训练模型,接收所述单模态待训练模型输出的第一训练结果;
第一计算单元,用于根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差;
第一调整单元,用于根据所述第一网络误差对所述单模态待训练模型进行参数调整,直至所述单模态待训练模型收敛,获得所述单模态神经网络模型。
8.根据权利要求6所述的装置,其特征在于,所述第二训练模块包括:
第二转换单元,用于将所述多模态待训练数据转换为多帧图像,并根据所述多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练;
第二接收单元,用于接收所述多模态待训练模型输出的第二训练结果;
第二计算单元,用于根据所述第二训练结果与预设的第二真实结果计算所述多模态待训练模型的第二网络误差;
第二调整单元,用于根据所述第而网络误差对所述多模态待训练模型进行参数调整,直至所述多模态待训练模型收敛,获得所述多模态神经网络模型。
9.一种多模态融合的动作识别装置,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-5所述的多模态融合的动作识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的多模态融合的动作识别方法。
CN201810877125.0A 2018-08-03 2018-08-03 多模态融合的动作识别方法、装置及计算机可读存储介质 Pending CN110795973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810877125.0A CN110795973A (zh) 2018-08-03 2018-08-03 多模态融合的动作识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810877125.0A CN110795973A (zh) 2018-08-03 2018-08-03 多模态融合的动作识别方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110795973A true CN110795973A (zh) 2020-02-14

Family

ID=69425805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810877125.0A Pending CN110795973A (zh) 2018-08-03 2018-08-03 多模态融合的动作识别方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110795973A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507111A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN111914777A (zh) * 2020-08-07 2020-11-10 广东工业大学 一种跨模态识别机器人指令的方法及系统
CN112949480A (zh) * 2021-03-01 2021-06-11 浙江大学 一种基于yolov3算法的铁轨弹条检测方法
WO2021258329A1 (en) * 2020-06-24 2021-12-30 Intel Corporation Object identification based on adaptive learning
CN114092774B (zh) * 2021-11-22 2023-08-15 沈阳工业大学 基于信息流融合的rgb-t图像显著性检测系统及检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156693A (zh) * 2014-07-15 2014-11-19 天津大学 一种基于多模态序列融合的动作识别方法
US20170330363A1 (en) * 2016-05-13 2017-11-16 Yahoo Holdings Inc. Automatic video segment selection method and apparatus
CN107678617A (zh) * 2017-09-14 2018-02-09 北京光年无限科技有限公司 面向虚拟机器人的数据交互方法和系统
CN107808146A (zh) * 2017-11-17 2018-03-16 北京师范大学 一种多模态情感识别分类方法
CN108229066A (zh) * 2018-02-07 2018-06-29 北京航空航天大学 一种基于多模态超连接脑网络建模的帕金森自动识别方法
CN108319968A (zh) * 2017-12-27 2018-07-24 中国农业大学 一种基于模型融合的果蔬图像分类识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156693A (zh) * 2014-07-15 2014-11-19 天津大学 一种基于多模态序列融合的动作识别方法
US20170330363A1 (en) * 2016-05-13 2017-11-16 Yahoo Holdings Inc. Automatic video segment selection method and apparatus
CN107678617A (zh) * 2017-09-14 2018-02-09 北京光年无限科技有限公司 面向虚拟机器人的数据交互方法和系统
CN107808146A (zh) * 2017-11-17 2018-03-16 北京师范大学 一种多模态情感识别分类方法
CN108319968A (zh) * 2017-12-27 2018-07-24 中国农业大学 一种基于模型融合的果蔬图像分类识别方法及系统
CN108229066A (zh) * 2018-02-07 2018-06-29 北京航空航天大学 一种基于多模态超连接脑网络建模的帕金森自动识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEICHTENHOFER.ET AL: ""Spatiotemporal Multiplier Networks for Video Action Recognition"", 《CVPR》 *
KAREN SIMONYAN.ET AL: ""Two-Stream Convolutional Networks for Action Recognition in Videos"", 《ARXIV:1406.2199V2》 *
LONGLONG JING.ET AL: ""3D CONVOLUTIONAL NEURAL NETWORK WITH MULTI-MODEL FRAMEWORK FOR ACTION RECOGNITION"", 《IEEE》 *
SIJIE SONG.ET AL: ""An End-to-End Spatio-Temporal Attention Model for"", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507111A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN111507111B (zh) * 2020-03-19 2021-11-23 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
WO2021258329A1 (en) * 2020-06-24 2021-12-30 Intel Corporation Object identification based on adaptive learning
CN111914777A (zh) * 2020-08-07 2020-11-10 广东工业大学 一种跨模态识别机器人指令的方法及系统
CN111914777B (zh) * 2020-08-07 2021-07-06 广东工业大学 一种跨模态识别机器人指令的方法及系统
CN112949480A (zh) * 2021-03-01 2021-06-11 浙江大学 一种基于yolov3算法的铁轨弹条检测方法
CN114092774B (zh) * 2021-11-22 2023-08-15 沈阳工业大学 基于信息流融合的rgb-t图像显著性检测系统及检测方法

Similar Documents

Publication Publication Date Title
CN110795973A (zh) 多模态融合的动作识别方法、装置及计算机可读存储介质
KR102358554B1 (ko) 시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체
US11776092B2 (en) Color restoration method and apparatus
CN109840531B (zh) 训练多标签分类模型的方法和装置
US20190236440A1 (en) Deep convolutional neural network architecture and system and method for building the deep convolutional neural network architecture
US8917907B2 (en) Continuous linear dynamic systems
US11651214B2 (en) Multimodal data learning method and device
CN111133453B (zh) 人工神经网络
CN113361710B (zh) 学生模型训练方法、图片处理方法、装置及电子设备
JP2020061173A (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
US11544571B2 (en) Optimizing unsupervised generative adversarial networks via latent space regularizations
CN111104831B (zh) 一种视觉追踪方法、装置、计算机设备以及介质
US20220067888A1 (en) Image processing method and apparatus, storage medium, and electronic device
Liu et al. Pose-adaptive hierarchical attention network for facial expression recognition
KR102357000B1 (ko) 인공 신경망 기반의 비정제 동영상에서의 행동 인식 방법 및 장치
CN115956247A (zh) 神经网络模型优化方法及装置
Gatti et al. Design and Implementation of Vision Module for Visually Impaired People
KR20200119042A (ko) 댄스 평가 서비스를 제공하기 위한 방법 및 시스템
US20230410465A1 (en) Real time salient object detection in images and videos
JP2021047797A (ja) 機械学習装置、機械学習方法、及びプログラム
CN113822790B (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
US20230244929A1 (en) Learning device, generation method, inference device, inference method, and program
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
Rahmayanti et al. Sketch generation from real object images using generative adversarial network and deep reinforcement learning
Viswanathan et al. Text to image translation using generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230627

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Applicant after: Peking University

Applicant after: New founder holdings development Co.,Ltd.

Applicant after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Applicant before: Peking University

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231229