CN109947954A

CN109947954A - 多任务协同识别方法及系统

Info

Publication number: CN109947954A
Application number: CN201910312615.0A
Authority: CN
Inventors: 明悦
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-07-09
Filing date: 2019-04-18
Publication date: 2019-06-28
Anticipated expiration: 2039-04-18
Also published as: CN109947954B; CN108804715A

Abstract

本发明提供了一种多任务协同识别方法和系统，属于人工智能的任务识别技术领域，该系统包括通用特征提取模块、协同特征学习模块、适境反馈评估识别模块；基于时间同步匹配机制，提取多源异构数据的通用特征，实现所述多源异构数据的通用特征描述；结合基于外部依赖的协同注意机制，将所述通用特征作为先验知识进行训练，生成通用特征间的关联记忆关系；提取多源异构数据的环境感知参数，结合所述关联记忆关系，实现多任务识别。本发明结合环境感知的适境计算理论，通过深度增强反馈判断出待识别任务的权重，自适应地根据环境变化调整待识别任务的优先级，实现多个视听觉感知识别结果同时输出的效果。

Description

多任务协同识别方法及系统

本申请要求2018年07月09日提交的申请号为201810746362.3的中国发明专利申请的优先权。

技术领域

本发明涉及人工智能的任务识别技术领域，具体涉及一种多任务协同识别方法和系统。

背景技术

人工智能在以深度神经网络算法为基础，以大数据、云计算、智能终端为支撑，即将进入全面爆发的新纪元。通信带宽的不断增长和传输速度的持续提升，使得海量音/视频数据获取的门槛迅速降低。面对海量数据在存储和处理上超高速、移动化和普适化的迫切需求，传统意义上基于单模态单任务处理的弱人工智能已经成为掣肘该领域发展的主要瓶颈。

所谓视听媒体多任务感知识别是指基于生物视听觉感知机理，提取多源异构视听觉信息的通用特征，结合持续性深度层次递归模型,学习出具备长时记忆的时空域共享语义关联信息，实现增强反馈机制下，对不同的视听觉任务的适境感知协同识别结果。例如，一段“小明蹦蹦跳跳到学校说‘老师好！’”的音视频数据中，实现类脑认知下的多种视听觉任务同时识别的效果，即同时识别出场景(学校)、目标(小明)、目标行为(蹦跳)、目标情感(高兴)和目标语言(老师好)，而不是传统方法中对每一个识别任务建立一套单独的识别框架，分别输出识别结果，既浪费计算资源，又难以处理海量数据。

大数据时代，来源于社交、信息和物理空间不同平台和终端的视听媒体数据呈现出海量异构性，传统基于人工选择特征的模式识别方法已不能满足多任务协同识别的需求。这些多源异构数据又共享着相同的语义信息，具有丰富的潜在关联。以“马”的主题为例，所有图像、视频、音频片段、立体图像和三维模型都可以从互补支撑的角度更好地描述“马”这个相同的语义概念。为了更好地满足当前通用化强人工智能发展的需要，寻找一种基于关联语义的、多源视听媒体数据的通用特征描述方法，成为进一步提高智能感知识别的处理速度、存储容量和鲁棒性的前提和基础，为视听媒体多任务协同感知识别提供有效的数据保证。

对于海量多源数据，随着用户规模、地域分布和时间演变，基于深度学习的特征学习方法又产生了一些新问题：

深度神经网络训练时需要大量训练数据，使其对小规模数据任务无能为力，面对海量数据的高昂训练标记成本，使其对持续数据流输入的真实识别任务性能欠佳。

深度神经网络模型复杂，参数数目巨大，训练过程需要强大的计算设施，同时在面对不同的识别任务时，采用不同的卷积层结构，难以实现网络资源迅速而均衡的配置。

面对复杂多样的场景变化无法根据已处理的数据时序信息，建立长时关联选择性记忆和遗忘机制，实现适境高效的自适应学习机制。例如目标从教学楼走向食堂的一段视频数据中，根据前期对教学楼和食堂两个场景的识别记忆可以将目标行为识别从学习推理为吃饭，相应的对话话题也会变化。

因此，视听觉感知识别中面向多任务的持续性深度协同学习和增强反馈，成为当前视听觉智能感知识别中亟待解决的核心问题之一。

发明内容

本发明的目的在于提供一种可结合环境感知的适境计算理论，通过深度增强反馈判断出待识别任务的权重，自适应地根据环境变化调整待识别任务的优先级，实现多个视听觉感知识别任务判别的融合视听觉感知的多任务协同识别方法和系统，以解决上述背景技术中存在的技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供了一种多任务协同识别方法，包括如下步骤：

步骤S110：基于时间同步匹配机制，提取多源异构数据的通用特征，实现所述多源异构数据的通用特征描述；

步骤S120：结合基于外部依赖的协同注意机制，将所述通用特征作为先验知识进行训练，生成通用特征间的关联记忆关系；

步骤S130：提取多源异构数据的环境感知参数，结合所述关联记忆关系，实现多任务识别。

进一步的，所述步骤S110中，所述时间同步匹配机制包括：

提取所述多源异构数据的低层特征流，为每个信道的数据建立一个编码概念流，作为复杂事件的参考语义编码，对所述低层特征流与所述参考语义编码进行动态时间规整，产生时间平移函数，实现语义对齐；其中，

所述提取所述多源异构数据的低层特征流包括：

对音频信号声波采样后，进行频谱变换，构建频谱图；

对二维视频信号进行频谱变换，引入共生统计特性得到具有旋转平移不变性的二维时序信号；

对三维视频序列，引入多尺度理论进行尺度空间变换，再进行频谱变换和统计共生，生成时序金字塔频谱特征。

进一步的，步骤S110中，所述提取多源异构数据的通用特征，实现所述多源异构数据的通用特征描述包括：

对S类异构特征，将记为n_i个训练样本的特征矩阵，数据噪声部分为E，Γ为旋转因子，建立正交约束下的优化函数为：

其中，X_i表示一个特征类型，Θ_i为X_i的投影矩阵，{Θ_i}表示通用语义特征子空间，W₀表示语义共享矩阵，{W_i}表示特定特征矩阵，R₁(W₀,{W_i},{Θ_i})表示损失函数，R₂({Θ_i})表示重构损失函数，R₃(W₀,{W_i})表示正则函数，λ表示共享矩阵系数，T表示矩阵进行转置运算，Y_i表示第i个特征类别标注，F表示Frobenius范数，表示投影矩阵Θ_i的转置，α、β、μ₁和μ₂为乘数因子，rank(X)为特征矩阵X的秩，E是噪声矩阵；

对多源异构数据中未标注数据的迁移自标注学习，记未标注数据集为迁移学习的标注目标集，使目标集与补充集通过{Θ_i}联合优化特征自主标注学习，为补充集样本特征描述，为补充集标注信息，为目标集样本特征描述，为目标集标注信息，迁移自标注学习模型表示如下：

其中F(·)是目标函数，ρ是乘数因子，使用三阶段优化算法求解所述迁移自标注学习模型，获得所述通用特征描述。

进一步的，所述步骤S120具体包括：

对通用特征描述集e_≤T＝{e₁,e₂,···,e_T}和对应的隐变量集z_≤T＝{z₁,z₂,···,z_T}，使用平移映射h_t＝f_h(h_t-1,e_t,z_t)修正每个时间点的确定性隐状态变量h_t，先验映射函数f_z(h_t-1)描述过去观察和隐变量的非线性依赖并提供隐变量分布参数；

非线性观察映射函数f_e(z_t,h_t-1)提供依赖于隐变量和状态的似然函数，利用外部记忆模型修正时序变量自动编码器，在每个时间点产生一个记忆文本ψ_t,得具有关联记忆关系的先验信息和后验信息如下：

先验信息p_θ(z_t|z_＜T,e_＜T)＝Ν(z_t|f_z ^μ(Ψ_t),f_z ^σ(Ψ_t-1))

后验信息q_φ(z_t|z_＜T,e_≤T)＝Ν(z_t|f_q ^μ(Ψ_t-1,e_t)_,f_q ^σ(Ψ_t-1,e_t))，

其中，是隐变量z状态μ的平移映射函数，是隐变量z状态σ的平移映射函数，是后验概率q状态μ的平移映射函数，后验概率q状态σ的平移映射函数，先验信息是依赖于先验映射f_z记忆文本的对角高斯分布函数，而对角高斯近似后验分布依赖于通过后验映射函数f_q关联的记忆文本Ψ_t-1和当前观察e_t。

进一步的，所述步骤S120还包括：

采用协同模式感知理论，计算通用特征在任务影响下产生的时序记忆偏置值，根据所述时序记忆偏置值和通用特征生成与识别任务相关的自适应感知注意时区；

使用记忆网络(LSTM)f_rnn提升状态历史h_t，利用来自于前一时刻的隐变量和外部文本信息c_t生成外部记忆M_t，产生状态更新模型如下：

状态更新(h_t,M_t)＝f_rnn(h_t-1,M_t-1,z_t-1,c_t)

利用余弦相似度评测将与记忆M_t-1每一行进行对比，产生注意权重，检索的记忆由注意权重和记忆M_t-1的加权和获得，其中，

关键值

注意机制

检索记忆

生成记忆

其中，表示提升状态历史的r项关键值函数，f_att表示注意机制函数，是t时刻r项第i个点的记忆权重，表示检索记忆等式获得的结果，⊙表示点乘运算，是通过检索记忆学习到的关联偏置值，σ(·)是sigmoid函数；

形成告知记忆存储和检索的表达机制作为关联记忆关系的输出。

进一步的，所述步骤S130具体包括：

通过计算图像/视频的像素平均值与标准亮度信息的归一化距离值获得亮度感知参数；通过计算输入音频的声强平均值与标准声强信息的归一化距离值获得响度感知参数；利用高频图像包含的平均信息量获得值越大，图像细节信息越丰富，即视角越优计算得视角感知参数；由声源到耳内部的传递函数的能量平均值计算声场感知参数；由异构特征学习中的视听觉注意时区的注意规则参数表示注意感知参数；

将所述亮度感知参数、所述响度感知参数、所述视角感知参数、所述声场感知参数和所述注意感知参数的加权和作为适境决策，建立渐进式网络深度协同增强识别机制，通过逐层存储迁移知识，提取奖赏特征，判别当前需要处理的识别任务。

另一方面，本发明提供一种多任务协同识别系统，包括通用特征提取模块、协同特征学习模块、适境反馈评估识别模块；

所述通用特征提取模块，用于基于时间同步匹配机制，提取多源异构数据的通用特征，实现所述多源异构数据的通用特征描述；

所述协同特征学习模块，用于结合基于外部依赖的协同注意机制，将所述通用特征作为先验知识进行训练，生成通用特征间的关联记忆关系；

所述适境反馈评估识别模块，用于提取多源异构数据的环境感知参数，结合所述关联记忆关系，实现多任务识别。

进一步的，所述通用特征提取模块包括时间同步子模块和共享语义关联特征描述子模块；

所述时间同步子模块，用于结合所述多源异构数据的低层特征，通过概率和知识驱动框架，建立具备尺度、平移、旋转、时间不变性的多源异构数据时间同步获取机制；

所述共享语义关联特征描述子模块，用于根据语义矢量化机理、多源信息关联挖掘机制，建立同步获取的多源异构数据的共享语义特征，提取通用特征流。

进一步的，所述协同特征学习模块包括长时依赖的生成记忆模型子模块和深度协同特征学习模型子模块；

所述长时依赖的生成记忆模型子模块，用于将所述多源异构数据的通用特征作为先验知识进行存储，结合长时数据依赖建立外部记忆生成模型；

所述深度协同特征学习模型子模块，用于结合基于外部依赖的协同注意机制，对所述通用特征作为先验知识进行持续学习，输出判别性特征作为后验知识，生成关联记忆关系。

进一步的，所述适境反馈评估识别模块包括适境感知反馈评估体系子模块和深度协同增强联合识别机制子模块；

所述适境感知反馈评估体系子模块，用于提取环境感知参数，通过对环境感知参数及判别性特征的有机融合，实现对识别任务的加权更新分层；

所述深度协同增强联合识别机制子模块，用于根据环境感知参数和识别任务的权重，提取多源异构数据的通用特征描述，输出识别结果。

本发明有益效果：本发明相比现有的融合视听感知的多任务协同识别方法具有更好的有效性和高效性，可为未来强人工智能下的机器认知理论和应用的进一步研究和发展提供有价值的研究成果和理论技术指导。具体的：

(1)基于通用特征描述机制，将不同渠道获取的视听媒体信息进行有效的互补支撑，从传统的单源固定模式演进为多源弹性模式，既有效地去除了数据冗余，又学习出具备通用性的特征描述。

(2)针对持续输入的多源数据建立持续记忆的深度协同特征学习机制，结合长时数据依赖建立外部记忆生成模型，通过外部记忆来增强学习网络性能，一方面以较小的数据存储容量稳定模型参数复杂性，另一方面可以即刻提取有用信息，应用于不同类型的序列结构，以解决复杂、长时序列数据无法选择性记忆和遗忘问题。

(3)结合环境感知的适境计算理论，通过深度增强反馈判断出待识别任务的权重，自适应地根据环境变化调整待识别任务的优先级，实现多个视听觉感知识别结果同时输出的效果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的多任务协同识别系统的功能原理框图。

图2为本发明实施例所述的多任务协同识别方法的基于共享语义的关联特征描述模型示意图。

图3为本发明实施例所述的多任务协同识别方法的结合外部依赖的生成记忆模型示意图。

图4为本发明实施例所述的适境框架下渐进式深度协同增强反馈识别机制原理框图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的模块。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或模块，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且实施例并不构成对本发明实施例的限定。

本领域普通技术人员应当理解的是，附图只是一个实施例的示意图，附图中的部件或装置并不一定是实施本发明所必须的。

实施例一

如图1所示，本发明实施例一公开的一种多任务协同识别系统，包括：

通用特征提取模块，用于建立多源异构数据的时间同步匹配机制，实现基于潜在高层共享语义的多源数据关联描述模型，实现不同信道数据间的高效支撑，信息互补，最大限度地实现数据去冗余；

深度协同特征学习模块，用于建立长时依赖的生成记忆模型，探索基于协同注意和深度自主的半监督持续学习体系，实现具有选择性记忆和遗忘能力的动态自学习，达到对现有学习模型性能增量改进的效果；

智能多任务深度协同增强反馈识别模块，用于基于智能体协同工作的适境感知计算理论，引入自适应深度协同增强反馈和多任务联合识别机制，以解决视听觉感知与自然环境间和谐衔接的理论和技术问题。

通过研究多节点、多线程、多GPU上分布式处理的智能识别演示平台，使用带宽优化算法，实现资源的高效调用，极大地减少计算和存储设备间通信负载并实现按需扩展设备资源，为系统的高效运行提供硬件支持。

上述融合视听感知的多任务协同识别系统，优选通用特征提取模块中，包括用于多源异构数据时间同步的子模块，包括：多源数据处理方式要求能同时在时空域准确地检测和跟踪目标和场景的变化信息，而实际采集数据中不同模态间的时间不匹配，将不可避免地造成有效信息丢失和误判，对识别结果造成损失。因此，需要结合多源视听媒体数据的本征特征，通过概率和知识驱动框架，研究具备尺度、平移、旋转、时间不变性的异构数据时间同步机制，减少多数据源间的时间不确定性。

上述融合视听感知的多任务协同识别系统，优选通用特征提取模块中，包括共享语义关联特征描述子模块，包括：来自社交、信息、物理空间不同平台和模态数据中包含丰富的自然和社会属性，具有不同的特征维度和数据分布，但是同步获取的多源数据却共享着相似的语义信息，含有大量的潜在关联关系。因此，需要探索不同模态数据的语义矢量化机理、多源信息关联挖掘机制，研究视听媒体不同信道下潜在共享语义特征，建立维度规整的关联语义通用化特征描述模型。

上述融合视听感知的多任务协同识别系统，优选深度协同特征学习模块中，包括长时依赖的生成记忆模型子模块，包括：针对长时、多序输入的描述特征流，一个没有记忆能力的学习机制，需要持续地标注新输入的数据，并根据新的输入重新学习网络模型，对计算、存储和人力资源都是巨大的浪费，也不利于辨识信息的有效提取。因此，需要结合长时数据依赖建立外部记忆生成模型，通过外部记忆来增强学习网络性能，一方面以较小的数据存储容量稳定模型参数复杂性，另一方面可以即刻提取有用信息，应用于不同类型的序列结构，以解决复杂、长时序列数据无法选择性记忆和遗忘问题。

上述融合视听感知的多任务协同识别系统，优选深度协同特征学习模块中，包括深度协同特征学习模型子模块，包括：对于持续输入的无标注特征流，需要准确高效地学习出具备最小化类内距和最大化类间距的联合最优特征用于多任务识别，而无标注数据无法人工提供类别标注信息，不可避免地造成性能损失。因此，需要结合具备长时记忆的协同注意机制，建立深度持续混合特征学习模型，实现判别性特征自主选择，提高无标注数据的辨识性，实现模型增量动态改进。

上述融合视听感知的多任务协同识别系统，优选智能多任务深度协同增强反馈识别模块中，包括适境感知反馈评估体系子模块，包括：对于视听感知中的场景不确定性，需要提取环境感知参数，通过参数信息的有机融合为多任务识别系统提供自适应的反馈评估，实现对重要识别任务的加权识别。例如课堂中识别学生身份及表情是主要识别任务；户外场景中识别目标及行为是主要识别任务；而人机交互场景中识别语音和动作是主要识别任务。

上述融合视听感知的多任务协同识别系统，优选智能多任务深度协同增强反馈识别模块中，包括深度协同增强联合识别机制子模块，包括：针对当前场景中多任务协同识别的需求，需要对在线输入的数据流，同时输出多种视听识别结果。因此，需要建立通用化强智能体，通过反馈参数和任务权重，提取通用特征描述，对协同特征学习参数进行任务增强学习，输出正确的识别结果，使计算机具备一定的“思考理解”能力。

实施例二

本发明实施例二提供的一种利用上述系统进行多任务判别的方法，该方法包括：海量多源视听媒体感知数据的通用特征描述，包括建立多源异构数据的时间同步匹配机制，实现基于潜在高层共享语义的多源数据关联描述模型；面向持续输入的流媒体数据长时记忆的深度协同特征学习，包括建立长时依赖的生成记忆模型，探索基于协同注意和深度自主的半监督持续学习体系；适境框架下智能多任务深度协同增强反馈识别模型，包括基于智能体协同工作的适境感知计算理论，引入自适应深度协同增强反馈和多任务联合识别机制。

对海量多源视听媒体感知数据的通用特征描述中，由于多源数据处理方式要求能同时在时空域准确地检测和跟踪目标和场景的变化信息，而实际采集数据中不同模态间的时间不匹配，将不可避免地造成有效信息丢失和误判，对识别结果造成损失。因此，在本发明实施例二所述的方法中，需要结合多源视听媒体数据的本征特征，通过概率和知识驱动框架，研究具备尺度、平移、旋转、时间不变性的异构数据时间同步机制，减少多数据源间的时间不确定性。

对海量多源视听媒体感知数据的通用特征描述中，来自社交、信息、物理空间不同平台和模态数据中包含丰富的自然和社会属性，具有不同的特征维度和数据分布，但是同步获取的多源数据却共享着相似的语义信息，含有大量的潜在关联关系。因此，在本发明实施例二所述的方法中，需要探索不同模态数据的语义矢量化机理、多源信息关联挖掘机制，研究视听媒体不同信道下潜在共享语义特征，建立维度规整的关联语义通用化特征描述模型。

针对长时、多序输入的描述特征流，一个没有记忆能力的学习机制，需要持续地标注新输入的数据，并根据新的输入重新学习网络模型，对计算、存储和人力资源都是巨大的浪费，也不利于辨识信息的有效提取。因此，在本发明实施例二所述的方法中，需要结合长时数据依赖建立外部记忆生成模型，通过外部记忆来增强学习网络性能，一方面以较小的数据存储容量稳定模型参数复杂性，另一方面可以即刻提取有用信息，应用于不同类型的序列结构，以解决复杂、长时序列数据无法选择性记忆和遗忘问题。

上述对于持续输入的无标注特征流，需要准确高效地学习出具备最小化类内距和最大化类间距的联合最优特征用于多任务识别，而无标注数据无法人工提供类别标注信息，不可避免地造成性能损失。因此，在本发明实施例二所述的方法中，需要结合具备长时记忆的协同注意机制，建立深度持续混合特征学习模型，实现判别性特征自主选择，提高无标注数据的辨识性，实现模型增量动态改进。

在本发明实施例二所述的方法中，所述的适境感知反馈评估体系包括：对于视听感知中的场景不确定性，需要提取环境感知参数，通过参数信息的有机融合为多任务识别系统提供自适应的反馈评估，实现对重要识别任务的加权识别。例如课堂中识别学生身份及表情是主要识别任务；户外场景中识别目标及行为是主要识别任务；而人机交互场景中识别语音和动作是主要识别任务。针对当前场景中多任务协同识别的需求，需要对在线输入的数据流，同时输出多种视听识别结果。因此，需要建立通用化强智能体，通过反馈参数和任务权重，提取通用特征描述，对协同特征学习参数进行任务增强学习，输出正确的识别结果，使计算机具备一定的“思考理解”能力。

实施例三

如图1所示，本发明实施例三提供的一种多任务协同识别方法。

首先，利用迁移式算法建立面向多源视听媒体感知数据的通用特征描述方法。

为了实现针对不同视听觉任务的高效协同分析，对多源的视听觉感知数据提取出具有高度鲁棒性和通用性的特征描述，作为后续协同学习的原型特征，首先需要分析视听觉感知数据的特点。实际获取的音频数据多为一维时间序列，主要描述性体现在其频谱-时间线索上，需要使用类听觉感知域的频谱变换结合音频相邻帧的韵律信息进行描述。而视觉感知数据多为二维或三维的图像或视频序列。主要描述性体现在其视域和空域的变化上，需要结合考虑其在颜色、深度、尺度、旋转等多方面特性。而视听觉感知数据的跨模态共享语义特征需要具备时间、尺度、旋转和平移不变性的特点。

针对视听觉感知数据多信道、多尺度、多模态的特性，本发明通用化特征描述由以下几个主要步骤组成：多源感知低层特征描述、跨媒体数据时间同步匹配、多特征信道关联学习模型和迁移特征融合。

多源感知低层特征描述包括：

针对视听觉感知信号的多源、跨媒体、多信道获取特点，分别对音视频数据提取低层特征描述。对音频信号，首先进行声波采样预处理，然后进行频谱变换，结合韵律特征构建频谱图作为其规整的低层特征。对二维视频信号，首先进行频谱变换，将共生统计特性引入得到具有旋转平移不变性的二维时序信号。对三维视频序列，引入多尺度理论进行快速尺度空间变换的低层特征提取技术，再进行频谱变换和统计共生，生成时序金字塔频谱特征。

跨媒体数据时间同步匹配包括：

针对视听觉多任务感知中要求时空域准确检测和跟踪目标，需要实现多媒体数据间的时间对齐。为了实现异构数据流的非线性对齐，首先使用动态时间规整技术，实现时序信号的最优对齐。为每个信道的数据流建立一个编码概念流。作为复杂事件的语义编码，所有新输入的低层特征流与参考语义编码流进行动态时间规整，产生时间平移函数，实现语义对齐。

多特征信道关联学习模型包括：

由于不同信道媒体间共享相似的高层语义结构信息，为了有效量化不同维度不同特征的共享信息，提取多种视听觉任务中辨别性最大的通用特征描述，增大类间距，减少类内距，需要建立异构特征的联合学习模型。假设有S类异构特征，对每个特征类型记为n_i个训练样本的特征矩阵，数据噪声部分为E，Γ为旋转因子。多任务框架下联合异构特征学习模型旨在为每个X_i学习一个投影矩阵Θ_i。将矩阵异构特征投影为相等的特征维数，降低多特征数据的冗余性，其正交约束下的优化函数表示为：

该异构特征学习模型旨在联合学习通用语义特征子空间{Θ_i}、统一框架下的共享矩阵W₀和特定特征模块矩阵{W_i}，采用最小二乘法求解预测损失函数R₁(W₀,{W_i},{Θ_i})，重构损失函数R₂({Θ_i})和正则函数R₃(W₀,{W_i})的联合最优解。通过将新输入的数据向特征空间投影提取同维度的高层通用特征描述，建立共享语义关联关系，如图2所示。

迁移特征融合学习包括：

针对海量数据中训练样本有限的问题，引入迁移学习模型增强未标注数据自主标注学习能力，记未标注数据集为迁移学习的标注目标集，通过提供强大的先验信息，使目标集与补充集通过{Θ_i}联合优化特征自主标注学习，记为补充集样本特征描述和标注信息，为目标集样本特征描述和标注信息，迁移联合学习模型表示如下：

其中F(·)是模型的目标函数，使用三阶段优化算法解上述优化问题，获得视听媒体统一的通用特征描述。

在此模型下利用迁移式算法实现对多源视听媒体感知数据的通用特征描述。根据感知数据的不同模态，结合感知识别任务的应用环境，建立基于高层共享语义的通用特征描述模型。在此基础上，依据特征维数、计算延迟、时间对齐、帧频等约束条件的综合限制，利用多源数据的联合异构优化方法，实现提取不同特征信息的共享语义信息。通过理论建模、数学推导、优化算法设计完成相关方案的理论研究方法，再进一步通过数学仿真平台等工具完成新方案的仿真验证工作。

本发明实施例三所述的方法，在完成面向多源视听媒体感知数据的通用特征描述后，继续探索一种采用生成记忆模型动态建立可持续深度协同特征学习机制，使用外部记忆系统增强的时序生成模型，在变分推理框架下，从序列的早期阶段开始存储记忆特征描述的有效信息，并高效地对已存储信息进行可持续协同再利用。

通用特征描述过程可以很好地融合视听媒体感知数据中的时空域辨别信息，接下来将从研究生成记忆模型和协同长时依赖的基础理论入手，针对视听感知识别任务对兼容性、智能性以及灵活性的要求，研究适用于外部记忆系统增强的时序生成模型和协同特征学习算法。通常情况下，对于可持续输入的视听流媒体数据，基于时间间隔和过去观察的长远程依赖将长时序列的可预测元素和不可预测元素分开，对不可预测元素标示不确定性，并且快速识别可以帮助预测未来的新元素。

时序生成模型包含通用特征描述集e_≤T＝{e₁,e₂,···,e_T}和对应的隐变量集z_≤T＝{z₁,z₂,···,z_T}，使用平移映射h_t＝f_h(h_t-1,e_t,z_t)来修正每个时间点的确定性隐状态变量h_t，先验映射函数f_z(h_t-1)描述过去观察和隐变量的非线性依赖并提供隐变量分布参数。非线性观察映射函数f_e(z_t,h_t-1)提供依赖于隐变量和状态的似然函数。本发明中利用外部记忆模型修正时序变量自动编码器，在每个时间点产生一个记忆文本ψ_t,其先验和后验概率表示如下：

先验信息p_θ(z_t|z_＜T,e_＜T)＝Ν(z_t|f_z ^μ(Ψ_t),f_z ^σ(Ψ_t-1))

后验信息q_φ(z_t|z_＜T,e_≤T)＝Ν(z_t|f_q ^μ(Ψ_t-1,e_t),f_q ^σ(Ψ_t-1,e_t))

其中先验信息是依赖于先验映射f_z记忆文本的对角高斯分布函数，而对角高斯近似后验分布依赖于通过后验映射函数f_q关联的记忆文本Ψ_t-1和当前观察e_t。

如图3所示，使用随机计算图作为记忆时序生成模型的处理过程。为了使该结构对不同感知任务具有更高的通用性和灵活性，本发明引入高层语义的记忆器和控制器结构以稳定的存储信息供未来提取，并进行相应计算以提取即刻使用信息。

具体的，记忆器不同于以往先入先出缓冲机制，拟采用与人认知过程相接近的协同模式感知理论，形成与通用特征描述任务相关的视听觉显著时区，计算通用特征在任务影响下产生的时序记忆偏置，由偏置值和通用特征生成任务相关的自适应感知注意时区。该记忆器结构通用性体现在允许信息在任意时刻位置读出和写入。

控制器使用长短时记忆网络(LSTM)f_rnn来提升状态历史h_t，外部记忆M_t使用来自于前一时刻的隐变量和外部文本信息c_t生成，产生模型如下，

状态更新(h_t,M_t)＝f_rnn(h_t-1,M_t-1,z_t-1,c_t)

为了形成源于记忆M_t的R项内容信息，控制器产生一集关键值，使用余弦相似度评测将与记忆M_t-1每一行进行对比，产生软注意加权集，检索的记忆由注意权重和记忆M_t-1的加权和获得。

关键值

注意机制

检索记忆

生成记忆

其中，是通过检索记忆学习到的关联偏置值，σ(·)是sigmoid函数。由此，外部记忆M_t用于存储隐变量z_t，控制器形成告知记忆存储和检索的表达机制它是生成记忆模型的输出，用于任务内容和个数未知的视听觉多任务协同特征学习，可实现对持续输入的数据流非监督特征学习。

在此模型结构下利用生成记忆模型相应多任务并发识别的处理需求，根据视听觉感知识别的不同任务，结合复杂多变的应用环境，建立深度协同特征学习机制。在此基础上，依据时序记忆性、长程依赖性、协同注意区域性等约束条件的综合限制，利用时空域关联最优学习方法，实现具有长时选择性记忆和遗忘能力的深度协同特征学习方法。通过先验假设、后验推理、协同优化设计完成相关方案的理论研究，再进一步通过算法仿真平台等工具完成新方案的仿真验证工作。

本发明实施例三所述的方法，在完成面向多源视听媒体感知数据的通用特征描述可持续深度协同特征学习后，针对视听觉多任务感知识别过程中，场景复杂多变、智能体需要能够同时处理多个任务的问题，研究基于视听觉感知参数反馈的协同增强适境计算理论，以解决视听觉感知与自然环境间和谐衔接的理论和技术问题。

主要包括以下三部分研究内容：1)适境感知参数提取；2)渐进式网络的深度协同增强识别机制；3)分布式智能演示系统。

适境感知参数提取包括：

适境计算理论受到生物能够有效适应环境的启发，以视听觉感知参数反馈机制与环境进行交互，通过最大化累积奖赏的方式来学习多任务识别的最优策略。提取的适境感知参数如下：

亮度感知参数：通过计算图像/视频的像素平均值与标准亮度信息的归一化距离值获得；

响度感知参数：通过计算输入音频的声强平均值与标准声强信息的归一化距离值获得；

视角感知参数：利用高频图像包含的平均信息量获得值越大，图像细节信息越丰富，即视角越优计算；

声场感知参数：由声源到耳内部的传递函数的能量平均值计算；

注意感知参数：由协同特征学习中的视听觉注意时区的注意规则参数表示。

复杂场景的动态变化会造成光照改变、视角偏转、声场漂移等现象严重影响感知识别结果的性能。因此，适境感知决策判决时不能仅依赖单一感知参数，应该充分利用以上五种感知参数计算值的加权和，作为适境感知自适应反馈的综合决策。

渐进式网络的深度协同增强识别机制包括：

通过感知参数的加权和作为适境决策，建立渐进式网络协同识别机制，该网络可以通过逐层存储迁移知识，并提取有价值的奖赏特征，决策当前需要处理的识别任务，解决从仿真环境中迁移知识到真实环境的难题。

如图4所示，描述了一个简单的渐进式网络，其中a为自适应适配器，作用是保持前列的隐藏层激活值与原始输入的维度一致，其构成过程如下，

第1列构造1个深度神经网络来训练某一任务；

为了训练第2个任务，故将其网络中各个隐藏层的激活值通过适配器处理，连接到第2列神经网络的对应层，以作为额外输入；为了训练第3个任务，固定前两列网络参数，前两列网络各个隐藏层的激活值通过适配器处理，组合连接到第2列神经网络的对应层，作为额外输入。若有更多任务需求，以此类推。以上所有网络均通过UNREAL算法训练参数。

通过逐层推进方式来存储迁移知识并提取有价值的奖赏特征，完成对知识的迁移。针对新的任务，在训练时保留了之前训练模型的隐藏层状态，层次性地组合之前网络中每一隐藏层的有用奖赏，使得迁移学习拥有一个长期依赖的先验知识，形成针对最终目标的完整策略。

分布式智能演示系统包括：采用高性能计算中分布式、多节点、多GPU的多智能体协同处理机制，进行智能演示系统的搭建。在数据训练过程中，每个GPU组成的智能体都有一个完整的网络模型副本，并且每次迭代只会被分配样本中的一个子集。GPU通过相互通信来平均不同GPU计算的梯度，将平均梯度应用于权重来获取新权重，并且一旦一个GPU完成了自己的迭代，它必须要等待其他所有GPU都完成以保证权重可以被适当地更新。这等价于在单个GPU上处理SGD，但是通过数据分配给多个GPU来并行运算，从而获得了计算速度的提升。这里通过高性能计算领域的分布式简约算法，并利用带宽优化环衰减来解决GPU间通信问题。

综上所述，本发明实施例所述的融合视听感知的多任务协同识别方法和系统，相对于现有技术而言，具有更好的多源异构性、动态持续性和时空变换性。在处理多源长时数据上效果尤其好。具体而言，具有如下特点：

多源异构性：针对多源视听媒体感知数据的特点，建立一种通用的特征描述机制，将不同渠道获取的视听媒体信息进行有效的互补支撑，从传统的单源固定模式演进为多源弹性模式，既有效地去除了数据冗余，又学习出具备通用性的特征描述。

动态持续性：视听任务具有时空域的变化特征，传统方法只能对既定需求进行处理，无法对已学习的数据进行有效的长时记忆推理，在学习网络轻载化和高利用率之间难以平衡。同时，当有突发任务或目标数据加入时，会导致过拟合和网络参数碎片化。因此，针对持续输入的数据建立的视听觉特征持续记忆的深度协同特征学习机制具有高动态接纳率、高资源利用率、低网络消耗率。

时空变换性：为了满足在复杂场景的时空推移变化下，仍然保持最优的感知识别性能，应采用适境感知的自适应反馈机制，对变化的环境实现适境计算下的动态调整，以达到海量数据存储下智能多任务协同增强反馈识别的最佳适应效果。

整合以上研究内容，搭建一个完整的智能演示系统，实现从视听觉感知数据采集到多任务协同识别的结果输出，为后续的深入研究和实用化提供一个标准平台。在试验方法上要考虑视听觉感知多任务协同分析中的高效性、动态性、智能性等特点，结合软件工程的软件设计规范，利用面向对象的程序设计方法设计一个易扩展的演示系统。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多任务协同识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的多任务协同识别方法，其特征在于，所述步骤S110中，所述时间同步匹配机制包括：

所述提取所述多源异构数据的低层特征流包括：

对音频信号声波采样后，进行频谱变换，构建频谱图；

3.根据权利要求2所述的多任务协同识别方法，其特征在于，步骤S110中，所述提取多源异构数据的通用特征，实现所述多源异构数据的通用特征描述包括：

对S类异构特征，将i(i＝1,...,S),记为n_i个训练样本的特征矩阵，数据噪声部分为E，Γ为旋转因子，建立正交约束下的优化函数为：

对多源异构数据中未标注数据的迁移自标注学习，记未标注数据集为迁移学习的标注目标集，使目标集与补充集通过{Θ_i}联合优化特征自主标注学习，为补充集样本特征描述，{Y_i ^a}为补充集标注信息，为目标集样本特征描述，{Y_i ^t}为目标集标注信息，迁移自标注学习模型表示如下：

4.根据权利要求3所述的多任务协同识别方法，其特征在于，所述步骤S120具体包括：

对通用特征描述集e_≤T＝{e₁,e₂,…,e_T}和对应的隐变量集z_≤T＝{z₁,z₂,…,z_T}，使用平移映射h_t＝f_h(h_t-1,e_t,z_t)修正每个时间点的确定性隐状态变量h_t，先验映射函数f_z(h_t-1)描述过去观察和隐变量的非线性依赖并提供隐变量分布参数；

先验信息p_θ(z_t|z_＜T,e_＜T)＝N(z_t|f_z ^μ(Ψ_t),f_z ^σ(Ψ_t-1))

后验信息q_φ(z_t|z_＜T,e_≤T)＝N(z_t|f_q ^μ(Ψ_t-1,e_t),f_q ^σ(Ψ_t-1,e_t))，

5.根据权利要求4所述的多任务协同识别方法，其特征在于，所述步骤S120还包括：

状态更新(h_t,M_t)＝f_rnn(h_t-1,M_t-1,z_t-1,c_t)

关键值

注意机制

检索记忆

生成记忆

形成告知记忆存储和检索的表达机制Ψ_t＝[φ_t ¹,φ_t ²,…,φ_t ^R,h_t]，作为关联记忆关系的输出。

6.根据权利要求5所述的多任务协同识别方法，其特征在于，所述步骤S130具体包括：

7.一种多任务协同识别系统，其特征在于：包括通用特征提取模块、协同特征学习模块、适境反馈评估识别模块；

8.根据权利要求7所述的多任务协同识别系统，其特征在于：所述通用特征提取模块包括时间同步子模块和共享语义关联特征描述子模块；

9.根据权利要求8所述的多任务协同识别系统，其特征在于：所述协同特征学习模块包括长时依赖的生成记忆模型子模块和深度协同特征学习模型子模块；

10.根据权利要求9所述的多任务协同识别系统，其特征在于：所述适境反馈评估识别模块包括适境感知反馈评估体系子模块和深度协同增强联合识别机制子模块；