CN111382555A

CN111382555A - 数据处理方法、介质、装置和计算设备

Info

Publication number: CN111382555A
Application number: CN202010196945.0A
Authority: CN
Inventors: 方正; 周森; 朱浩奇; 林洋港
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-07
Anticipated expiration: 2040-03-19
Also published as: CN111382555B

Abstract

本发明的实施方式提供了一种数据处理方法、介质、数据处理装置和计算设备。该方法包括：获取待处理的原始数据，并对所述原始数据进行特征提取以得到所述原始数据的至少两个模态特征；通过预先训练的自编码器分别对各个所述模态特征进行编码处理以得到每个所述模态特征的模态编码数据；获取分别与每个所述模态特征相对应的特征融合权重；根据所述特征融合权重对各个所述模态编码数据进行融合处理以得到与所述原始数据相对应的多模态融合编码数据。该方法可以提高网络多模态数据的内容理解和分类等应用任务的处理效率和精准度。

Description

数据处理方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及数据处理方法、介质、数据处理装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

邮件、聊天群会话等网络内容一般都需要进行内容检测以便降低违禁内容传播的风险。传统的网络内容检测技术往往只针对网络内容中的文字部分进行检测，例如常见的针对邮件文本特征的检测技术忽略了邮件中伴随和携带的图片信息；聊天群会话的内容检测只针对文字内容检测敏感违禁信息而忽略了伴随着的图片、语音、视频等其他信息。

在网络内容检测中，违禁内容的发布者通过图片、语音、视频等形式，经常性地会传播一些代开假发票、提供色情服务的广告等违禁内容，这对垃圾邮件检测、聊天群内容检测带来了很大的挑战。

发明内容

本发明的目的在于提供一种数据处理方法、介质、数据处理装置和计算设备，从而至少在一定程度上克服由于相关技术的缺陷和限制而导致的网络内容检测困难的技术问题。

根据本发明的一个方面，提供一种数据处理方法，该方法包括：

获取待处理的原始数据，并对所述原始数据进行特征提取以得到所述原始数据的至少两个模态特征；

通过预先训练的自编码器分别对各个所述模态特征进行编码处理以得到每个所述模态特征的模态编码数据；

获取分别与每个所述模态特征相对应的特征融合权重；

根据所述特征融合权重对各个所述模态编码数据进行融合处理以得到与所述原始数据相对应的多模态融合编码数据。

在本发明的一些示例性实施方式中，基于以上技术方案，所述方法还包括：

通过预先训练的分类器对所述多模态融合编码数据进行分类处理以得到所述原始数据的数据类型信息。

在本发明的一些示例性实施方式中，基于以上技术方案，所述模态特征包括图像模态特征、文本模态特征和音频模态特征中的至少两种。

在本发明的一些示例性实施方式中，基于以上技术方案，所述自编码器包括用于进行数据编码映射的编码网络和用于进行数据解码映射的解码网络；

所述编码网络包括对应于不同模态特征的至少两个模态编码网络，每个所述模态编码网络包括至少两个并行的数据编码层，所述至少两个模态编码网络具有一个共用的数据编码层作为所述自编码器的输出层；

所述解码网络包括分别与每个所述数据编码层相对应的数据解码层。

获取样本数据，并对所述样本数据进行特征提取以得到所述样本数据的至少两个样本模态特征；

将所述至少两个样本模态特征分别输入至对应的模态编码网络中；

通过所述模态编码网络中的各个数据编码层对所述样本模态特征进行数据编码映射以得到每个所述数据编码层输出的样本编码数据；

根据所述样本模态特征和所述样本编码数据迭代更新所述自编码器的网络参数。

在本发明的一些示例性实施方式中，基于以上技术方案，所述根据所述样本模态特征和所述样本编码数据迭代更新所述自编码器的网络参数，包括：

根据所述样本模态特征和所述样本编码数据更新每个所述数据解码层的解码层网络参数；

根据所述样本模态特征和更新后的所述解码层网络参数更新对应于每个数据编码层的样本编码数据；

根据所述样本模态特征和更新后的样本编码数据更新每个所述数据编码层的编码层网络参数。

根据所述样本模态特征、更新后的网络参数以及更新后的样本编码数据确定每个所述模态编码网络的模态编码误差；

根据所述模态编码误差分别更新与各个所述模态编码网络相对应的模态特征的特征融合权重；

根据所述模态编码误差和更新后的特征融合权重确定所述自编码器的整体编码误差，并获取所述整体编码误差的变化量；

若所述整体编码误差的变化量大于预设的误差阈值，则再次更新所述自编码器的网络参数。

获取所述自编码器的网络参数的迭代更新次数；

若所述迭代更新次数小于预设的次数阈值，则再次更新所述自编码器的网络参数。

在本发明的一些示例性实施方式中，基于以上技术方案，根据所述样本模态特征和所述样本编码数据迭代更新所述自编码器的网络参数，包括：

获取由所述样本模态特征按照预设样本顺序排列组成的样本特征数据集；

根据所述样本特征数据集构建数据邻接图，并获取所述数据邻接图的数据图信息；

根据所述样本模态特征、所述样本编码数据以及所述数据图信息迭代更新所述自编码器的网络参数。

在本发明的一些示例性实施方式中，基于以上技术方案，所述数据图信息包括所述数据邻接图的邻接图矩阵、对角线矩阵以及根据所述邻接图矩阵和所述对角线矩阵确定的拉普拉斯矩阵。

根据本发明的一个方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一技术方案中的数据处理方法。

根据本发明的一个方面，提供一种数据处理装置，该装置包括：

特征提取模块，被配置为获取待处理的原始数据，并对所述原始数据进行特征提取以得到所述原始数据的至少两个模态特征；

特征编码模块，被配置为通过预先训练的自编码器分别对各个所述模态特征进行编码处理以得到每个所述模态特征的模态编码数据；

权重获取模块，被配置为获取分别与每个所述模态特征相对应的特征融合权重；

数据融合模块，被配置为根据所述特征融合权重对各个所述模态编码数据进行融合处理以得到与所述原始数据相对应的多模态融合编码数据。

在本发明的一些示例性实施方式中，基于以上技术方案，所述装置还包括：

数据分类模块，被配置为通过预先训练的分类器对所述多模态融合编码数据进行分类处理以得到所述原始数据的数据类型信息。

所述编码网络包括对应于不同模态特征的至少两个模态编码网络，每个所述模态编码网络包括至少两个并行的数据编码层，所述至少两个模态编码网络具有一个共用的数据编码层作为输出层；

样本特征提取模块，被配置为获取样本数据，并对所述样本数据进行特征提取以得到所述样本数据的至少两个样本模态特征；

样本特征输入模块，被配置为将所述至少两个样本模态特征分别输入至对应的模态编码网络中；

样本特征编码模块，被配置为通过所述模态编码网络中的各个数据编码层对所述样本模态特征进行数据编码映射以得到每个所述数据编码层输出的样本编码数据；

网络参数更新模块，被配置为根据所述样本模态特征和所述样本编码数据迭代更新所述自编码器的网络参数。

在本发明的一些示例性实施方式中，基于以上技术方案，所述网络参数更新模块包括：

解码参数更新单元，被配置为根据所述样本模态特征和所述样本编码数据更新每个所述数据解码层的解码层网络参数；

编码数据更新单元，被配置为根据所述样本模态特征和更新后的所述解码层网络参数更新对应于每个数据编码层的样本编码数据；

编码参数更新单元，被配置为根据所述样本模态特征和更新后的样本编码数据更新每个所述数据编码层的编码层网络参数。

模态误差确定单元，被配置为根据所述样本模态特征、更新后的网络参数以及更新后的样本编码数据确定每个所述模态编码网络的模态编码误差；

融合权重更新单元，被配置为根据所述模态编码误差分别更新与各个所述模态编码网络相对应的模态特征的特征融合权重；

整体误差确定单元，被配置为根据所述模态编码误差和更新后的特征融合权重确定所述自编码器的整体编码误差，并获取所述整体编码误差的变化量；

第一迭代更新单元，被配置为若所述整体编码误差的变化量大于预设的误差阈值，则再次更新所述自编码器的网络参数。

更新次数获取单元，被配置为获取所述自编码器的网络参数的迭代更新次数；

第二迭代更新单元，被配置为若所述迭代更新次数小于预设的次数阈值，则再次更新所述自编码器的网络参数。

数据集获取单元，被配置为获取由所述样本模态特征按照预设样本顺序排列组成的样本特征数据集；

邻接图构建单元，被配置为根据所述样本特征数据集构建数据邻接图，并获取所述数据邻接图的数据图信息；

参数更新单元，被配置为根据所述样本模态特征、所述样本编码数据以及所述数据图信息迭代更新所述自编码器的网络参数。

根据本发明的一个方面，提供一种计算设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行以上任一项技术方案中的数据处理方法。

在本发明提供的技术方案中，通过对原始数据进行特征提取得到多种模态特征，并对其进行特征融合，可以降低单一模态特征的误差，充分利用多模态特征各自所携带的信息特征，信息之间相互补充，融合得到具有更强的数据表征能力的多模态融合编码数据，提高网络多模态数据(如网络聊天会话数据、邮件数据)的内容理解和分类等应用任务的处理效率和精准度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了一种传统的自编码器的网络结构。

图2示出了应用本发明示例性实施方式的系统架构示意图。

图3示意性地示出了应用本发明技术方案实现的多路多模态深度自编码检测器的结构框图。

图4示意性地示出了本发明一些示例性实施方式中的数据处理方法的步骤流程图。

图5示意性地示出了本发明一些示例性实施方式中使用自编码器进行数据重建的原理示意图。

图6示意性地示出了本发明一些示例性实施方式中训练自编码器以更新其网络参数的步骤流程图。

图7示意性地示出了本发明一些示例性实施方式中结合数据图信息更新自编码器网络参数的方法步骤流程图。

图8示意性地示出了本发明一些示例性实施方式中迭代更新网络参数的步骤流程图。

图9示意性地示出了本发明一些示例性实施方式中基于整体编码误差确定迭代更新条件的方法步骤流程图。

图10示意性地示出了本发明一些示例性实施方式中的数据处理装置的结构框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

本发明中涉及的技术术语解释如下：

多模态特征(multiview feature)：内容数据的多种模态特征的集合，或者多种不同的媒质载体表达数据的特征集合。比如垃圾邮件数据中的正文文字、色情图片、语音广告，分别属于文本模态特征、图像模态特征和音频模态特征；聊天群会话数据中的文字文本、图片、语音信息，分别属于文本模态特征、图像模态特征和音频模态特征。

特征融合：从多模态特征中学习得到数据的统一表示形式的过程。

自编码器(autoencoder)：一种深度学习神经网络，主要包括编码网络和解码网络两部分，广泛应用于图像、文本数据的特征学习应用中。

编码网络：自编码器中将原始数据特征映射变换到特定维度的向量表示的神经网络。

解码网络：自编码器中将数据的特定维度的表示向量映射变换到原始数据特征的神经网络。

此外，本发明中涉及的相关元素数量仅用于示例而非限制，以及相关元素的命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

目前深度学习的技术方法已经广泛应用到图像、文本处理的各个领域，其中以自编码器(autoencoder)、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)为代表的深度学习技术由于非常良好的特征学习能力，被学术界和工业界广泛运用于网络内容检测的实际项目中。

然而传统的特征学习技术，忽视了实际数据的多模态特征，只能针对单一的特征进行网络训练和特征学习。这些多模态特征，各自都携带了数据某一方面的信息，例如垃圾邮件的文本特征具有表示高层次的语义信息；而垃圾邮件中的图片信息，经常含有一些代开假发票、上门提供色情服务的联系方式信息，或者含有一些色情敏感、违禁品图像内容。常见的APP应用的群聊会话中，人们除了使用文本文字进行交流，往往同时还会分享图片信息和发送语音信息。这些来自文本、图片、语音的多模态特征，相互之间具有信息补充的作用，能够更好、更全面地表示一条邮件数据、聊天会话数据的内容，从而能够帮助整体的内容分析和过滤的应用任务。传统的特征学习技术只能对单个模态的特征做处理，从单一模态信息出发分析内容，具有很明显的信息局限性，并且完全忽视了这些不同模态特征之间的信息深层次的结构和关系，因此存在很大的弊端和缺陷。

以自编码器为例，图1示意性地示出了一种传统的自编码器的网络结构。如图1所示，该自编码器具有两部分结构，一部分是编码网络110，另一部分是解码网络120。输入数据x经过编码网络110代表的函数f(·)被映射成特征z，而解码网络120代表的函数g(·)将特征z映射成数据x′，x′需要尽量能够还原重建成x，整个自编码器在模型训练时候的目标是将所有的数据的重建误差最小化，即

其中z_i＝f(x_i)，i＝1,…,n。

在传统的自编码器中一般取f(x)＝σ((W)x+b)，g(z)＝σ(W′z+b′)，训练自编码器的时候最小化重建误差的目标函数为：

其中，W′、W、b′和b是训练得到的自编码的网络参数。

图1所示的自编码器整体为串联结构。在编码网络110中，输入数据x通过依次串联的隐藏层网络进行逐层地特征处理，输出得到特征z。在解码网络120中，特征z再通过依次串联的隐藏层网络继续进行逐层地特征处理，输出得到数据x′。这种串联网络的处理过程决定了该自编码器只能对单一模态的输入数据进行编码和解码处理，导致多模态特征数据的信息丢失。

基于以上问题，本发明提出了一种基于多模态特征融合的数据处理方法。该方法首先可以通过特征提取以得到原始数据的至少两个模态特征；然后利用具有并行网络结构的自编码器对每个模态特征分别进行编码处理得到相应的模态编码数据；最后再根据自编码器中训练得到的特征融合权重对各个模态编码数据进行融合处理得到与原始数据相对应的多模态融合编码数据。相比于各个模态相互分离的原始数据，多模态融合编码数据能够将各模态对应的特征进行充分融合，挖掘各模态特征之间的内在联系，提高数据的特征表达能力。利用本发明处理得到的多模态融合编码数据可以有效地进行网络内容检测，提高网络内容检测的检测效率和检测准确性，在垃圾邮件过滤和网络会话内容检测等方面都有很好的应用前景。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示出了应用本发明示例性实施方式的系统架构示意图。如图2所示，系统架构200可以包括客户端210、网络220和服务端230。客户端210可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端230可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备，服务端230可以为客户端210提供网络资源和数据服务。网络220可以是能够在客户端210和服务端230之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，应用本发明示例性实施方式的系统架构可以具有任意数目的客户端、网络和服务端。例如，服务端230可以是由多个服务器设备组成的服务器群组。本发明示例性实施方式提供的基于多模态融合的视频人物检索方法可以应用于客户端210，也可以应用于服务端230，本发明对此不做特殊限定。

以应用于服务端230为例，在客户端210上产生的邮件、聊天群会话等网络内容会通过网络220发送至服务端230。服务端230可以通过应用本发明技术方案实现的多路多模态深度自编码检测器对接收到的网络内容进行内容检测，用以进行网络内容的预测分类或者发现网络内容中的违禁内容。

图3示意性地示出了应用本发明技术方案实现的多路多模态深度自编码检测器的结构框图。如图3所示，该检测器主要包括三个部分，即网络训练模块310、网络预测模块320和编码空间分类器模块330。

在模型的训练阶段，首先可以从作为样本数据340的网络内容中提取文本特征、图像特征、音频特征等多个模态的特征，并且将各个模态的特征以向量的形式表示，输入本发明的多路多模态自编码器深度学习神经网络中，进行网络的训练学习。网络训练模块310利用训练样本可以学习得到模型的网络参数，这部分网络参数将被输出至网络预测模块320中，用于对网络预测模块320中的网络模型进行初始化加载。与此同时，网络训练模块310对输入的样本数据进行编码和融合处理后得到融合编码数据。这部分融合编码数据以及训练样本中携带的标签信息将被输出至编码空间分类器模块330的分类器训练子模块331，用于在融合编码数据的特征空间里训练分类器。训练完成的分类器模型的网络参数将用于分类器预测子模块332的分类器模型参数加载和初始化。

在模型的预测阶段，整体的数据处理过程与训练阶段类似，首先通过特征提取可以从作为待测数据350的网络内容中提取得到文本特征、图像特征、音频特征等多个模态的特征，然后将相关特征输入至网络预测模块320，经过编码和融合处理后得到融合编码数据。这部分融合编码数据将被输出至编码空间分类器模块330的分类器预测子模块332中，通过分类器预测子模块332进行分类处理后，可以得到待测数据350的分类标签，完成对待测数据350的检测和分类。例如，当待检测的网络内容为邮件时，可以将其检测为正常邮件和垃圾邮件两种类型；当待检测的网络内容为聊天群会话内容时，可以将其检测为正常会话内容或者违禁会话内容。

示例性方法

基于上述的应用场景，参考4至图9来描述根据本发明示例性实施方式的数据处理方法。

图4示意性地示出了本发明一些示例性实施方式中的数据处理方法的步骤流程图。如图4所示，该数据处理方法主要可以包括以下步骤：

步骤S410.获取待处理的原始数据，并对原始数据进行特征提取以得到原始数据的至少两个模态特征。

原始数据可以是包括多种模态形式的网络内容，例如可以是包括文本、图像等多种模态形式的邮件，也可以是包括文本、图像、语音等多种模态形式的聊天群会话内容。通过对原始数据进行特征提取可以得到对应于不同模态形式的多种模态特征，如图像模态特征、文本模态特征和音频模态特征等等。本发明可以预先训练针对不同模态形式的特征提取模型，例如可以预先训练文本特征提取模型、图像特征提取模型、音频特征提取模型等等。各个特征提取模型均可以采用各种形式的神经网络模型，如残差网络模型ResNet101或者其他卷积神经网络，本发明对此不做特殊限定。

步骤S420.通过预先训练的自编码器分别对各个模态特征进行编码处理以得到每个模态特征的模态编码数据。

本发明中的自编码器包括用于进行数据编码映射的编码网络和用于进行数据解码映射的解码网络。与传统的具有串联网络结构的自编码器所不同的是，本发明使用的自编码器具有并联网络结构，其中编码网络包括对应于不同模态特征的至少两个模态编码网络，每个模态编码网络可以分别对步骤S410中提取得到的各个模态特征进行编码处理，从而得到每个模态特征的模态编码数据。举例而言，一个原始数据可以提取得到n_v个模态特征，每个模态特征的数据矩阵X^v(v＝1,…,n_v)经过各个模态编码网络对应的编码网络函数

进行映射编码，可以计算得到各个模态特征的模态编码数据

其中，

和

是各个模态编码网络通过训练学习得到的网络参数，1_n是长度为n且元素全为1的列向量，n是输入数据的数量。

步骤S430.获取分别与每个模态特征相对应的特征融合权重。

在本发明提供的自编码器中，每个模态编码网络包括至少两个并行的数据编码层，各个模态编码网络具有一个共用的数据编码层作为自编码器的输出层。通过对自编码器进行训练，可以学习得到用于对各个模态特征进行特征映射的数据编码层的网络参数，同时可以在输出层中学习得到用于对各个模态特征进行加权融合的特征融合权重。本步骤可以根据模态特征的类型获取与之对应的特征融合权重。

步骤S440.根据特征融合权重对各个模态编码数据进行融合处理以得到与原始数据相对应的多模态融合编码数据。

在一些可选的实施方式中，本步骤可以直接按照特征融合权重对各个模态编码数据进行加权融合，得到与原始数据相对应多模态融合编码数据。举例而言，多模态融合编码数据H_m可以利用公式

计算得到。其中，α_v是自编码器在训练阶段学习得到的特征融合权重，γ是预先设置的经验参数，其取值范围可以是0～1，例如可以根据实际数据经验取值等于0.5。

在获得与原始数据相对应的多模态融合编码数据后，本发明还可以通过预先训练的分类器对多模态融合编码数据进行分类处理以得到原始数据的数据类型信息。其中，分类器可以是预先训练的支持向量机(Support Vector Machine，SVM)。

在本示例性实施方式提供的数据处理方法中，通过对原始数据进行特征提取得到多种模态特征，并对其进行特征融合，可以降低单一模态特征的误差，充分利用多模态特征各自所携带的信息特征，信息之间相互补充，融合得到具有更强的数据表征能力的多模态融合编码数据，提高网络多模态数据(如网络聊天会话数据、邮件数据)的内容理解和分类等应用任务的处理效率和精准度。

图5示意性地示出了本发明一些示例性实施方式中使用自编码器进行数据重建的原理示意图。如图5所示，该实施方式利用自编码器中的编码网络和解码网络进行数据的编码和解码，实现对原始数据的数据重建，并可以计算得到数据重建误差。该实施方式以两个模态(如图像模态和文本模态)为例，第一模态的模态特征数据矩阵为X¹，第二模态的模态特征数据矩阵为X²。编码网络包括与两个模态相对应的两个并行的模态编码网络，每个模态编码网络又各自包括多个并行的数据编码层。解码网络包括分别与每个数据编码层相对应的数据解码层。

在本发明使用自编码器中，定义n_v为模态特征的个数，针对每个模态特征设计了m个数据编码层，每个数据编码层通过函数

将对应模态特征的数据矩阵X^v(v＝1,…,n_v)编码映射得到各自对应的模态编码数据

i＝1,…,m)。各个模态的数据在最后一个共用的数据编码层(第m个数据编码层)实现了编码数据的共享和共用。对于第v个模态的第i个数据编码层编码得到的模态编码数据

是层叠逐序解码的结构组织起来的，每个数据编码层的模态编码数据

通过各个解码网络中对应的数据解码层进行层次化解码后可以重建得到每个模态特征的重建数据矩阵

针对每个模态特征的数据矩阵，通过解码网络进行数据重建的过程如下：

其中，H_m是各个模态特征在第m层共用的数据编码层经过数据编码和数据融合后得到的多模态融合编码数据。通过解码网络进行逐层地数据重建后，最终可以得到每个模态特征的重建数据矩阵

v＝1,…,n_v。每个模态特征的数据重建过程的重建损失函数为：

其中α_v为每个模态的特征融合权重。γ是预先设置的经验参数，其取值范围可以是0～1，例如可以根据实际数据经验取值等于0.5。‖·‖²是计算矩阵的Frobenius范数的运算算子。

通过计算重建损失函数，可以对自编码器的编解码性能做出评价，同时可以对自编码器进行继续训练，以更新自编码器的网络参数，从而优化自编码器的特征提取能力和特征表达能力。

图6示意性地示出了本发明一些示例性实施方式中训练自编码器以更新其网络参数的步骤流程图。如图6所示，对自编码器进行训练的方法主要可以包括以下步骤：

步骤S610.获取样本数据，并对样本数据进行特征提取以得到样本数据的至少两个样本模态特征。

步骤S620.将至少两个样本模态特征分别输入至对应的模态编码网络中。

步骤S630.通过模态编码网络中的各个数据编码层对样本模态特征进行数据编码映射以得到每个数据编码层输出的样本编码数据；

步骤S640.根据样本模态特征和样本编码数据迭代更新自编码器的网络参数。

样本数据是作为训练样本的邮件数据、聊天会话数据等网络内容，每一个样本数据都可以通过特征提取得到相应的至少两个样本模态特征并进行编码映射得到对应的样本编码数据。对样本数据进行特征提取和编码映射的方法与上述实施方式中对待检测数据进行数据处理的方法相同，此处不再赘述。

在一些可选的实施方式中，本发明可以在各个模态编码网络中加入数据图信息进行编码和映射，从而引入每个模态特征数据两两之间的邻域图结构关系信息。在每个数据编码层的模态编码数据

的计算中增加计算各自对应的模态特征的图调节分母量和图调节分子量。在此基础上，更新自编码器的网络参数时，可以引入数据图信息。图7示意性地示出了本发明一些示例性实施方式中结合数据图信息更新自编码器网络参数的方法步骤流程图。如图7所示，在以上各实施方式的基础上，步骤S640.根据样本模态特征和样本编码数据迭代更新自编码器的网络参数，可以进一步包括以下步骤：

步骤S710.获取由样本模态特征按照预设样本顺序排列组成的样本特征数据集。

以图像和文本两个模态为例，图像模态特征可以组成样本特征数据集

文本模态特征可以组成样本特征数据集

其中，n表示数据个数，d₁表示图像模态特征的数据维度，

表示d₁×n维的实数域空间；d₂表示文本模态特征的数据维度，

表示d₂×n维的实数域空间。

步骤S720.根据样本特征数据集构建数据邻接图，并获取数据邻接图的数据图信息。

数据邻接图的数据图信息可以包括数据邻接图的邻接图矩阵、对角线矩阵以及根据邻接图矩阵和对角线矩阵确定的拉普拉斯矩阵。举例而言，本步骤可以分别构建图像模态特征的邻接图G¹和文本模态特征的邻接图G²。邻接图G¹的邻接图矩阵可以表示为：

邻接图G²的邻接图矩阵可以表示为：

其中N_p(x)表示对象x的p邻域，例如p可以取值为5或者其他数值。

针对图像模态特征和文本模态特征，可以分别计算与之对应的对角线矩阵

对角线矩阵

的对角线元素为

根据邻接图矩阵和对角线矩阵可以计算得到各个模态下的数据图信息的拉普拉斯矩阵L^v＝D^v-G^v。

步骤S730.根据样本模态特征、样本编码数据以及数据图信息迭代更新自编码器的网络参数。

由以上步骤计算得到数据图信息后，可以将数据图信息加入至自编码器网络参数的迭代更新计算中。在编码过程中充分利用各个模态域中的邻域结构的数据图信息，使得学习得到的统一编码向量具有高统一性。

图8示意性地示出了本发明一些示例性实施方式中迭代更新网络参数的步骤流程图。如图8所示，在以上各实施方式的基础上，步骤S640.根据样本模态特征和样本编码数据迭代更新自编码器的网络参数，可以进一步包括以下步骤：

步骤S810.根据样本模态特征和样本编码数据更新每个数据解码层的解码层网络参数。

在首次对自编码器进行训练时，可以将解码层网络参数

随机初始化为每个元素值大于0的随机矩阵。在自编码器的中间训练过程中，则可以根据上一个迭代轮次的计算结果对解码层网络参数做出更新。首先获取自编码器的解码网络中各个数据解码层的当前解码层网络参数

i＝1,…,m，v＝1,…,n_v。然后可以根据当前解码层网络参数计算得到累积解码网络参数

在此基础上，可以继续根据样本模态特征

和样本编码数据

更新每个数据解码层的解码层网络参数：

其中，

为单位矩阵。

步骤S820.根据样本模态特征和更新后的解码层网络参数更新对应于每个数据编码层的样本编码数据。

在首次对自编码器进行训练时，可以将样本编码数据H_iv随机初始化为每个元素值大于0的随机矩阵。在自编码器的中间训练过程中，则可以根据上一个迭代轮次的计算结果以及更新后的解码层网络参数对样本编码数据做出更新。

针对前m-1个数据编码层的样本编码数据，可以首先按照如下公式计算每个模态特征下的数据集协方差逆Δ_v、数据集协方差逆正分量Δ_v ⁺和数据集协方差逆负分量Δ_v ^-：

Δ_v＝nλΠ(ΠX^vTX^vΠ+nλI_n)^-1Π

Δ_v ⁺＝(|Δ_v|+Δ_v)/2

Δ_v ^-＝(|Δ_v|-Δ_v)/2

其中，|·|是对矩阵中的每个元素都取绝对值的运算算子；λ是权重参数，其取值范围可以是0～1，例如可以根据经验取值等于0.5；

是中心化算子矩阵，I_n是n×n维度的单位矩阵，1_n是长度为n且元素全为1的列向量。

然后，可以继续计算前m-1个数据编码层的样本编码数据的图调节分母量

和图调节分子量

其中，β是预设的权重参数，其取值范围可以是0～1，例如可以根据经验取值为0.5。

(·)⁺是矩阵运算算子，其返回的矩阵是将原矩阵中所有值小于0的元素设置为0并且将值大于或等于0的元素保持不变。

(·)^-是另一矩阵运算算子，其返回的矩阵是将原矩阵所有值大于0的元素设置为0并且将值小于或等于0的元素保持不变。

最后，按照如下公式更新第i个(i＝1,…,m-1)数据编码层的样本编码数据

针对第m个数据编码层的样本编码数据，由于第m个数据编码层是各个模态编码网络共用的输出层，因此需要先按照如下公式计算整体数据集协方差逆Δ、整体数据集协方差逆正分量Δ⁺和整体数据集协方差逆负分量Δ^-：

Δ⁺＝(|Δ|+Δ)/2

Δ^-＝(|Δ|-Δ)/2

然后，按照如下公式计算第m个数据编码层的样本编码数据的整体图调节分母量R_u和整体图调节分子量R_d：

最后，可以按照如下公式更新第m个数据编码层的样本编码数据H_m：

由以上计算过程，可以完成对各个数据编码层的样本编码数据的迭代更新。

步骤S830.根据样本模态特征和更新后的样本编码数据更新每个数据编码层的编码层网络参数。

自编码器中的数据编码层可以表示为映射函数

i＝1,…,m。其中，

和

是各个数据编码层的编码层网络参数。本步骤可以根据样本模态特征X^v和更新后的样本编码数据

按照如下公式更新每个数据编码层的编码层网络参数：

其中，μ为预设的权重参数，其取值范围可以是0～1，例如可以根据经验取值为0.5。

至此可以完成一个迭代轮次下对自编码器的网络参数的更新，重复执行以上各步骤，可以持续不断地对自编码器进行网络参数更新，达到模型优化的目的。

在一些可选的实施方式中，可以通过计算整体编码误差来确定迭代更新条件以及迭代终止条件。图9示意性地示出了本发明一些示例性实施方式中基于整体编码误差确定迭代更新条件的方法步骤流程图。如图9所示，在以上各实施方式的基础上，确定迭代更新条件的方法可以包括以下步骤：

步骤S910.根据样本模态特征、更新后的网络参数以及更新后的样本编码数据确定每个模态编码网络的模态编码误差。

本步骤可以采用如下公式计算模态编码误差Z^(v)：

其中，Tr(·)是计算矩阵的迹的运算算子；λ是预设的防止过拟合的调节参数，其取值范围可以是0～1，例如可以根据实际数据经验取值等于0.5。

步骤S920.根据模态编码误差分别更新与各个模态编码网络相对应的模态特征的特征融合权重。

本步骤可以按照如下公式更新与各个模态编码网络相对应的模态特征的特征融合权重α_v：

步骤S930.根据模态编码误差和更新后的特征融合权重确定自编码器的整体编码误差，并获取整体编码误差的变化量。

按照更新后的特征融合权重α_v对模态编码误差Z^(v)进行加权融合后可以得到自编码器的整体编码误差

在确定当前迭代轮次下的整体编码误差的基础上，可以确定前一迭代轮次与当前迭代轮次下的整体编码误差的变化量。

步骤S940.若整体编码误差的变化量大于预设的误差阈值，则再次更新自编码器的网络参数。

如果整体编码误差的变化量大于某一预设的误差阈值，例如该误差阈值可以是0.0001，则可以继续对自编码器进行下一迭代轮次的网络参数更新。相反地，如果该变化量小于或等于相应的误差阈值，则可以停止迭代更新，完成对自编码器的优化过程。

除了整体编码误差以外，本发明还可以根据迭代更新次数确定迭代更新条件和迭代终止条件。例如，在一些可选的实施方式中，本发明可以实时地获取自编码器的网络参数的迭代更新次数；如果迭代更新次数小于预设的次数阈值，例如该次数阈值可以是100次，则再次更新自编码器的网络参数；相反地，如果迭代更新次数大于或等于该次数阈值，则可以停止迭代更新，完成对自编码器的优化过程。

本发明设计了一种新型的具有多个子编码网络进行多模态特征融合编码的深度网络，各个子编码网络之间具有并行性，解码网络具有深度层叠级联的结构。多路不同层次深度的编码网络，使得编码预测可以并行化处理数据，大大提高了特征编码融合的效率和速度，比传统的串联式的深度神经网络在特征抽取和特征学习上的效率更高。本发明的多路多模态深度自编码器网络的网络结构在网络结构上更深，在数据特征的编码和表示能力上更强。网络中各个隐藏层的编码数据作为每个子编码网络映射的同时也是更深层的隐藏层编码数据的解码重建，并且取值具有非负大于0的性质，更加符合自然界信号的非负取值的特性，这些网络结构以及编码数据的性质约束能够有效降低模态特征中的噪声，具有对噪声的抗干扰能力和鲁棒性，帮助融合不同模态特征各自携带的局部信息，最终提高新的数据特征的表示能力，并且有效地提高数据的内容理解和分类识别准确率。本发明的多路多模态深度自编码器技术，能够多路并行地对数据各个模态特征进行子编码网络的编码预测，输出新的数据融合后的特征，进行内容分类和识别，从而在计算效率上能够更快，具有天然的并行编码特征的特点。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图10对本发明示例性实施方式的数据处理装置进行说明。

图10示意性地示出了本发明一些示例性实施方式中的数据处理装置的结构框图。如图10所示，数据处理装置1000主要可以包括：

特征提取模块1010，被配置为获取待处理的原始数据，并对原始数据进行特征提取以得到原始数据的至少两个模态特征；

特征编码模块1020，被配置为通过预先训练的自编码器分别对各个模态特征进行编码处理以得到每个模态特征的模态编码数据；

权重获取模块1030，被配置为获取分别与每个模态特征相对应的特征融合权重；

数据融合模块1040，被配置为根据特征融合权重对各个模态编码数据进行融合处理以得到与原始数据相对应的多模态融合编码数据。

在本发明的一些示例性实施方式中，基于以上各实施方式，数据处理装置1000还包括：

数据分类模块1050，被配置为通过预先训练的分类器对多模态融合编码数据进行分类处理以得到原始数据的数据类型信息。

在本发明的一些示例性实施方式中，基于以上各实施方式，模态特征包括图像模态特征、文本模态特征和音频模态特征中的至少两种。

在本发明的一些示例性实施方式中，基于以上各实施方式，自编码器包括用于进行数据编码映射的编码网络和用于进行数据解码映射的解码网络；

编码网络包括对应于不同模态特征的至少两个模态编码网络，每个模态编码网络包括至少两个并行的数据编码层，至少两个模态编码网络具有一个共用的数据编码层作为输出层；

解码网络包括分别与每个数据编码层相对应的数据解码层。

样本特征提取模块，被配置为获取样本数据，并对样本数据进行特征提取以得到样本数据的至少两个样本模态特征；

样本特征输入模块，被配置为将至少两个样本模态特征分别输入至对应的模态编码网络中；

样本特征编码模块，被配置为通过模态编码网络中的各个数据编码层对样本模态特征进行数据编码映射以得到每个数据编码层输出的样本编码数据；

网络参数更新模块，被配置为根据样本模态特征和样本编码数据迭代更新自编码器的网络参数。

在本发明的一些示例性实施方式中，基于以上各实施方式，网络参数更新模块包括：

解码参数更新单元，被配置为根据样本模态特征和样本编码数据更新每个数据解码层的解码层网络参数；

编码数据更新单元，被配置为根据样本模态特征和更新后的解码层网络参数更新对应于每个数据编码层的样本编码数据；

编码参数更新单元，被配置为根据样本模态特征和更新后的样本编码数据更新每个数据编码层的编码层网络参数。

模态误差确定单元，被配置为根据样本模态特征、更新后的网络参数以及更新后的样本编码数据确定每个模态编码网络的模态编码误差；

融合权重更新单元，被配置为根据模态编码误差分别更新与各个模态编码网络相对应的模态特征的特征融合权重；

整体误差确定单元，被配置为根据模态编码误差和更新后的特征融合权重确定自编码器的整体编码误差，并获取整体编码误差的变化量；

第一迭代更新单元，被配置为若整体编码误差的变化量大于预设的误差阈值，则再次更新自编码器的网络参数。

更新次数获取单元，被配置为获取自编码器的网络参数的迭代更新次数；

第二迭代更新单元，被配置为若迭代更新次数小于预设的次数阈值，则再次更新自编码器的网络参数。

数据集获取单元，被配置为获取由样本模态特征按照预设样本顺序排列组成的样本特征数据集；

邻接图构建单元，被配置为根据样本特征数据集构建数据邻接图，并获取数据邻接图的数据图信息；

参数更新单元，被配置为根据样本模态特征、样本编码数据以及数据图信息迭代更新自编码器的网络参数。

在本发明的一些示例性实施方式中，基于以上各实施方式，数据图信息包括数据邻接图的邻接图矩阵、对角线矩阵以及根据邻接图矩阵和对角线矩阵确定的拉普拉斯矩阵。

以上各示例性实施方式中的数据处理装置的具体细节已在相应的示例性方法部分做出详细说明，因此此处不再赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤。

应当注意，尽管在上文详细描述中提及了基于多模态融合的视频人物检索装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种数据处理方法，其特征在于，包括：

获取分别与每个所述模态特征相对应的特征融合权重；

2.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的数据处理方法，其特征在于，所述模态特征包括图像模态特征、文本模态特征和音频模态特征中的至少两种。

4.根据权利要求1所述的数据处理方法，其特征在于，所述自编码器包括用于进行数据编码映射的编码网络和用于进行数据解码映射的解码网络；

5.根据权利要求4所述的数据处理方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的数据处理方法，其特征在于，所述根据所述样本模态特征和所述样本编码数据迭代更新所述自编码器的网络参数，包括：

7.根据权利要求6所述的数据处理方法，其特征在于，所述方法还包括：

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法。

9.一种数据处理装置，其特征在于，包括：

10.一种计算设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的数据处理方法。