CN113849665A

CN113849665A - 多媒体数据识别方法、装置、设备及存储介质

Info

Publication number: CN113849665A
Application number: CN202111025832.5A
Authority: CN
Inventors: 朱勇; 岳蓬星
Original assignee: ThunderSoft Co Ltd
Current assignee: ThunderSoft Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-28

Abstract

本申请公开了一种多媒体数据识别方法、装置、设备及存储介质。包括：获取待识别多媒体数据；将多媒体数据输入到设置在终端上的终端子模型，通过终端子模型提取待识别多媒体数据的第一特征数据，通过终端子模型提取待识别多媒体数据的第一特征数据的过程包括至少一次非线性运算；将第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于第一特征数据进行识别，得到多媒体数据的识别结果。采用本申请提供的多媒体数据识别方法，可以有效保护用户隐私，降低待识别多媒体数据的泄露风险。

Description

多媒体数据识别方法、装置、设备及存储介质

技术领域

本申请涉及数据脱敏领域，具体涉及一种多媒体数据识别方法、装置和设备。

背景技术

近年来，随着科学技术的发展，越来越多的领域开始应用算法模型解决问题。

现有技术中，由于模型的训练和应用需要较高的配置，一般将模型部署在服务器端。终端将数据上传至服务器，服务器将模型处理后的结果返回给终端。但是，前文中数据的传输和处理的过程中，存在较大的数据泄露风险。

因此，这种模型不适用于处理某些领域中的敏感数据，例如，在医疗领域中患者的诊断影像资料、银行领域的身份证照片、通信领域的语音资料等。

发明内容

本申请实施例的目的是提供一种多媒体数据识别方法、装置、设备及存储介质，能够解决现有技术中部署在服务器的模型存在的隐私泄露问题。

本申请的技术方案如下：

第一方面，提供了一种多媒体数据识别方法，包括：获取待识别多媒体数据；将多媒体数据输入到设置在终端上的终端子模型，通过终端子模型提取待识别多媒体数据的第一特征数据，通过终端子模型提取待识别多媒体数据的第一特征数据的过程包括至少一次非线性运算；将第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于第一特征数据进行识别，得到多媒体数据的识别结果。

在一些可选实施例中，将待识别多媒体数据输入到设置在终端上的终端子模型之前，方法还包括：

获取第一训练集，第一训练集包括多个训练样本，每个训练样本包括多媒体数据样本及其对应的标签识别数据；

针对每个训练样本分别执行以下操作：将训练样本输入至设置在终端的第一子模型，对训练样本进行预设处理，得到样本特征数据；将样本特征数据上传至服务器，以使设置在服务器中的第二子模型对样本特征数据进行识别，得到训练样本中多媒体数据样本的预测识别结果；

根据各个预测识别结果及其对应的标签识别数据，调整第一子模型和/或第二子模型的模型参数，返回执行将训练样本输入至第一子模型，对训练样本进行预设处理，得到样本特征数据，直至满足预设训练停止条件，得到终端子模型和服务器端子模型。

在一些可选实施例中，预设训练停止条件为第一子模型对应的损失函数值和第二子模型对应的损失函数值之和小于预设阈值。

在一些可选实施例中，预设模型为神经网络模型；预设训练停止条件为第一子模型的多个输出层对应的损失函数值和第二子模型的多个输出层对应的损失函数值之和小于预设阈值。

在一些可选实施例中，获取第一训练集之前，方法还包括：

将终端配置信息发送至服务器，以使服务器基于终端配置信息确定终端的计算能力等级，以及基于终端的计算能力等级和预设模型的多个层中每一层的计算量，拆分预设模型，得到第一子模型和第二子模型。

在一些可选实施例中，方法还包括：

获取来自服务器的识别结果。

在一些可选实施例中，多媒体数据包括图像数据和/或音频数据。

第二方面，提供了一种多媒体数据识别装置，包括：

数据获取模块，用于获取待识别多媒体数据；

终端处理模块，用于将多媒体数据输入到设置在终端上的终端子模型，通过终端子模型提取待识别多媒体数据的第一特征数据，通过终端子模型提取待识别多媒体数据的第一特征数据的过程包括至少一次非线性运算；

数据上传模块，用于将第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于第一特征数据进行识别，得到多媒体数据的识别结果。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的多媒体数据识别方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的多媒体数据识别方法的步骤。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请实施例提供的多媒体数据识别方法，将模型分为终端子模型和服务器端子模型，终端子模型提取待识别多媒体数据的第一特征数据，然后将第一特征数据上传给服务器端子模型进行处理得到识别结果。

由于数据传输中，没有直接传输待识别多媒体数据且提取第一特征数据的过程中包含了至少一次非线性运算，因此，即使在数据传输中泄露了数据，通过泄露的数据即第一特征数据也不能直接得到待识别多媒体数据或待识别多媒体数据的相关特征。

并且，本申请的预设处理包括至少一次非线性运算，因此仅凭第一特征数据也很难反向推理得到待识别多媒体数据或待识别多媒体数据的相关特征。因此，本申请实施例提供的多媒体数据识别方法，可以有效保护用户隐私，降低待识别多媒体数据的泄露风险。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1是本申请实施例提供的一种模型拆分方法的流程示意图；

图2是本申请实施例提供的一种模型训练方法的流程示意图；

图3是本申请实施例提供的一种多媒体数据识别方法的流程示意图；

图4是本申请实施例提供的一种多媒体数据识别装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的例子。

在医疗和银行等领域，数据源往往比较敏感，如身份证的照片、患者的诊断影像资料等。以医院为例，为了保证患者的隐私，医院与医院之间，医院与科研机构或商业机构之间存在大量的数据孤岛。

发明人发现，虽然采用联邦学习的方法可以解决上述数据孤岛问题，但因为需要将用于推理的数据通过网络进行传输，导致联邦学习对网络带宽，服务器的运算需求较大。并且还存在较大的数据泄露风险。

基于上述发现，本申请实施例提供了一种多媒体数据识别方法、装置、设备及存储介质，在模型训练和推理的过程中无需上传原始数据，仅传送中间计算结果给服务器端，进而用户的隐私可以得到很好的保护。

此外，由于上传的过程中采用的是中间计算结果，而中间计算结果往往数据尺寸大小比原始数据小很多，因此，可以有效减少数据的上传量，节省网络带宽。

为便于理解，在介绍本申请的具体实施例前，首先介绍本申请实施例中用到的相关技术术语。

数据孤岛：“企业发展到一定阶段，出现多个事业部，每个事业部都有各自数据，事业部之间的数据往往都各自存储，各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”我们把这样的情况称为数据孤岛。简单说就是数据间缺乏关联性，数据库彼此无法兼容。

专业人士把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是，数据在不同部门相互独立存储，独立维护，彼此间相互孤立，形成了物理上的孤岛。逻辑性的数据孤岛指的是，不同部门站在自己的角度对数据进行理解和定义，使得一些相同的数据被赋予了不同的含义，无形中加大了跨部门数据合作的沟通成本。

联邦学习：一种新兴的人工智能基础技术，在2016年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。

数据脱敏：数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

模型训练：用已有的数据，通过一些方法(最优化或者其他方法)确定函数的参数，参数确定后的函数就是训练的结果。

模型部署：模型部署就是在某一框架内训练好的模型(权重文件)，通过具体框架进行模型转化或者直接使用对应语言所提供的API接口，load、get一系列操作，使得训练好的“黑箱”能得到实际应用。

模型推理：完成实际的模型部署后，对输入数据送入到模型内部，进而获取到计算(推理)结果的过程称为模型推理。

下面结合附图1对本申请实施例提供的多媒体数据识别方法中使用的模型进行详细说明。

本申请实施例提供的多媒体数据识别方法中使用的模型为两阶段模型，也就是包括终端子模型和服务器端子模型。其中，终端子模型和服务器端子模型是由预设模型拆分后训练得到的。

图1示出了本申请实施例提供的一种模型拆分方法的流程示意图，该方法可以包括步骤S101-S103。

步骤S101，终端将终端配置信息发送至服务器。

这里，终端配置信息可以包括与终端运算能力相关的各类硬件指标参数，也可以为终端自身的设备型号。

步骤S102，服务器基于终端配置信息确定终端的计算能力等级。

在终端配置信息为各类硬件指标参数的情况下，服务器可以基于各类硬件指标参数计算一个计算能力数值，基于该数值在预设的计算能力等级分类表中，确定该终端的计算能力等级；服务器还可以基于各类硬件指标参数，基于一个预设的计算能力等级匹配关系，确定该终端的计算能力等级。其中，预设的计算能力等级匹配关系具体可以是先判断CPU型号，在CPU满足第一预设条件的情况下，判断硬盘类型或硬盘写入速度，同理，基于相似的判断逻辑，判断各类硬件指标参数中的每个指标参数，以确定该终端的计算能力等级。

在终端配置信息为设备型号的情况下，服务器中可以预设有终端型号与计算能力等级匹配关系，根据终端型号与计算能力等级匹配关系确定该终端的计算能力等级。

步骤S103，服务器基于终端的计算能力等级和预设模型的多个层中每一层的计算量，拆分预设模型，得到第一子模型和第二子模型。

该预设模型可以是多媒体数据识别模型，也可以是多媒体数据分类模型。根据终端设备的计算能力等级调整终端的运算量，对模型进行拆分，终端设备适当高效的分担了服务器端的运算压力，从而降低了服务器的运算需求。

其中，根据计算能力等级的划分情况对模型进行拆分，划分过程需要参考如下规则：

a)该层作为输出层是否可以获得一个相对较好的神经网络推理结果，可以通过反向推理的过程中对损失函数值的统计进行判别。如果是分类模型，也可以结合对应分类结果的混淆矩阵，观察其是否满足项目的需求。

b)该层作为输出层时，由于终端往往性能是有限的，在有限的推理性能下完成该层之前的全部推理过程，其对应的推理实时性能否得到满足。

作为一个示例，步骤S101具体可以获取当前的硬件平台型号，根据该硬件平台型号获取具体算力，步骤S102可以依据硬件平台算力及模型分层计算量对计算能力等级进行预先划分，根据划分结果可以得到当前计算设备对应的计算能力等级。

在步骤S103之前还可以设置一个计算量统计步骤，该步骤可以对模型的每一层的计算量进行初步统计。根据每一层的计算量统计结果，计算从当前等级的神经网络首层到神经网络当前层的总计算量；以此类推，计算出数据传播到每一层神经网络所需的总计算量，或中间某一层到后面每一层神经网络所需的总计算量，具体从哪层网络开始计算总计算量这里不做限定，生成模型分层计算量统计表。然后基于模型分层计算量统计表，构建计算量及计算能力等级对照表举例如下(表中数值仅供参考)：

表1计算量及计算能力等级对照表

以上表为例，步骤S103中，如果是450芯片可将模型拆分为前100层和其它层，前100层在450芯片上运行，其它层在服务器端运行；660芯片同理，运行该模型时可将模型拆分为前200层及其它层，前200层运行在660芯片上，其它层运行在服务器端，计算量统计表及计算能力对照表在构建过程中layer的选取同样要考虑到模型的结构及对最终推理精度的影响，且Layer Number不一定以001开始，也可以以中间某层为起始层。根据设备的计算能力，结合上述方法，终端侧实际推理的模型尺寸得到优化，因此可保障模型在任意芯片型号的终端侧获得较好的推理实时性。

在一些实施例中，服务器拆分预设模型，得到第一子模型和第二子模型后，还可以将第一子模型发送到终端。进而，使第一子模型在终端，第二子模型在服务器端，两者一同训练，训练结束得到终端子模型和服务器端子模型。

下面结合附图2对本申请实施例提供的多媒体数据识别方法中使用的模型的训练过程进行详细说明。

图2示出了本申请实施例提供的一种模型训练方法的流程示意图，该方法可以包括步骤S201-S203。

步骤S201，获取第一训练集，第一训练集包括多个训练样本，每个训练样本包括多媒体数据样本及其对应的标签识别数据。

这里，多媒体数据样本具体可以是图像数据样本或音频数据样本。其中，图像数据样本可以来源于前文中所述的身份证照片、患者的诊断影响资料等。音频数据样本可以来自终端采集或预先存储的音频。

标签识别数据，具体可以与预设模型的输出层一一对应，每个输出层对应一个标签识别数据，此时一个多媒体数据样本对应多个标签识别数据。标签识别数据还可以与多媒体样本一一对应，每个多媒体样本对应一个标签识别数据。

在训练前，可以基于终端的数据预先构建多个训练样本，基于多个训练样本得到第一训练集。

步骤S202，针对每个训练样本分别执行以下操作：将训练样本输入至设置在终端的第一子模型，对训练样本进行预设处理，得到样本特征数据；将样本特征数据上传至服务器，以使设置在服务器中的第二子模型对样本特征数据进行识别，得到训练样本中多媒体数据样本的预测识别结果。

在终端侧训练终端子模型，将终端子模型输出的样本特征数据上传至服务器侧，训练服务器端子模型。其中，样本特征数据是训练样本在经过预设处理后得到的，而预设处理包括了至少一次非线性运算。进而，即便泄露了样本特征数据，得到样本特征数据的人也很难得到原始训练样本的信息。

需要说明的是，此处的样本特征数据不是训练样本自身的特征数据，而是在训练样本自身的特征数据基础上经过预设处理得到的数据。也就是说，样本特征数据不能直接显示训练样本的特征。

步骤S203，根据各个预测识别结果及其对应的标签识别数据，调整第一子模型和/或第二子模型的模型参数，返回执行将训练样本输入至第一子模型，对训练样本进行预设处理，得到样本特征数据，直至满足预设训练停止条件，得到终端子模型和服务器端子模型。

本申请实施例中的预设模型可以为神经网络模型。训练过程可以采用深度神经网络的通用训练与调优方法，这个过程包括但不限于联邦学习等训练方法。但是，在训练前需要根据不同等级的计算量，将模型进行合理拆分。在训练中，不将原始训练样本直接上传至服务器端，也不将多媒体数据识别得到的第一特征数据上传至服务器，所有上传至服务器的涉及隐私的数据均经过了至少一次非线性运算，难以反推出原始数据，进而保障了数据的安全性。

在一些实施例中，预设训练停止条件为第一子模型对应的损失函数值和第二子模型对应的损失函数值之和小于预设阈值。

作为一个示例，预设模型为神经网络模型；预设训练停止条件为第一子模型的多个输出层对应的损失函数值和第二子模型的多个输出层对应的损失函数值之和小于预设阈值。

本申请实施例中，终端侧的第一子模型和服务器侧的第二子模型，经过上述训练后将得到终端子模型和服务器端子模型。终端和服务器分别部署终端子模型和服务器端子模型之后即可应用该模型对多媒体数据进行识别。

下面结合附图3对本申请实施例提供的多媒体数据识别方法进行详细说明。

图3示出了本申请实施例提供的一种多媒体数据识别方法的流程示意图，如图3所示，该方法可以包括步骤S301-S303

步骤S301，获取待识别多媒体数据。

步骤S302，将多媒体数据输入到设置在终端上的终端子模型，通过终端子模型提取待识别多媒体数据的第一特征数据，通过终端子模型提取待识别多媒体数据的第一特征数据的过程中包括至少一次非线性运算。

步骤S303，将第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于第一特征数据进行识别，得到多媒体数据的识别结果。

上述步骤中，多媒体数据可以包括图像数据和/或音频数据。具体可以是前文中的身份证的照片、患者的诊断影像资料、终端的音频数据等。

上述步骤中的非线性运算可以是relu或者maxpooling等操作。

基于前文中的多媒体数据，多媒体数据的识别结果可以对应身份信息、诊断结果，音频分析结果等。

在一些示例中，前文中的多媒体数据也可以是多张图像，此时识别结果可以是图像的分类结果。

本申请实施例提供的多媒体数据识别方法，将模型分为终端子模型和服务器端子模型，终端子模型经过至少一次非线性运算提取待识别多媒体数据的第一特征数据后，然后将第一特征数据上传给服务器端子模型进行处理得到识别结果。

由于数据传输中，没有直接传输待识别多媒体数据，因此，即使在数据传输中泄露了数据，通过泄露的数据即第一特征数据也不能直接得到待识别多媒体数据。

并且，本申请的终端子模型提取待识别多媒体数据的第一特征数据的过程包括至少一次非线性运算，因此仅凭第一特征数据也很难反向推理得到待识别多媒体数据或待识别多媒体数据的相关特征。因此，本申请实施例提供的多媒体数据识别方法，可以有效保护用户隐私，降低待识别多媒体数据的泄露风险。

在一些实施例中，服务器端子模型在基于第一特征数据进行识别，得到多媒体数据的识别结果之后，还会将识别结果返回终端。基于此，该方法还可以包括步骤S304。

步骤S304，获取来自服务器的识别结果。

本申请实施例提供的多媒体数据识别方法，终端可以获取来自服务器的识别结果，进而使得终端的使用者可以直接自终端得到识别结果。

基于相同的发明构思，本申请实施例还提供了一种多媒体数据识别装置。

图4示出了本申请实施例提供的一种多媒体数据识别装置，如图4所示，该多媒体数据识别装置400，可以包括：

数据获取模块401，可以用于获取待识别多媒体数据；

终端处理模块402，可以用于将多媒体数据输入到设置在终端上的终端子模型，通过终端子模型提取待识别多媒体数据的第一特征数据，过终端子模型提取待识别多媒体数据的第一特征数据的过程包括至少一次非线性运算；

数据上传模块403，可以用于将第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于第一特征数据进行识别，得到多媒体数据的识别结果。

在一些实施例中，该多媒体数据识别装置400，还可以包括：

训练集获取模块，可以用于将待识别多媒体数据输入到设置在终端上的终端子模型之前，获取第一训练集，第一训练集包括多个训练样本，每个训练样本包括多媒体数据样本及其对应的标签识别数据；

模型训练模块，可以用于针对每个训练样本分别执行以下操作：将训练样本输入至设置在终端的第一子模型，对训练样本进行预设处理，得到样本特征数据；将样本特征数据上传至服务器，以使设置在服务器中的第二子模型对样本特征数据进行识别，得到训练样本中多媒体数据样本的预测识别结果；

在一些实施例中，模型训练模块中预设训练停止条件为第一子模型对应的损失函数值和第二子模型对应的损失函数值之和小于预设阈值。

在一些实施例中，模型训练模块中预设模型为神经网络模型；预设训练停止条件为第一子模型的多个输出层对应的损失函数值和第二子模型的多个输出层对应的损失函数值之和小于预设阈值。

在一些实施例中，该多媒体数据识别装置400，还可以包括：

配置发送模块，可以用于获取第一训练集之前，将终端配置信息发送至服务器，以使服务器基于终端配置信息确定终端的计算能力等级，以及基于终端的计算能力等级和预设模型的多个层中每一层的计算量，拆分预设模型，得到第一子模型和第二子模型。

在一些实施例中，该多媒体数据识别装置400，还可以包括：

信息获取模块，可以用于获取来自服务器的识别结果。

在一些实施例中，多媒体数据可以包括图像数据和/或音频数据。

本申请实施例提供的多媒体数据识别装置，可以用于执行上述各方法实施例提供的多媒体数据识别方法，其实现原理和技术效果类似，为简介起见，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种电子设备。

图5是本申请实施例提供的一种电子设备的结构示意图。如图5所示，电子设备可以包括处理器501以及存储有计算机程序或指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关容灾设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。在特定实施例中，存储器502包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种多媒体数据识别方法。

在一个示例中，电子设备还可包括通信接口503和总线510。其中，如图5示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、设备、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的多媒体数据识别方法，从而实现上述实施例描述的多媒体数据识别方法和装置。

另外，结合上述实施例中的多媒体数据识别方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有程序指令；该程序指令被处理器执行时实现上述实施例中的任意一种多媒体数据识别方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种多媒体数据识别方法，其特征在于，包括：

获取待识别多媒体数据；

将所述多媒体数据输入到设置在终端上的终端子模型，通过所述终端子模型提取所述待识别多媒体数据的第一特征数据，所述终端子模型提取所述待识别多媒体数据的第一特征数据的过程中包括至少一次非线性运算；

将所述第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于所述第一特征数据进行识别，得到所述多媒体数据的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别多媒体数据输入到设置在终端上的终端子模型之前，所述方法还包括：

获取第一训练集，所述第一训练集包括多个训练样本，每个所述训练样本包括多媒体数据样本及其对应的标签识别数据；

针对每个训练样本分别执行以下操作：将所述训练样本输入至设置在终端的第一子模型，对所述训练样本进行预设处理，得到样本特征数据；将所述样本特征数据上传至服务器，以使设置在服务器中的第二子模型对所述样本特征数据进行识别，得到所述训练样本中多媒体数据样本的预测识别结果；

根据各个所述预测识别结果及其对应的标签识别数据，调整所述第一子模型和/或第二子模型的模型参数，返回执行所述将所述训练样本输入至第一子模型，对所述训练样本进行预设处理，得到样本特征数据，直至满足预设训练停止条件，得到终端子模型和服务器端子模型。

3.根据权利要求2所述的方法，其特征在于，所述预设训练停止条件为所述第一子模型对应的损失函数值和所述第二子模型对应的损失函数值之和小于预设阈值。

4.根据权利要求3所述的方法，其特征在于，所述预设模型为神经网络模型；所述预设训练停止条件为所述第一子模型的多个输出层对应的损失函数值和所述第二子模型的多个输出层对应的损失函数值之和小于预设阈值。

5.根据权利要求2所述的方法，其特征在于，所述获取第一训练集之前，所述方法还包括：

将终端配置信息发送至服务器，以使所述服务器基于所述终端配置信息确定所述终端的计算能力等级，以及基于所述终端的计算能力等级和预设模型的多个层中每一层的计算量，拆分预设模型，得到第一子模型和第二子模型。

6.根据权利要求1-5任一所述的方法，其特征在于，所述方法还包括：

获取来自服务器的识别结果。

7.根据权利要求1-5任一所述的方法，其特征在于，所述多媒体数据包括图像数据和/或音频数据。

8.一种多媒体数据识别装置，其特征在于，包括：

数据获取模块，用于获取待识别多媒体数据；

终端处理模块，用于将所述多媒体数据输入到设置在终端上的终端子模型，通过所述终端子模型提取所述待识别多媒体数据的第一特征数据，所述通过所述终端子模型提取所述待识别多媒体数据的第一特征数据的过程中包括至少一次非线性运算；

数据上传模块，用于将所述第一特征数据上传至服务器，以使设置在服务器中的服务器端子模型基于所述第一特征数据进行识别，得到所述多媒体数据的识别结果。

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一所述的多媒体数据识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一所述的多媒体数据识别方法的步骤。