CN112231275B

CN112231275B - 多媒体文件分类、信息处理与模型训练方法、系统及设备

Info

Publication number: CN112231275B
Application number: CN201910632609.3A
Authority: CN
Inventors: 刘梦怡; 赵小伟; 刘铸
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-07-14
Filing date: 2019-07-14
Publication date: 2024-02-27
Anticipated expiration: 2039-07-14
Also published as: US11675827B2; US20210011941A1; CN112231275A

Abstract

本申请实施例提供一种多媒体文件分类、信息处理与模型训练方法、系统及设备。其中，方法包括如下的步骤：根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合；根据所述多个特征组合，利用第一计算模型确定语义相关特征组合；结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类。本申请实施例提供的技术方案，在综合多媒体文件的多种模态对应的特征进行多媒体文件的分类过程中，挖掘出语义相关的特征组合。语义相关的特征组合的表达能力更强且价值更高，利用这种特征组合进行多媒体文件的分类，可有效提高多媒体文件的分类准确率。

Description

多媒体文件分类、信息处理与模型训练方法、系统及设备

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种多媒体文件分类、信息处理与模型训练方法、系统及设备。

背景技术

基于内容的视频分类是多媒体平台数据处理与分发过程中的重要技术。

目前，大部分视频分类技术多采用基于单一模态(即仅基于图像模态数据)的分类模型进行视频分类。这种视频分类方法完全摒弃了多媒体视频文件中所包含的其他模态的数据，例如：文本或语音等模态数据，使得现有的视频分类模型的视频分类准确度较低，从而影响多媒体平台数据处理与分发的效果。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的多媒体文件分类、信息处理与模型训练方法、系统及设备。

于是，在本申请的一个实施例中，提供了一种多媒体文件分类方法。该方法包括：

根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合；其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集；

根据所述多个特征组合，利用第一计算模型确定语义相关特征组合；

结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类；

其中，所述多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息。

在本申请的另一实施例中，提供了一种信息处理方法。该方法，包括：

在本申请的另一实施例中，提供了一种模型训练方法。该方法，包括：

根据样本多媒体文件中至少两种模态信息各自对应的样本特征集，确定多个样本特征组合；其中，构成所述样本特征组合的多个样本特征来自于不同模态信息对应的样本特征集；

根据所述多个样本特征组合，利用第一计算模型确定语义相关样本特征组合；

结合所述语义相关样本特征组合的语义相关程度，优化所述第一计算模型；

其中，所述样本多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息；所述第一计算模型用于对多媒体文件进行识别。

确定目标用户偏好的视频类别；

根据目标用户偏好的视频类别，在查询库中查询目标视频文件；其中，所述查询库中建立有多个视频文件中各视频文件及其所属视频类别之间的对应关系；

将所述目标视频文件发送给所述目标用户；

上述方法，还包括：

根据所述视频文件中至少两种模态信息各自对应的特征集，确定多个特征组合；其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集；

结合所述语义相关特征组合，利用所述第一计算模型对所述视频文件进行分类，得到所述视频文件所属视频类别；

其中，所述视频文件由多种模态信息构成，所述多种模态信息中包括文本模态、语音模态中的至少一种模态信息以及图像模态信息。

根据用户输入的查询信息，确定待查询视频类别；

根据所述待查询视频类别，在查询库中查询目标视频文件；其中，所述查询库中建立有多个视频文件中各视频文件及其所属视频类别之间的对应关系；

将所述目标视频文件作为查询结果发送给所述用户；

上述方法，还包括：

在本申请的另一实施例中，提供了一种神经网络系统。该神经网络系统，包括：

确定模块，用于根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合；其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集；

至少一个第一网络层，用于根据所述多个特征组合，确定语义相关特征组合；

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

所述存储器，用于存储程序；

本申请实施例提供的技术方案，在综合多媒体文件的多种模态信息对应的特征进行多媒体文件的分类过程中，挖掘出语义相关的特征组合。语义相关的特征组合的表达能力更强且价值更高，利用这种特征组合进行多媒体文件的分类，可有效提高多媒体文件的分类准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的多媒体文件分类方法的流程示意图；

图2为本申请另一实施例提供的模型训练方法的流程示意图；

图3为本申请一实施例提供的多媒体文件分类装置的结构框图；

图4为本申请另一实施例提供的模型训练装置的结构框图；

图5为本申请一实施例提供的电子设备的结构框图；

图6为本申请一实施例提供的处理流程概略图；

图7为本申请一实施例提供的信息处理方法的流程示意图；

图8为本申请另一实施例提供的信息处理装置的结构框图；

图9为本申请一实施例提供的信息处理方法的流程示意图；

图10为本申请另一实施例提供的信息处理方法的流程示意图；

图11为本申请另一实施例提供的视频查询或推荐装置的结构框图。

具体实施方式

发明人在实现本申请技术方案的过程中研究发现：若将多媒体文件的多个模态信息中各个模态信息对应的特征序列分别经过特征序列聚合模型进行特征聚合，得到每一个模态信息对应的聚合特征，再综合多个模态信息中各个模态信息对应的聚合特征对多媒体文件进行分类。这种策略会完全丢弃了多个模态信息在整个时序维度上的交互，导致某些时间节点上有价值的特征组合未被充分利用。

若按照多个模态信息各自的时序(即图像模态信息中视频帧的顺序、文本模态数据中文本词的顺序、语音模态信息中音频帧的顺序)进行对应组合，可在每个时间节点得到一个融合特征，这样最终可得到一个序列，将序列输入聚合模型，再进行视频分类。这种策略虽然考虑到了两个模态信息在整个时序维度上的交互，但是忽略了不同模态信息在时序上语义未对齐的问题，两个语义不相关的特征进行组合会破坏原始特征的表达能力从而影响最终性能。

举例来说：视频文件具有天然的多模态(图像，文本，语音等)属性，不同模态信息呈非结构化形式，在序列中难以进行语义对齐，例如：针对一段视频及其对应的文字描述，视频中前几帧出现的对象可能出现在文本描述的后半段；直接依照视频帧及文本词汇各自出现的顺序进行组合，将形成语义不相关或相互冲突的情况，破坏原始特征的表达能力。

为了解决上述问题，发明人提出通过挖掘语义相关的特征进行组合，生成表达能力更强的特征用于分类，可有效提高分类准确率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1示出了本申请一实施例提供的多媒体文件分类方法的流程示意图。如图1所示，该方法包括：

101、根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合。

102、根据所述多个特征组合，利用第一计算模型确定语义相关特征组合。

103、结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类。

其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集。

上述101中，所述多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息。例如：多媒体文件为视频文件时，该多媒体文件中包括图像模态信息，还可包括：文本模态信息和/或语音模态信息。再例如：多媒体文件为音频文件时，该多媒体文件中包括：语音模态信息和文本模态信息。其中，图像模态信息中包括视频帧序列，文本模态信息中包括文本词序列，语音模态信息中包括音频帧序列。

其中，上述至少两种模态信息各自对应的特征集中均包括多个特征。在一实例中，特征的具体形式可以为向量形式。

举例来说：图像模态信息对应的特征集中包括多个视频帧特征；文本模态信息对应的特征集中包括多个文本词特征；语音模态信息对应的特征集中包括多个音频帧特征。每一个视频帧特征用来描述其对应的视频帧；每一个文本词特征用来描述其对应的文本词；每一个音频帧特征用来描述其对应的音频帧。在一实例中，每一个模态信息对应的特征集中的多个特征可按照时序关系组成相应的特征序列。

可分别从上述至少两种模态信息各自对应的特征集中进行采样得到多个特征组合，具体地：可按时序采样或随机采样的方式分别从上述至少两种模态信息各自对应的特征集中进行采样得到多个特征组合。其中，按时序采样可按照上述至少两种模态信息中的一种模态信息对应的时序进行采样。

举例来说：多媒体文件中包括按序排列的Q个视频帧(即按时序排列的Q个视频帧)和按序排列的P个文本词。相应的，图像模态信息对应的特征集中包括按序排列的Q个视频帧特征，文本模态信息对应的特征集中包括按序排列的P个文本词特征。可按照图像模态信息对应的时序进行采样，具体为：第一次采样时：先按时序从Q个视频帧特征中选出排在第一的视频帧特征，再从P个文本词特征中随机选出一个文本特征与排在第一的视频帧特征进行组合得到第一特征组合；第二次采样时：按时序从Q个视频帧特征中选出排在第二的视频帧特征，再从P个文本词特征中随机选出一个文本特征与排在第二的视频帧特征进行组合得到第二特征组合；依次类推，直至采样次数达到最大采样次数，停止采样。需要补充的是，若按时序采样，则最大采样次数等于或小于上述Q。

其中，随机采样的过程具体为：每次采样都是分别随机从上述至少两种模态信息各自对应的特征集中各选出一个特征进行组合，直至采样次数达到最大采样次数，停止采样。

在实际应用时，可根据实际需要来设置最大采样次数，本申请实施例对此不做具体限定。每一次采样得到的特征组合可看成是一个时间节点的“状态”。

下面将介绍一种特征组合的确定方式。所述多个特征组合中包括第三特征组合。第三特征组合指代的是多个特征组合中的任一特征组合。上述101中“根据多媒体文件中至少两种模态信息各自对应的特征集，确定所述第三特征组合”，具体包括如下步骤：

1011、通过采样的方式，分别从所述至少两种模态信息各自对应的特征集中每一个特征集中选取一特征。

1012、将从每一个特征集中选取出的特征进行线性映射处理，得到多个相同维度的特征。

1013、将所述多个相同维度的特征组合成所述第三特征组合。

上述1011中，可按照上述介绍的按时序或随机采样方式，分别从所述至少两种模态信息各自对应的特征集中每一个特征集中选取一特征。

上述1012中，为了方便后续进行构成第一特征组合的多个特征进行融合得到第一融合特征，需确保构成第一特征组合的多个第一特征的维度相同。

考虑到每一个特征集中的特征的维度可能会存在差异，将从每一个特征集中选取出的特征进行线性映射处理，得到多个相同维度的特征。每一个特征集中的各特征的线性映射处理可利用下述第一计算模型中相应的第四全连接层来实现即可。具体地，多个模态对应的特征集包括第一特征集和第二特征集，第一特征集中的特征的维度为5，第二特征集中的特征的维度为4，第一特征集对应的第四全连接层的通道数为4；第二特征集对应的第四全连接层的通道数为4；第一特征集中的特征通过第一特征集对应的第四全连接层的线性映射处理后，得到一个4维的特征向量；第二特征集中的特征通过第二特征集对应的第四全连接层的线性映射处理后，也得到一个4维的特征向量。

上述102中，其中，构成语义相关特征组合的多个特征来自于不同模态信息对应的特征集。第一计算模型可事先根据样本训练数据训练得到。在一种可实现的方案中，第一计算模型可以为神经网络模型。

在一种可实现的方案中，可利用第一计算模型的注意力机制，从所述多个特征组合中，筛选出语义相关特征组合。具体地，利用第一计算模型的注意力机制，计算所述多个特征组合各自对应的被选取概率；根据多个特征组合各自对应的被选取概率，从所述多个特征组合中选出语义相关特征组合。例如：可将被选取概率大于预设阈值的特征组合作为语义相关特征组合。

注意力(Attention)机制，源于对人类视觉的研究，在认知科学中，由于信息的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。Attention机制通俗的讲就是把注意力集中放在重要的信息上，而忽略其他不重要的信息。

上述103中，可根据构成所述语义相关特征组合的多个第二特征，得到第二融合特征；根据所述第二融合特征，利用所述第一计算模型对所述多媒体文件进行分类。

根据构成所述语义相关特征组合的多个第二特征，得到第二融合特征，具体为：将多个第二特征进行拼接，得到第二融合特征；或者，将多个第二特征进行按元素相加，得到第二融合特征。

多媒体文件的分类可以为二分类或多分类。以多分类为例，所述第一计算模型可结合语义相关特征组合，预测得到多媒体文件属于多个类别中各类别的概率；根据多媒体文件属于多个类别中各类别的概率，即可预测出多媒体文件的所属类别。其中，类别的定义可根据实际的业务场景来确定，例如：多个类别中可以包括多媒体文件中出现的物体对象，场景对象，人物行为，事件等。

在另一种可实现的方案中，上述102中“根据所述多个特征组合，利用第一计算模型确定语义相关特征组合”，具体可采用如下步骤来实现：

1021、利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征。

1022、所述第一特征组合对应的注意力特征的数量大于第一预设阈值时，组合所述第一特征组合对应的注意力特征，得到语义相关特征组合。

其中，所述多个特征组合中包括第一特征组合。第一特征组合指代的是多个特征组合中的任一特征组合。

上述1021中，利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征，也即是：从构成第一特征组合的多个第一特征中确定出哪些是需要被选择(即被关注)的特征，哪些是需要被忽略的特征。其中，需要被选择的特征也即是注意力特征。

在一实例中，上述1021中“利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征”，具体可采用如下步骤来实现：

S11a、将所述多个第一特征进行融合，得到第一融合特征。

S12a、根据所述第一融合特征，利用所述第一计算模型计算所述多个第一特征对应的多种可能被选结果各自对应的概率。

S13a、根据所述多种可能被选结果各自对应的概率，确定出目标被选结果。

S14a、根据所述目标被选结果，确定所述第一特征组合对应的注意力特征。

上述S11a中，具体可采用如下方式中的一种或多种进行多个第一特征的融合：

方式一：将所述多个第一特征进行拼接，得到第一融合特征。

例如：多个第一特征中包括：A特征(a1，a2，a3)和B特征(b1，b2，b3)，将A特征和B特征进行拼接得到的第一融合特征C为(a1，a2，a3，b1，b2，b3)。

方式二：将所述多个第一特征进行按元素相加，得到第一融合特征。

例如：多个第一特征中包括：A特征(a1，a2，a3)和B特征(b1，b2，b3)，将A特征和B特征进行按元素相加得到的第一融合特征C为(a1+b1，a2+b2，a3+b3)。

方式三：将所述多个第一特征进行按元素相乘，得到第一融合特征。

例如：多个第一特征中包括：A特征(a1，a2，a3)和B特征(b1，b2，b3)，将A特征和B特征进行按元素相乘得到的第一融合特征C为(a1*b1，a2*b2，a3*b3)。

上述S12a中，所述多个第一特征对应的多种可能被选结果中包括：多个第一特征均被选的结果、多个第一特征中部分特征被选的各结果以及多个第一特征均不被选的结果。

举例来说：多个第一特征中包括视频帧特征和文本词特征，则这多个第一特征对应的多种可能被选结果中包括：视频帧特征和文本词特征均不被选取的结果(即00模式结果，其中，第一位数表明视频帧特征是否被选取；第二位数表明文本词特征是否被选取；0代表不被选取，1代表被选取)；视频帧特征不被选取且文本词特征被选取的结果(即01模式结果)；视频帧特征被选取且文本词特征不被选取的结果(即10模式结果)；视频帧特征被选取且文本词特征被选取的结果(即11模式结果)。

具体实施时，所述多个第一特征中每一个特征均具有被选和不被选的两种可能。上述方法，还可包括：依据所述多个第一特征中各特征所具有的被选和不被选的两种可能，确定所述多个第一特征对应的所述多种可能被选结果。其中，所述多个第一特征的数量为n；所述多种可能被选结果的数量为2的n次方。例如：多个第一特征的数量为2时，多种可能被选结果的数量为4。

在一种可实现的方案中，上述S12a中“根据所述第一融合特征，利用所述第一计算模型计算所述多个第一特征对应的多种可能被选结果各自对应的概率”，具体可采用如下步骤来实现：将所述第一融合特征作为所述第一计算模型中的第一全连接层的输入，得到所述第一全连接层输出的第一向量；将所述第一向量作为所述第一计算模型中的第一归一化层的输入，得到所述第一归一化层输出的第二向量；根据所述第二向量，确定出所述多种可能被选结果各自对应的概率。其中，第一全连接层的通道数与所述多种可能被选结果的数量一致。第一向量的维度和第二向量的维度与多种可能被选结果的数量一致。第二向量中每一个元素值即为一个可能被选结果对应的概率。

例如：沿用上例，第二向量为(0.1，0.2，0.5，0.2)；按照事先的定义可确定出：00模式结果对应的概率即为0.1；01模式结果对应的概率即为0.2；10模式结果对应的概率即为0.5；11模式结果对应的概率即为0.2。

其中，第一全连接层计算得到第一向量以及第一归一化层计算得到第二向量的具体实现均可参见现有技术，在此不再详述。

上述S13a中，在一种实现方式中，可将多种可能被选结果中概率最大的可能被选结果确定为目标被选结果。在另一种实现方式中，将所述多种可能被选结果各自对应的概率作为多元正态分布的概率密度函数的输入，执行所述概率密度函数得到输出结果；根据所述输出结果，从所述多种可能被选结果中确定出目标被选结果。这样可通过概率形式引入一定的随机性，可探索得到更优结果。

上述S14a中，根据所述目标被选结果，可确定出被选的特征，将被选的特征作为所述第一特征组合对应的注意力特征。例如：沿用上例，若目标被选结果为11模式结果，则视频帧特征和文本词特征均为第一特征组合对应的注意力特征；若目标被选结果为10模式结果，则视频帧特征为第一特征组合对应的注意力特征；若目标被选结果为00模式结果，则第一特征组合没有注意力特征。

需要补充说明的是：针对上述多个特征组合中每一个特征组合，都需要执行一次上述步骤1021，以得到每一个特征组合对应的注意力特征。在重复执行上述步骤1021的过程中，可按多个特征组合组成的特征组合序列的顺序执行。其中，多个特征组合组成的特征组合序列的顺序也即是多个特征组合的采样顺序。例如：第一次采样得到的特征组合的排序为第一，第二次采样得到的特征组合的排序为第二。重复执行上述步骤1021的过程也即是整个特征组合序列决策过程。在上述实施例中，将每一次采样得到的特征组合可看成是一个时间节点的“状态”，决策得到的特征组合对应的目标被选结果可看成是对应时间节点的决策“动作”。整个特征组合序列决策过程达到最大决策步数(等于上述的最大采样次数)时，将会输出一个完整的决策动作序列，决策动作序列中每一个决策动作都对应有相应的注意力特征。

在另一实例中，构成第一特征组合的多个第一特征中每一个特征均具有被选和不被选的两种可能。上述1021中“利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征”，具体可以可采用如下步骤来实现：

S11b、利用所述第一计算模型计算构成所述第一特征组合的多个第一特征中各特征的被选概率。

S12b、根据所述多个第一特征中各特征的被选概率，确定出第一特征组合对应的注意力特征。

上述S11a中，可根据多个第一特征，确定第一融合特征。将该第一融合特征作为第一计算模型中的第二全连接层的输入，得到第二全连接层输出的第三向量；将第三向量作为第一计算模型中的第二归一化层的输入，得到第二归一化层输出的第四向量。根据第四向量，确定所述第一特征组合的多个第一特征中各特征的被选概率。

其中，第二全连接层的通道数与多个第一特征的数量一致，第三向量和第四向量的维度与多个第一特征的数量一致。多个第一特征包括视频帧特征和文本词特征。第四向量为(0.6，0.4)，按照事先的定义可确定出，视频帧特征的被选概率为0.6，文本词特征被选的概率为0.4。

上述S12b中，可将多个第一特征中被选概率大于预设概率值的特征确定为第一特征组合对应的注意力特征。预设概率值可根据实际需要来设定，例如：可以设为0.5。

这样，根据第四向量(0.6，0.4)，可将视频帧特征作为第一特征组合对应的注意力特征。

上述1022中，所述第一特征组合对应的注意力特征的数量大于第一预设阈值时，组合所述第一特征组合对应的注意力特征，得到语义相关特征组合。第一预设阈值的大小可根据实际需要来设定，本实施例对此不做具体限定。例如：第一预设阈值可设为1，或者第一预设阈值可设为m-1，其中，m为构成第一特征组合的多个第一特征的数量。

为了提高模型的分类准确率，在进行多媒体文件分类时，除了结合语义相关特征组合外，还可将那些注意力特征的数量小于或等于第一预设阈值的特征组合对应的注意力特征考虑进来，以提高模型的分类准确率。具体地，上述103中“结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类”，具体为：

1031、结合所述语义相关特征组合以及第二特征组合对应的注意力特征，利用所述第一计算模型对所述多媒体文件进行分类。

其中，所述第二特征组合对应的注意力特征的数量小于或等于所述第一预设阈值；所述多个特征组合中包括所述第二特征组合。

在实际应用时，上述1031中“结合所述语义相关特征组合以及第二特征组合对应的注意力特征，利用所述第一计算模型对所述多媒体文件进行分类”，具体为：

S21、根据构成所述语义相关特征组合的多个第二特征，确定第二融合特征。

S22、根据所述第二特征组合对应的注意力特征，确定第三融合特征。

S23、将所述第二融合特征和所述第三融合特征以序列的形式输入至所述第一计算模型中的特征序列聚合网络，得到聚合特征。

S24、将所述聚合特征输入至所述第一计算模型中的分类器，得到所述多媒体文件的分类结果。

其中，第二融合特征和第三融合特征的维度相同。

上述S21中，可以将构成所述语义相关特征组合的多个第二特征进行拼接或按元素相加得到第二融合特征。

上述S22中，第二特征组合对应的注意力特征进行拼接或按元素相加得到第二融合特征。

需要说明的是，通过拼接得到第二融合特征和第三融合特征的方法中，第二融合特征对应的向量中不仅包括多个第二特征对应的向量中所有向量元素，还对应包括该语义相关特征组合中未包含模态对应的全零向量中所有向量元素。第三融合特征对应的向量中不仅包括第二特征组合对应的注意力特征对应的向量中所有向量元素，还包括第二特征组合对应的注意力特征中未包含模态对应的全零向量中所有向量元素。

在实际应用中，语义相关特征组合的数量可能为多个，第二特征组合的数量也可能为多个。多个语义相关特征组合中各语义相关特征组合对应的第二融合特征以及多个第二特征组合中各特征组合对应的第三融合特征，按时序排列或随机排列形成上述序列。

其中，特征序列聚合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)或者为NeXtVLAD网络。当特征序列聚合网络为LSTM时，需按时序采样得到上述多个特征组合，且上述序列中的多个融合特征的排序也需按照时序排列。

上述分类器可由第三全连接层和第三归一化层来实现，具体可参见现有技术，在此不再详述。

进一步的，所述至少两种模态信息中包括图像模态信息；上述方法，还可包括：

104、将所述图像模态信息中多个视频帧输入至图像特征提取模型，提取得到所述多个视频帧各自对应的图像特征。

其中，所述多个视频帧各自对应的图像特征构成所述图像模态信息对应的特征集。

需要补充说明的是：这里的图像特征也即是视频帧特征。

进一步的，所述至少两种模态信息中包括文本模态信息；上述方法，还可包括：

105、将所述文本模态信息中多个文本词输入至文本词特征提取模型，提取得到所述多个文本词各自对应的文本词特征。

其中，所述多个文本词各自对应的文本词特征构成所述文本模态信息对应的特征集。

其中，图像特征提取模型可以为卷积神经网络；文本词特征提取模型可以为快速文本分类器FastText。

可事先获取所述多媒体文件的文本描述信息，对文本描述信息进行分词处理，得到多个文本词。

综上所述，针对多模态视频分类任务，为解决特征融合时语义不对齐的问题，本方法采用注意力机制，将语义相关性组合学习建模为序列决策过程，引入端到端的深度强化学习框架，对每次采样得到的特征组合进行决策以得到的该组合对应的关键特征，即语义相关性组合。本申请实施例提供的方法在视频领域内大规模公开数据集上进行了验证，视频分类准确率相对可提升约3个百分点。

图7示出了本申请又一实施例提供的信息处理方法的流程示意图。如图7所示，该方法包括：

701、根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合。

702、根据所述多个特征组合，利用第一计算模型确定语义相关特征组合。

上述步骤701和702的具体实现可参见上述各实施例中相应内容，在此不再赘述。

在本实施例中，根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合，再根据所述多个特征组合，利用第一计算模型确定语义相关特征组合。语义相关的特征组合的表达能力更强且价值更高，后续利用这种特征组合进行多媒体文件的分类，可有效提高多媒体文件的分类准确率。

这里需要说明的是：本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述方法中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

下面将结合图2介绍一种上述各实施例中提及的第一计算模型的训练方法。如图2所示，该方法包括：

201、根据样本多媒体文件中至少两种模态信息各自对应的样本特征集，确定多个样本特征组合。

202、根据所述多个样本特征组合，利用第一计算模型确定语义相关样本特征组合。

203、结合所述语义相关样本特征组合的语义相关程度，优化所述第一计算模型。

其中，构成所述样本特征组合的多个样本特征来自于不同模态信息对应的样本特征集；所述第一计算模型用于对多媒体文件进行识别。所述样本多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息。

此外，还可结合语义相关样本特征组合，利用所述第一计算模型获得所述样本多媒体文件的预测分类结果，其具体实现可参见上述各实施例中“结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类”相应内容，在此不再赘述。

上述201中，根据样本多媒体文件中至少两种模态信息各自对应的样本特征集，确定多个样本特征组合的具体实现可参照上述各实施例中“根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合”的具体实现，两者的具体实现是一致的，在此不再赘述。

上述202中，根据所述多个样本特征组合，利用第一计算模型确定语义相关样本特征组合的具体实现也可参照上述各实施例中“根据所述多个特征组合，利用第一计算模型确定语义相关特征组合”的具体实现，两者的具体实现是一致的，在此不再赘述。

上述203中，所述语义相关样本特征组合的语义相关程度即为构成所述语义相关样本特征组合的多个第二样本特征之间的语义相关程度。结合语义相关程度，优化第一计算模型，具体可采用随机梯度下降算法对模型中相关参数进行优化。其中，随机梯度下降算法的实现原理可参见现有技术，在此不再赘述。

语义相关样本特征组合的数量可能为多个，可将多个语义相关样本特征组合的语义相关程度进行求和，得到一个模态间相关性奖励信号，根据该模态间相关性奖励信号，来优化模型。

结合语义相关样本特征组合的语义相关程度，来对模型进行优化，可有效确保模型在后续应用过程中能够准确地筛选出语义相关特征组合，以提高应用过程中模型的分类准确率。

本申请实施例提供的技术方案，在综合多媒体文件的多种模态对应的特征进行多媒体文件的分类过程中，挖掘出语义相关的特征组合。语义相关的特征组合的表达能力更强且价值更高，利用这种特征组合进行多媒体文件的分类，可有效提高多媒体文件的分类准确率。

在一种可实现的方案中，上述方法，还可包括：

204、通过计算构成所述语义相关样本特征组合的多个第二样本特征之间的相似度。

205、将所述相似度作为所述语义相关样本特征组合的语义相关程度。

上述204中，相似度可以为：多个第二样本特征之间的余弦相似度或多个第二样本特征之间的内积。其中，余弦相似度的计算方法可参见现有技术，在此不再详述。

上述204具体可以为：计算所述多个第二样本特征各自对应的向量之间的内积，作为所述相似度。

举例来说：多个第二样本特征包括：Q特征(q1、q2、q3)和P特征(p1、p2、p3)，内积为q1*p1+q2*p2+q3*p3。

进一步的，所述多个样本特征组合中包括第一样本特征组合。上述202中“根据所述多个样本特征组合，利用第一计算模型确定语义相关样本特征组合”，具体可采用如下步骤来实现：

2021、利用所述第一计算模型的注意力机制，从构成所述第一样本特征组合的多个第一样本特征中确定所述第一样本特征组合对应的注意力样本特征。

2022、所述第一样本特征组合对应的注意力样本特征的数量大于第一预设阈值时，组合所述第一样本特征组合对应的注意力样本特征，得到语义相关样本特征组合。

上述步骤2021和2022的具体实现可分别参照上述各实施例中“利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征”以及“所述第一特征组合对应的注意力特征的数量大于第一预设阈值时，组合所述第一特征组合对应的注意力特征，得到语义相关特征组合”的具体实现，在此不再赘述。

为了保证模型在后续应用过程中筛选出的注意力特征对筛选前的特征集的描述能力，需要在训练过程中，结合注意力样本特征的重构能力来优化模型。具体地，上述方法，还可包括：

206、确定所述多个样本特征组合对应的注意力样本特征对所述多个样本特征组合中样本特征的重构程度。

具体地，可根据多个样本特征组合对应的注意力样本特征，确定出多个模态信息各自对应的注意力特征集合。分别确定各个模态信息对应的注意力特征对各个模态信息对应的特征集的子重构程度；综合各个模态信息对应的子重构程度，得到上述重构程度。

其中，上述至少两种模态信息中包括第一模态信息。针对第一模态信息对应的特征集中第三特征，在第一模态信息对应的注意力特征集合中确定出与该第三特征最接近的注意力特征，计算第三特征与与该第三特征最接近的注意力特征之间的误差，最后对第一模态信息对应的特征集中每一个特征对应的误差进行求和，得到第一模态信息对应的子重构程度。该误差，例如可以为平分误差。

相应的，上述203中“结合所述语义相关样本特征组合的语义相关程度，优化所述第一计算模型”，具体为：

2031、结合所述语义相关样本特征组合的语义相关程度以及所述重构程度，优化所述第一计算模型。

其中，该重构程度即为模态内重构性奖励信号。其中，该模态内重构性奖励信号的作用为保证注意力特征对特征集的描述能力，尽可能保留有效信息。

进一步的，上述方法，还可包括：

207、根据所述语义相关样本特征组合以及第二样本特征组合对应的注意力样本特征，利用所述第一计算模型获得所述样本多媒体文件的预测分类结果。

其中，所述第二样本特征组合对应的注意力特征的数量小于或等于所述第一预设阈值；所述多个样本特征组合中包括所述第二样本特征组合。

208、根据所述预测分类结果与所述样本多媒体文件的期望分类结果，计算第一损失。

上述207的具体实现可参照上述各实施例中“结合所述语义相关特征组合以及第二特征组合对应的注意力特征，利用所述第一计算模型对所述多媒体文件进行分类”的具体实现，在此不再赘述。

上述208中，预测分类结果中可包括：样本多媒体文件属于多种类别的概率。样本多媒体文件的期望分类结果中包括期望类别。具体可采用交叉熵损失函数来计算第一损失。

在一种可实现的方案中，上述203中“结合所述语义相关样本特征组合的语义相关程度，优化所述第一计算模型”，具体为：结合所述语义相关样本特征组合的语义相关程度以及所述第一损失，优化所述第一计算模型。可将多个语义相关样本特征组合对应的语义相关程度进行求和，得到模态间相关性奖励信号；将第一损失的负数作为监督奖励信号。根据模态间相关性奖励信号和监督奖励信号，优化模型。

在另一种可实现的方案中，上述2031中“结合所述语义相关样本特征组合的语义相关程度以及所述重构程度，优化所述第一计算模型”，具体为：结合所述语义相关样本特征组合的语义相关程度、所述重构程度以及所述第一损失，优化所述第一计算模型。具体地，根据上述各实施例提及的模态间相关性奖励信号、模态内重构性奖励信号以及监督奖励信号，优化模型。

综上所述，针对实际问题，为模型设计了模态间相关性，模态内重构性以及交叉熵分类损失三种奖励信号用于模型优化，实验表明每一种奖励信号都可带来不同程度的性能提升。

下面将介绍一种神经网络系统。该神经网络系统包括：

进一步的，上述系统还可包括：

所述至少一个第二网络层，用于结合所述语义相关特征组合，对所述多媒体文件进行分类。

所述至少一个第一网络层和至少一个第二网络层的具体处理过程可参见上述各实施例中相应内容，在此不再赘述。

进一步的，所述至少两种模态信息中包括图像模态信息；上述系统，还包括：

至少一个第三网络层，将所述图像模态信息中多个视频帧输入至图像特征提取模型，提取得到所述多个视频帧各自对应的图像特征；

所述多个视频帧各自对应的图像特征构成所述图像模态信息对应的特征集。

进一步的，所述至少两种模态信息中包括文本模态信息；上述系统，还包括：

至少一个第四网络层，将所述文本模态信息中多个文本词输入至文本词特征提取模型，提取得到所述多个文本词各自对应的文本词特征；

所述多个文本词各自对应的文本词特征构成所述文本模态信息对应的特征集。

其中，所述至少一个第三网络层和所述至少一个第四网络层分别将其得到的特征集输入至所述至少一个第一网络层，以供所述至少一个第一网络层确定出所述多个特征组合。

这里需要说明的是：本申请实施例提供的所述系统中各网络层实现的步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述系统中各网络层除了实现上述各步骤以外，还可实现上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。其中，网络层具体指的是神经网络层。

下面将结合图6所示的本申请实施例提供的技术方案的处理流程概略图来详细介绍本申请实施例提供的技术方案。如图6所示：

通过卷积神经网络401对视频帧序列中每一视频帧进行特征提取，得到每一个视频帧对应的视频帧特征，以组成图像模态对应的第一特征集。

通过快速文本分类器402对文本词序列中每一个文本词进行特征提取，得到每一文本词对应的文本词特征，以组成文本模态对应的第二特征集。

从第一特征集中采样得到一视频帧特征ψ_ν(·)(也即图像特征)，并通过第一计算模型中图像模态对应的第一个第四全连接层403对视频帧特征ψ_ν(·)进行线性映射处理，得到处理后的视频帧特征。

从第二特征集中采样得到一视频帧特征ψ_x(·)，并通过第一计算模型中文本模态对应的第二个第四全连接层404对文本词特征ψ_x(·)进行线性映射处理，得到处理后的文本词特征。

将处理后的文本词特征和视频帧特征进行融合得到的特征S_t输入至第一全连接层405得到第一向量W。

、将第一向量W输入至第一归一化层，得到第二向量P，P中包括00、01、10、以及11各模式结果对应的概率p_t。并基于多项式分布的假设，根据00、01、10、以及11各模式结果对应的概率p_t确定出目标模式结果a_t，即生成决策动作406。

生成“动作”序列A＝{a_t▏t＝1，…,T}，其中，T为最大采样次数，根据目标模式结果a_t，可确定出注意力特征407。

将“动作”序列中每一个动作对应的注意力特征输入至特征序列聚合网络408中，得到聚合特征。根据聚合特征即可得到视频文件的分类结果。

此外，还可结合模态间相关性奖励信号Rcorr以及模态内重构性奖励Rrep、以及监督奖励信号Rsup进行模型优化。

图9示出了本申请又一实施例提供的信息处理方法的流程示意图。如图9所示，该方法包括：

901、确定目标用户偏好的视频类别；

902、根据目标用户偏好的视频类别，在查询库中查询目标视频文件。

903、将所述目标视频文件发送给所述目标用户。

上述901中，可根据目标用户的用户行为日志，来分析目标用户偏好的视频类别。例如：根据目标用户历史上观看过的视频文件、观看时长以及观看频率等行为信息，来分析目标用户偏好的视频类别。

上述902中，所述查询库中建立有多个视频文件中各视频文件及其所属视频类别之间的对应关系。根据目标用户偏好的视频类别以及对应关系，即可在查询库中查询得到目标视频文件。

上述903中，将目标视频文件推荐给目标用户。例如：在目标用户打开某一界面(例如：推荐界面)时，将目标视频文件的相关信息显示在界面以供目标用户选择。

上述方法，还包括：

904、根据所述视频文件中至少两种模态信息各自对应的特征集，确定多个特征组合。

其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集；

905、根据所述多个特征组合，利用第一计算模型确定语义相关特征组合。

906、结合所述语义相关特征组合，利用所述第一计算模型对所述视频文件进行分类，得到所述视频文件所属视频类别。

在本实施例中，多媒体文件具体为视频文件。对视频文件进行分类的具体实现可参照上述各实施例中相应内容，在此不再赘述。

在本实施例中，根据视频文件中至少两种模态信息各自对应的特征集，确定多个特征组合，再根据所述多个特征组合，利用第一计算模型确定语义相关特征组合。语义相关的特征组合的表达能力更强且价值更高，利用这种特征组合进行视频文件的分类，可有效提高视频文件的分类准确率，进而有效提高了视频推荐的精准度。

图10示出了本申请又一实施例提供的信息处理方法的流程示意图。该方法，包括：

1001、根据用户输入的查询信息，确定待查询视频类别。

1002、根据所述待查询视频类别，在查询库中查询目标视频文件。

1003、将所述目标视频文件作为查询结果发送给所述用户。

上述1001中，用户输入的查询信息可以是语音信息或文字信息。查询信息为语音信息时，对语音信息进行语音识别，得到文字信息；根据文字信息确定待查询视频类别。例如：用户输入语音“我要看综艺类节目”，对语音进行语音识别得到文字信息，并对文字信息进行分词处理，得到“综艺类”这个待查询视频类别。

查询信息为文字信息时，可直接根据文字信息来确定待查询视频类别。

其中，语音识别和分词处理等技术可参照现有技术，在此不再详述。

上述1002中，所述查询库中建立有多个视频文件中各视频文件及其所属视频类别之间的对应关系。根据待查询视频类别以及该对应关系，即可查询得到目标视频文件。

上述1003中，将所述目标视频文件作为查询结果发送给所述用户的用户端，在用户端的搜索结果界面进行展示。

上述方法，还包括：

目前，所有的车辆上都会安装行车记录仪，行车记录仪在车辆行驶或者停放过程中，可以记录相关影像和声音的仪器。由于行车记录仪是不间断记录相关影像和声音，其记录下的视频数据量是非常庞大的。在这庞大的视频数据量中查询所需的一小段视频，是比较困难的。为了方便用户查询，可将行车记录仪所记录的视频按照等时间段或不等时间段进行划分形成多个视频文件，即视频文件为行车记录仪所记录的视频片段。按照上述视频文件分类方法对每个视频文件进行分类，得到每个视频文件所属视频类别。这里的分类具体可以指的是对视频文件中所记录的事故事件进行分类，例如：可将视频文件分类为强盗类、划痕类、追尾类、自然灾害类、静默类(即无事故发生)等等。再在查询库中建立每个视频文件与其所属视频类别之间的对应关系。这样，后续用户需要进行查询时，只需要输入相应的查询信息即可在庞大的视频数据量中查找到想要的视频片段。

此外，随着互联网技术的不断发展，视频会议成为很多企业选择的一种交流方式。视频会议过程中会进行视频录制，得到视频会议记录视频。通常视频会议记录视频的时长比较长，用户若想从视频会议记录视频中查找到想要的视频片段，也是比较耗费时间的事情。为了方便用户查询，可将视频会议记录视频按照等时间段或不等时间段进行划分形成多个视频文件，即视频文件为视频会议记录视频片段。按照上述视频文件分类方法对每个视频文件进行分类，得到每个视频文件所属视频类别。这里的分类具体可以指的是对视频文件中所记录的讨论话题进行分类，具体可根据业务需要来设定具体类别。再在查询库中建立每个视频文件与其所属视频类别之间的对应关系。这样，后续用户需要进行查询时，只需要输入相应的查询信息即可在庞大的视频数据量中查找到想要的视频片段。

图3示出了本申请一实施例提供的多媒体文件分类装置的结构框图。如图3所示，该装置包括：第一确定模块301、第二确定模块302以及第三分类模块303。其中，

第一确定模块301，用于根据多媒体文件中至少两种模态信息各自对应的特征集，确定多个特征组合。

第二确定模块302，用于根据所述多个特征组合，利用第一计算模型确定语义相关特征组合。

第一分类模块303，用于结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类。

其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集；所述多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息。

进一步的，所述多个特征组合中包括第一特征组合；

所述第二确定模块302，具体用于：

利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征；

所述第一特征组合对应的注意力特征的数量大于第一预设阈值时，组合所述第一特征组合对应的注意力特征，得到语义相关特征组合。

进一步的，所述第二确定模块302，具体用于：

将所述多个第一特征进行融合，得到第一融合特征；

根据所述第一融合特征，利用所述第一计算模型计算所述多个第一特征对应的多种可能被选结果各自对应的概率；

根据所述多种可能被选结果各自对应的概率，确定出目标被选结果；

根据所述目标被选结果，确定所述第一特征组合对应的注意力特征。

进一步的，所述第二确定模块302，具体用于：

将所述多种可能被选结果各自对应的概率作为多元正态分布的概率密度函数的输入，执行所述概率密度函数得到输出结果；

根据所述输出结果，从所述多种可能被选结果中确定出目标被选结果。

进一步的，所述第二确定模块302，具体用于：将所述多个第一特征进行拼接，得到第一融合特征。

进一步的，所述第二确定模块302，具体用于：

将所述第一融合特征作为所述第一计算模型中的第一全连接层的输入，得到所述第一全连接层输出的第一向量；

将所述第一向量作为所述第一计算模型中的第一归一化层的输入，得到所述第一归一化层输出的第二向量；

根据所述第二向量，确定出所述多种可能被选结果各自对应的概率。

进一步的，所述多个第一特征中每一个特征均具有被选和不被选的两种可能；

所述装置，还可包括：

第三确定模块，用于依据所述多个第一特征中各特征所具有的被选和不被选的两种可能，确定所述多个第一特征对应的所述多种可能被选结果。

进一步的，第一分类模块303，具体用于：

结合所述语义相关特征组合以及第二特征组合对应的注意力特征，利用所述第一计算模型对所述多媒体文件进行分类；

进一步的，第一分类模块303，具体用于：

根据构成所述语义相关特征组合的多个第二特征，确定第二融合特征；

根据所述第二特征组合对应的注意力特征，确定第三融合特征；

将所述第二融合特征和所述第三融合特征以序列的形式输入至所述第一计算模型中的特征序列聚合网络，得到聚合特征；

将所述聚合特征输入至所述第一计算模型中的分类器，得到所述多媒体文件的分类结果。

进一步的，所述多个特征组合中包括第一特征组合；

所述第一确定模态，具体用于：

分别从所述至少两种模态信息各自对应的特征集中每一个特征集中选取一特征；

将从每一个特征集中选取出的特征进行线性映射处理，得到多个相同维度的特征；

将所述多个相同维度的特征组合成所述第三特征组合。

进一步的，所述至少两种模态信息中包括图像模态信息；上述装置，还包括：

第一特征提取模块，用于将所述图像模态信息中多个视频帧输入至图像特征提取模型，提取得到所述多个视频帧各自对应的图像特征；

进一步的，所述至少两种模态信息中包括文本模态信息；上述装置，还包括：

第二特征提取模块，用于将所述文本模态信息中多个文本词输入至文本词特征提取模型，提取得到所述多个文本词各自对应的文本词特征；

这里需要说明的是：上述实施例提供的多媒体文件分类装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图8示出了本申请又实施例提供的信息处理装置的结构框图。如图8所示，该装置包括：第一确定模块301和第二确定模块302。其中，

本申请实施例提供的技术方案，在综合多媒体文件的多种模态对应的特征进行多媒体文件的分类过程中，挖掘出语义相关的特征组合。语义相关的特征组合的表达能力更强且价值更高，后续利用这种特征组合进行多媒体文件的分类，可有效提高多媒体文件的分类准确率。

图4示出了本申请一实施例提供的模型训练装置的结构框图。如图4所示，该装置包括：第四确定模块401、第五确定模块402以及第一优化模块403。其中，

第四确定模块401，用于根据样本多媒体文件中至少两种模态信息各自对应的样本特征集，确定多个样本特征组合；其中，构成所述样本特征组合的多个样本特征来自于不同模态信息对应的样本特征集；

第五确定模块402，用于根据所述多个样本特征组合，利用第一计算模型确定语义相关样本特征组合；

第一优化模块403，用于结合所述语义相关样本特征组合的语义相关程度，优化所述第一计算模型；

进一步的，上述装置，还可包括：

第一计算模块，用于计算构成所述语义相关样本特征组合的多个第二样本特征之间的相似度；将所述相似度作为所述语义相关样本特征组合的语义相关程度。

进一步的，所述第一计算模块，具体用于：

计算所述多个第二样本特征各自对应的向量之间的内积，作为所述相似度。

进一步的，所述多个样本特征组合中包括第一样本特征组合；

所述第五确定模块402，具体用于：

利用所述第一计算模型的注意力机制，从构成所述第一样本特征组合的多个第一样本特征中确定所述第一样本特征组合对应的注意力样本特征；

所述第一样本特征组合对应的注意力样本特征的数量大于第一预设阈值时，组合所述第一样本特征组合对应的注意力样本特征，得到语义相关样本特征组合。

上述装置，还可包括：

第六确定模块，用于确定所述多个样本特征组合对应的注意力样本特征对所述多个样本特征组合中样本特征的重构程度；

所述第一优化模块403，具体用于：

结合所述语义相关样本特征组合的语义相关程度以及所述重构程度，优化所述第一计算模型。

进一步的，上述装置，还可包括：

第二分类模块，根据所述语义相关样本特征组合以及第二样本特征组合对应的注意力样本特征，利用所述第一计算模型获得所述样本多媒体文件的预测分类结果；其中，所述第二样本特征组合对应的注意力特征的数量小于或等于所述第一预设阈值；所述多个样本特征组合中包括所述第二样本特征组合；

第二计算模块，用于根据所述预测分类结果与所述样本多媒体文件的期望分类结果，计算第一损失；

相应的，所述第一优化模块403，具体用于：结合所述语义相关样本特征组合的语义相关程度、所述重构程度以及所述第一损失，优化所述第一计算模型。

这里需要说明的是：上述实施例提供的模型训练装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图11示出了本申请一实施例提供的视频推荐装置的结构框图。如图11所示，该装置包括：第七确定模块1201、第一查询模块1202、第一发送模块1203。其中，

第七确定模块1201，用于确定目标用户偏好的视频类别；

第一查询模块1202，用于根据目标用户偏好的视频类别，在查询库中查询目标视频文件；其中，所述查询库中建立有多个视频文件中各视频文件及其所属视频类别之间的对应关系；

第一发送模块1203，用于将所述目标视频文件发送给所述目标用户；

上述装置，还包括：

第一确定模块301，用于根据所述视频文件中至少两种模态信息各自对应的特征集，确定多个特征组合；其中，构成所述特征组合的多个特征来自于不同模态信息对应的特征集；

第二确定模块302，用于根据所述多个特征组合，利用第一计算模型确定语义相关特征组合；

第一分类模块303，用于结合所述语义相关特征组合，利用所述第一计算模型对所述视频文件进行分类，得到所述视频文件所属视频类别；

这里需要说明的是：上述实施例提供的视频推荐装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理及技术效果可参见上述各方法实施例中的相应内容，此处不再赘述。

图11示出了本申请一实施例提供的视频查询装置的结构框图。如图11所示，该装置包括：第七确定模块1201、第一查询模块1202、第一发送模块1203。其中，

第七确定模块1201，用于根据用户输入的查询信息，确定待查询视频类别；

第一查询模块1202，用于根据所述待查询视频类别，在查询库中查询目标视频文件；其中，所述查询库中建立有多个视频文件中各视频文件及其所属视频类别之间的对应关系；

第一发送模块1203，用于将所述目标视频文件作为查询结果发送给所述用户；

上述装置，还包括：

进一步的，所述视频文件为行车记录仪所记录的视频片段。

进一步的，所述视频文件为视频会议记录视频片段。

这里需要说明的是：上述实施例提供的视频查询装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理及技术效果可参见上述各方法实施例中的相应内容，此处不再赘述。

图5示出了本申请一实施例提供的电子设备的结构示意图。如图5所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以用于：

其中，处理器1102在执行存储器1101中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

进一步，如图5所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的多媒体文件分类方法步骤或功能。

其中，所述样本多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息；所述第一计算模型用于对多媒体文件进行分类。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的模型训练方法步骤或功能。

确定目标用户偏好的视频类别；

将所述目标视频文件发送给所述目标用户；

所述处理器1102，还用于：

根据用户输入的查询信息，确定待查询视频类别；

将所述目标视频文件作为查询结果发送给所述用户；

所述处理器1102，还用于：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多媒体文件分类方法，其特征在于，包括：

其中，所述多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息；

所述多个特征组合中包括第一特征组合；

根据所述多个特征组合，利用第一计算模型确定语义相关特征组合，包括：

2.根据权利要求1所述的方法，其特征在于，利用所述第一计算模型的注意力机制，从构成所述第一特征组合的多个第一特征中确定所述第一特征组合对应的注意力特征，包括：

将所述多个第一特征进行融合，得到第一融合特征；

3.根据权利要求2所述的方法，其特征在于，根据所述多种可能被选结果各自对应的概率，确定出目标被选结果，包括：

4.根据权利要求2或3所述的方法，其特征在于，将所述多个第一特征进行融合，得到第一融合特征，包括：

将所述多个第一特征进行拼接，得到第一融合特征。

5.根据权利要求2或3所述的方法，其特征在于，根据所述第一融合特征，利用所述第一计算模型计算所述多个第一特征对应的多种可能被选结果各自对应的概率，包括：

6.根据权利要求2或3所述的方法，其特征在于，所述多个第一特征中每一个特征均具有被选和不被选的两种可能；

所述方法，还包括：

依据所述多个第一特征中各特征所具有的被选和不被选的两种可能，确定所述多个第一特征对应的所述多种可能被选结果。

7.根据权利要求1至3中任一项所述的方法，其特征在于，结合所述语义相关特征组合，利用所述第一计算模型对所述多媒体文件进行分类，包括：

8.根据权利要求7所述的方法，其特征在于，结合所述语义相关特征组合以及第二特征组合对应的注意力特征，利用所述第一计算模型对所述多媒体文件进行分类，包括：

9.根据权利要求1至3中任一项所述的方法，其特征在于，所述多个特征组合中包括第三特征组合；

根据多媒体文件中至少两种模态信息各自对应的特征集，确定所述第三特征组合，包括：

通过采样的方式，分别从所述至少两种模态信息各自对应的特征集中每一个特征集中选取一特征；

将所述多个相同维度的特征组合成所述第三特征组合。

10.根据权利要求1至3中任一项所述的方法，其特征在于，所述至少两种模态信息中包括图像模态信息；

上述方法，还包括：

将所述图像模态信息中多个视频帧输入至图像特征提取模型，提取得到所述多个视频帧各自对应的图像特征；

11.根据权利要求1至3中任一项所述的方法，其特征在于，所述至少两种模态信息中包括文本模态信息；

上述方法，还包括：

将所述文本模态信息中多个文本词输入至文本词特征提取模型，提取得到所述多个文本词各自对应的文本词特征；

12.一种信息处理方法，其特征在于，包括：

所述多个特征组合中包括第一特征组合；

13.一种模型训练方法，其特征在于，包括：

其中，所述样本多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息；所述第一计算模型用于对目标多媒体文件进行识别；

所述多个样本特征组合中包括第一样本特征组合；

根据所述多个样本特征组合，利用第一计算模型确定语义相关样本特征组合，包括：

14.根据权利要求13所述的方法，其特征在于，还包括：

计算构成所述语义相关样本特征组合的多个第二样本特征之间的相似度；

将所述相似度作为所述语义相关样本特征组合的语义相关程度。

15.根据权利要求14所述的方法，其特征在于，计算构成所述语义相关样本特征组合的多个第二样本特征之间的相似度，包括：

16.根据权利要求13所述的方法，其特征在于，还包括：

确定所述多个样本特征组合对应的注意力样本特征对所述多个样本特征组合中样本特征的重构程度；

结合所述语义相关样本特征组合的语义相关程度，优化所述第一计算模型，包括：

17.根据权利要求16所述的方法，其特征在于，还包括：

根据所述语义相关样本特征组合以及第二样本特征组合对应的注意力样本特征，利用所述第一计算模型获得所述样本多媒体文件的预测分类结果；其中，所述第二样本特征组合对应的注意力特征的数量小于或等于所述第一预设阈值；所述多个样本特征组合中包括所述第二样本特征组合；

根据所述预测分类结果与所述样本多媒体文件的期望分类结果，计算第一损失；

相应的，结合所述语义相关样本特征组合的语义相关程度以及所述重构程度，优化所述第一计算模型，包括：

结合所述语义相关样本特征组合的语义相关程度、所述重构程度以及所述第一损失，优化所述第一计算模型。

18.一种神经网络系统，其特征在于，包括：

所述多个特征组合中包括第一特征组合；

19.根据权利要求18所述的系统，其特征在于，还包括：

至少一个第二网络层，用于结合所述语义相关特征组合，对所述多媒体文件进行分类。

20.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述多个特征组合中包括第一特征组合；

21.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述多个特征组合中包括第一特征组合；

22.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

其中，所述样本多媒体文件由多种模态信息构成，所述多种模态信息中包括文本模态、图像模态、语音模态中的至少两种模态信息；所述第一计算模型用于对多媒体文件进行识别；

所述多个样本特征组合中包括第一样本特征组合；

23.一种信息处理方法，其特征在于，包括：

确定目标用户偏好的视频类别；

将所述目标视频文件发送给所述目标用户；

上述方法，还包括：

其中，所述视频文件由多种模态信息构成，所述多种模态信息中包括文本模态、语音模态中的至少一种模态信息以及图像模态信息；

所述多个特征组合中包括第一特征组合；

24.一种信息处理方法，其特征在于，包括：

根据用户输入的查询信息，确定待查询视频类别；

将所述目标视频文件作为查询结果发送给所述用户；

上述方法，还包括：

所述多个特征组合中包括第一特征组合；

25.根据权利要求24所述的方法，其特征在于，所述视频文件为行车记录仪所记录的视频片段。

26.根据权利要求24所述的方法，其特征在于，所述视频文件为视频会议记录视频片段。