CN111274443A

CN111274443A - 视频片段描述的生成方法、装置、电子设备及存储介质

Info

Publication number: CN111274443A
Application number: CN202010026651.3A
Authority: CN
Inventors: 龙翔; 何栋梁; 李甫; 赵翔; 林天威; 孙昊; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-12
Anticipated expiration: 2040-01-10
Also published as: US11615140B2; KR20210091055A; KR102416521B1; EP3848818A1; JP2021111400A; JP7164077B2; US20210216783A1; CN111274443B

Abstract

本申请公开了视频片段描述的生成方法、装置、电子设备及存储介质，涉及视频处理技术领域。具体实现方案为：采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；本申请通过采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；然后再采用视频片段描述模块对各视频片段进行描述，这样，可以避免对所有的视频提议片段进行描述，可以仅对筛选后的与视频的相关性较强的、适合描述的视频片段进行描述，去除不适合描述的视频片段的描述对视频描述的干扰，保证最终的视频片段描述的准确性，提高视频片段描述的质量。

Description

视频片段描述的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及视频处理技术，具体涉及一种视频片段描述的生成方法、装置、电子设备及存储介质。

背景技术

通常情况下，视频片段描述生成技术有很多重要应用，例如为视频检索提供依据，帮助视觉障碍人士观看视频，辅助智能弹幕生成等等。

视频片段描述生成主要是通过分析、理解视频内的图像信息、运动信息、音频信息，给视频内的多个片段分别生成视频内容的文本描述。其中多个片段可为由算法预测出的适合生成描述的片段，也可以是人为指定好的特定片段。现有的视频片段描述生成一般分为两个独立的阶段，第一个阶段预测适合生成描述的视频内容片段，第二阶段针对每个片段分别生成描述。具体地，在第一个阶段中，使用人类标注好的每个视频对应的适合生成描述的片段，训练一个视频片段检测模型。该视频片段检测模型输入为整个视频，输出为多个视频片段的起点和终点。然后，在第二个阶段中，将视频按照人类标注好的视频片段进行切分，对每个视频片段标注视频的对应描述，训练一个视频片段描述生成模型。该视频片段描述生成模型输入为单个视频片段，输出为单个视频片段对应的描述。

现有的视频片段描述生成过程中，对于视频片段检测模型检测到的所有视频片段，都由视频片段描述生成模型生成相应的描述。但是视频片段检测模型检测到的所有视频片段并不一定都是与当前视频的相关性比较强的、适合描述的片段，造成最终的视频片段描述不准确。

发明内容

为了解决上述技术问题，本申请提供一种视频片段描述的生成方法、装置、电子设备及存储介质，用于提高视频片段描述的准确性。

一方面，本申请提供一种视频片段描述的生成方法，其特征在于，包括：

采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；

采用所述视频描述模型中的视频片段描述模块对各视频片段进行描述。

进一步可选地，如上所述的方法中，所述视频描述模型中的所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

进一步可选地，如上所述的方法中，采用视频描述模型中的视频片段筛选模块对预先获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段之前，所述方法还包括：

采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段；或者

获取通过人工方式从所述待分析的视频中提取的所述多个视频提议片段；

进一步地，若所述视频描述模型中还包括所述视频片段提议模块，所述视频描述模型中的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

进一步可选地，如上所述的方法中，采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段，包括：

提取所述待分析的视频中的各视频帧；

采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，分别提取各所述视频帧中的视频帧特征，得到对应的视频帧特征序列，共得到至少一个视频帧特征序列；

对于各所述视频帧特征序列，采用预先训练的置信度统计模型，获取对应的片段置信度图，共得到至少一种片段置信度图；

根据所述至少一种片段置信度图，获取所述待分析的视频中的多个视频提议片段。

进一步可选地，如上所述的方法中，根据所述至少一种片段置信度图，获取所述待分析的视频中的多个视频提议片段，包括：

若仅包括一种所述片段置信度图时，根据所述片段置信度图中各所述视频片段的置信度，获取置信度前topN个视频片段，作为对应的所述视频提议片段；

若包括至少两种所述片段置信度图时，将所述至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度；根据融合各所述片段的置信度，获取置信度前topN个视频片段，作为对应的所述视频提议片段。

进一步可选地，如上所述的方法中，采用所述视频描述模型中的视频片段筛选模块对所述多个视频提议片段进行筛选，获取适合描述的多个视频片段，包括：

获取所述待分析的视频的特征；

获取各所述视频提议片段的特征；

采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征，从所述多个视频提议片段中筛选出适合描述的所述多个视频片段。

进一步可选地，如上所述的方法中，采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征，从所述多个视频提议片段中筛选出适合描述的所述多个视频片段，包括：

对于所述多个视频提议片段中的各所述视频提议片段，将所述视频提议片段的特征和所述待分析的视频的特征，输入至所述分类模型中，并获取所述分类模型输出的概率值；

判断输出的所述概率值是否大于预设概率阈值；

若是，确定所述视频提议片段为适合描述的视频片段，共得到适合描述的所述多个视频片段。

另一方面，本发明还提供了一种视频描述模型的训练方法，包括：

对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练；

对经过预训练后的所述视频片段筛选模块和所述视频片段描述模块进行联合训练。

进一步可选地，如上所述的方法中，若所述视频描述模型中还包括视频片段提议模块时，所述方法还包括：

对所述视频描述模型中的视频片段提议模块独立进行预训练；

对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练。

进一步可选地，如上所述的方法中，对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练，包括：

依次保持所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块中任意两个固定不变，使用强化学习的方法训练其中第三个模块，直至三个模块均被训练。

再一方面，本申请还提供了一种视频片段描述的生成装置，包括：

视频片段筛选模块，用于对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；

视频片段描述模块，用于对各所述视频片段进行描述。

又一方面，本申请还提供了一种视频描述模型的训练装置，包括：

独立训练模块，用于对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练；

联合训练模块，用于对经过预训练后得到的所述视频片段筛选模块和所述视频片段描述模块进行联合训练。

再另一方面，本申请还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。

再又一方面，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；然后再采用视频片段描述模块对各视频片段进行描述，这样，可以避免对所有的视频提议片段进行描述，可以仅对筛选后的与视频的相关性较强的、适合描述的视频片段进行描述，去除不适合描述的视频片段的描述对视频描述的干扰，保证最终的视频片段描述的准确性，提高视频片段描述的质量。而且，由于引入了视频片段筛选模块来对视频片段进行筛选，可以使得视频提议片段更加专注于视频的召回，能够有助于获取到更加多样化的视频片段，提高后续的视频片段描述的多样化。

进一步地，本申请中，视频描述模型中的各模块预先经过联合训练，这样，可以避免现有技术中各模型独立训练，导致模型之间存在不适用性，视频片段描述不准确的技术问题，由于视频描述模型中的各模块预先经过联合训练，可以有效地保证视频描述模型中的各模块之间的兼容性，可以保证训练和应用的一致性，不会出现训练时效果好，应用时效果不理想的情况，能够保证应用时的整体效果的提升，有效地提高视频片段描述的质量和视频片段描述的准确性。

进一步地，本申请中，通过采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，获取至少一个视频帧特征序列；并采用预先训练的置信度统计模型获取至少一种片段置信度图；并根据至少一种片段置信度图，获取待分析的视频中的多个视频提议片段，该方案更加专注于提议片段的召回，能够获取到更加多样化的视频提议片段，保证视频提议片段的完备性和多样性，进而有助于后续获取更加全面和准确的视频片段的描述。

进一步地，本申请中，可以采用至少两种子模型，获取对应的视频帧特征序列，进而获取对应的片段置信度图，并将至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度，可以保证基于融合后的各片段的置信度提取视频提议片段时，视频提议片段的质量，进而保证适合描述的视频片段的质量，能够有效地提高最终的视频描述的准确性。

进一步地，本申请中，可以采用预先训练的分类模型、待分析的视频的特征以及各视频提议片段的特征，从多个视频提议片段中筛选出适合描述的多个视频片段，能够筛选出与视频相关性最强的视频提议片段，作为适合描述的视频片段，进而能够有效地提高视频描述的准确性，保证视频描述的质量。

进一步地，本申请中，在训练时，不仅对视频描述模型中的各模块进行独立预训练，还对各模块进行联合训练，避免仅独立训练后导致应用和训练不一致，出现视频片段描述不准确的问题，能够有效地提高视频片段描述的准确性和描述质量。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请第一实施例所示的视频片段描述的生成方法的流程图。

图2为本申请第二实施例所示的视频片段描述的生成方法的流程图。

图3为本申请第三实施例所示的视频描述模型的训练方法的流程图。

图4为本申请第四实施例所示的视频描述模型的训练方法的流程图。

图5为本申请第五实施例所示的视频片段描述的生成装置的结构图。

图6为本申请第六实施例所示的视频描述模型的训练装置的结构图。

图7是用来实现本申请实施例上述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请第一实施例所示的视频片段描述的生成方法的流程图。如图1所示，本实施例的视频片段描述的生成方法，具体可以包括如下步骤：

S101、采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；

S102、采用视频描述模型中的视频片段描述模块对各视频片段进行描述。

本实施例的视频片段描述的生成方法，具体的执行主体可以为视频片段描述的生成装置，该视频片段描述的生成装置可以为一个独立的电子实体，或者为采用软件集成的应用。使用时，向该视频片段描述的生成装置输入待分析的视频的多个视频提议片段，视频片段描述的生成装置可以从中获取适合描述的多个视频片段，并生成多个视频片段的描述，并输出。

本实施例中，该视频片段筛选模块和视频片段描述模块不是两个完全独立的模块，而共同属于视频描述模型。可选地，使用之前，本实施例中的视频描述模型中的视频片段筛选模块和视频片段描述模块经过联合训练。

进一步可选地，本实施例的从待分析的视频中获取到的多个视频提议片段可以包括：获取通过人工方式从待分析的视频中提取的多个视频提议片段；该实现方式中，具体可以由研发人员通过人工方式从待分析的视频中提取多个视频提议片段。

图2为本申请第二实施例所示的视频片段描述的生成方法的流程图。如图2所示，本实施例的视频片段描述的生成方法，具体可以包括如下步骤：

S201、采用预训练的视频描述模型中的视频片段提议模块从待分析的视频中提取多个视频提议片段；

S202、采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；

S203、采用视频描述模型中的视频片段描述模块对各视频片段进行描述。

与上述图1所示实施例相比，本实施例中以视频描述模型中包括视频片段提议模块、视频片段筛选模块和视频片段描述模块三个模块为例。且可选地，在本实施例中，视频描述模型中的视频片段提议模块、视频片段筛选模块和视频片段描述模块在使用之前，经过联合训练得到。

进一步可选地，本实施例的步骤S201采用预训练的视频描述模型中的视频片段提议模块从待分析的视频中提取多个视频提议片段，具体可以包括如下步骤：

(a1)提取待分析的视频中的各视频帧；

(b1)采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，分别提取各视频帧中的视频帧特征，得到对应的视频帧特征序列，共得到至少一个视频帧特征序列；

例如，本实施例的第一子模型、第二子模型和第三子模型分别为采用Kinetics数据集预训练的I3D-rgb模型、I3D-flow模型和时间段网络(Temporal Segment Networks；TSN)模型。

本实施例中，可以选取三个子模型中的至少一种，提取各视频帧的视频特征。对于同一个视频，采用其中一种子模型，对视频中按照先后顺序排列的各视频帧分别提取视频帧特征，构成该视频的视频帧特征序列。对于选取的每个子模型，均可以得到对应的一个视频帧特征序列。例如，若选取了三个子模型，则对应得到三个视频帧特征序列。

(c1)对于各视频帧特征序列，采用预先训练的置信度统计模型，获取对应的片段置信度图，共得到至少一种片段置信度图；

本实施例中，对于每个视频帧特征序列，还可以采用预先训练的置信度统计模型，将视频帧特征序列输入至该置信度统计模型中，该置信度统计模型可以输出该视频中的所有片段的置信度图。例如，一个视频为1000帧，可以包括的所有视频片段有1-2帧、1-3帧......1-1000帧、2-3帧、2-4帧……2-1000帧、3-4帧、3-5帧……3-1000帧，以此类推，直到999-1000帧。该置信度统计模型可以根据该待分析视频的所有视频帧的特征，生成该视频中的所有片段的置信图。该置信度统计模型可以采用边界匹配网络(Boundary-MatchingNetwork；BMN)模型来实现。

(d1)根据至少一种片段置信度图，获取待分析的视频中的多个视频提议片段。

若仅包括一种片段置信度图时，此时表示仅选取了一种子模型，此时可以根据片段置信度图中各视频片段的置信度，获取置信度前topN个视频片段，作为对应的视频提议片段。

可以理解为将各视频片段的置信度按照由大到小的顺序排列，然后从前向后取视频片段的置信度大的前TopN个置信度，并获取前TopN个置信度对应的N个视频片段，作为多个视频提议片段。本实施例中的N可以为大于1的正整数。

而若包括至少两种片段置信度图时，此时表示选取了两种以上子模型，此时可以将至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度；例如，每种子模型对应的片段置信度图的权重可以相同，也可以根据各自的重要性而不同。最后，根据融合各片段的置信度，获取置信度前topN个视频片段，作为对应的视频提议片段。

同理，可以将融合后的各视频片段的置信度按照由大到小的顺序排列，然后从前向后取融合后的视频片段的置信度大的前TopN个置信度，并获取前TopN个置信度对应的N个视频片段，作为多个视频提议片段。本实施例中的N可以为大于1的正整数。

对于获取到的每个视频提议片段，均可以采用该片段的起始位置和终止位置来标识。

进一步可选地，本实施例的步骤S202采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段，具体可以包括如下步骤：

(a2)获取待分析的视频的特征；

例如，本实施例中待分析的视频的特征，可以采用待分析的视频中按照前后顺序的各视频帧的特征拼接而成。而每个视频帧的特征可以基于上述步骤(b1)采用的子模型提取的对应的视频帧的特征来得到。例如若上述步骤(b1)中仅采用一种子模型来提取视频帧的特征，此时，可以仅采用该子模型提取的视频帧的特征，作为拼接视频特征时要使用的视频帧的特征。而若在上述步骤(b1)中采用两种或者三种子模型，此时可以将各子模型提取的视频帧的特征拼接，作为拼接视频特征时要使用的视频帧的特征。

例如，本实施例中，每一个视频帧的特征表示为1*1024，若一个视频中包括100帧，拼接时拼接起来的2维的视频特征可以为100*1024的矩阵。

(b2)获取各视频提议片段的特征；

同理，对于每个视频提议片段，可以采用该片段中按照前后顺序的各视频帧的特征拼接而成。对于每个视频帧的特征，参考上述步骤(a2)中的相关描述，在此不再赘述。

(c2)采用预先训练的分类模型、待分析的视频的特征以及各视频提议片段的特征，从多个视频提议片段中筛选出适合描述的多个视频片段。

例如，对于多个视频提议片段中的各视频提议片段，将视频提议片段的特征和待分析的视频的特征，输入至分类模型中，并获取分类模型输出的概率值；然后判断输出的概率值是否大于预设概率阈值；若是，确定视频提议片段为适合描述的视频片段，通过按照上述方式对多个视频提议片段进行筛选，共可以得到适合描述的多个视频片段。

本实施例的分类模型可以采用基于双向长短期记忆网络(Long Short-TermMemory；LSTM)和多层感知器的分类模型。该分类模型通过对视频的特征和视频提议片段的特征进行对比，可以将与视频较为接近的视频提议片段提取出来，作为适合描述的视频片段。

本实施例的步骤S203中采用视频描述模型中的视频片段描述模块对各视频片段进行描述。在该视频片段描述模块中，可以采用Kinetics数据集上预训练的senet152-TSN模型提取视频片段中各视频帧的特征，然后将各视频帧的特征按照在视频片段中的先后顺序依次输入至双向LSTM编码器和LSTM语言解码器中，由双向LSTM编码器和LSTM语言解码器生成并输出该视频片段的描述。若一个视频中包括适合描述的多个视频片段，按照上述方式，可以对应得到多个视频片段的描述。待分析的视频中的多个视频片段的描述，可以作为该视频的内容的整体描述。来表征该视频的信息。

本实施例的视频片段描述的生成方法，采用上述视频描述模型中的各模块来实现，因此，本实施例也可以称之为视频描述模型的使用方法。

上述实施例的视频片段描述的生成方法，采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；然后再采用视频片段描述模块对各视频片段进行描述，这样，可以避免对所有的视频提议片段进行描述，可以仅对筛选后的与视频的相关性较强的、适合描述的视频片段进行描述，去除不适合描述的视频片段的描述对视频描述的干扰，保证最终的视频片段描述的准确性，提高视频片段描述的质量。而且，由于引入了视频片段筛选模块来对视频片段进行筛选，可以使得视频提议片段更加专注于视频的召回，能够有助于获取到更加多样化的视频片段，提高后续的视频片段描述的多样化。

进一步地，上述实施例中，视频描述模型中的各模块预先经过联合训练，这样，可以避免现有技术中各模型独立训练，导致模型之间存在不适用性，视频片段描述不准确的技术问题，由于视频描述模型中的各模块预先经过联合训练，可以有效地保证视频描述模型中的各模块之间的兼容性，可以保证训练和应用的一致性，不会出现训练时效果好，应用时效果不理想的情况，能够保证应用时的整体效果的提升，有效地提高视频片段描述的质量和视频片段描述的准确性。

另外，上述实施例的视频片段描述的生成方法中，通过采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，获取至少一个视频帧特征序列；并采用预先训练的置信度统计模型获取至少一种片段置信度图；并根据至少一种片段置信度图，获取待分析的视频中的多个视频提议片段，该方案更加专注于提议片段的召回，能够获取到更加多样化的视频提议片段，保证视频提议片段的完备性和多样性，进而有助于后续获取更加全面和准确的视频片段的描述。

再者，上述实施例中，可以采用至少两种子模型，获取对应的视频帧特征序列，进而获取对应的片段置信度图，并将至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度，可以保证基于融合后的各片段的置信度提取视频提议片段时，视频提议片段的质量，进而保证适合描述的视频片段的质量，能够有效地提高最终的视频描述的准确性。

而且，上述实施例中，可以采用预先训练的分类模型、待分析的视频的特征以及各视频提议片段的特征，从多个视频提议片段中筛选出适合描述的多个视频片段，能够筛选出与视频相关性最强的视频提议片段，作为适合描述的视频片段，进而能够有效地提高视频描述的准确性，保证视频描述的质量。

图3为本申请第三实施例所示的视频描述模型的训练方法的流程图。如图3所示，本实施例的视频描述模型的训练方法，具体可以包括如下步骤：

S301、对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练；

S302、对经过预训练后的视频片段筛选模块和视频片段描述模块进行联合训练。

对应地，若视频描述模型中还包括视频片段提议模块时，此时对应地视频描述模型的训练方法，具体可以图4所示的第四实施例的视频描述模型的训练方法的流程图，具体可以包括如下步骤：

S401、对视频描述模型中的视频片段提议模块、视频片段筛选模块和视频片段描述模块各自独立进行预训练；

S402、对经过预训练后的视频片段提议模块、视频片段筛选模块和视频片段描述模块进行联合训练。

例如，在对视频片段提议模块、视频片段筛选模块和视频片段描述模块进行联合训练的过程中，可以依次保持视频片段提议模块、视频片段筛选模块和视频片段描述模块中任意两个固定不变，使用强化学习的方法训练其中第三个模块，直至三个模块分别被训练。

例如，本实施例的步骤S401对视频描述模型中的视频片段提议模块、视频片段筛选模块和视频片段描述模块各自独立进行预训练，具体可以包括如下步骤：

(a3)利用人为标注的训练视频中的片段起止点，独立训练视频片段提议模块；

具体地，训练前，可以预先采集多个训练视频。并人为为每个训练视频标注多个视频提议片段的起止点，则对应的人为标注的视频提议片段的置信度应该均为1。训练时，按照上述步骤(a1)-(d1)来执行，可以获获取到视频片段提议模块预测的最终的片段置信度图；然后判断预测的片段置信度图中人为标注的多个视频提议片段的置信度是否均为1，若不是，调整置信度统计模型即BMN模型的参数，使得预测的片段置信度图中人为标注的多个视频提议片段的置信度的值趋于1。按照上述方式，采用多个训练视频，不断地对视频片段提议模型训练，具体地是对视频片段提议模块中的BMN模型进行训练，直至在连续预设轮数的训练中预测的片段置信度图中人为标注的多个视频提议片段的置信度始终为1，此时，确定BMN模型的参数，确定BMN模型，进而确定视频片段提议模块。其中连续预设轮数可以为连续100、200、300或者其他整数轮数。

需要说明的是，根据上述步骤(a1)-(d1)，可以知道视频片段提议模块中不仅包括该BMN模型，还包括有I3D-rgb模型、I3D-flow模型和TSN模型中的至少一个。但是，在本实施例中，I3D-rgb模型、I3D-flow模型和TSN模型均是事先根据Kinetics数据集预训练得到的，在训练视频片段提议模块中，仅需要训练该BMN模型，而不需要再训练I3D-rgb模型、I3D-flow模型和TSN模型。

通过对视频片段提议模块的训练，可以使得固定数量N的提议片段下的召回最大。

(b3)采用人工标注多个训练视频中每个训练视频的N个视频提议片段中的K个适合描述的视频片段，独立训练视频片段筛选模块；

具体地，训练前，可以预先采集多个训练视频，按照上述实施例的方式，从每个训练视频中提取N个视频提议片段，并标注其中置信度最高的K个片段作为适合描述的片段。训练时，可以按照上述实施例的步骤(a2)-(c2)的方式，从N个视频提议片段中筛选出适合描述的K个视频片段。然后比对筛选出来的K个视频片段与预先标注的是否一致，若不一致，调整分类模型即基于双向LSTM和多层感知器的分类模型的参数，使得预测的和标注的一致。采用多条训练视频的信息，按照上述方式，不断地对基于双向LSTM和多层感知器的分类模型进行训练，直至在连续预设轮数的训练中，预测的和标注的始终一致，确定基于双向LSTM和多层感知器的分类模型的参数，确定基于双向LSTM和多层感知器的分类模型，进而确定视频片段筛选模块。

(c3)采用人工标注的多个训练视频中每个训练视频中的K个片段的描述，独立训练视频片段描述模块；

具体采用极大似然估计(Maximum Likelihood Estimate；MLE)方法训练视频片段描述模块。具体地，训练时，按照上述步骤S203的方式，将生成的描述中每个词和人为标注对应的词的概率进行比较，若相差较大，调整视频片段描述模块的参数，使得生成的描述，趋向于人为的描述。

由上述实施例可知，本实施例的视频片段描述模块包括有senet152-TSN模型、以及双向LSTM编码器和LSTM语言解码器，但是senet152-TSN模型是预先采用Kinetics数据集训练好的。而视频片段描述模块在训练时，仅需要调整双向LSTM编码器和LSTM语言解码器的参数。

上述步骤(a3)-(c3)为三个模块的独立训练，但是，在实际应用中，为了使得训练和应用一致，本实施例，在对三个模块进行独立训练之后，还要进行联合训练，以使得训练后的视频描述模型能够更加适用于应用的场景，保证应用时的效果。

例如，步骤S402对经过预训练后的视频片段提议模块、视频片段筛选模块和视频片段描述模块进行联合训练，具体可以包括如下步骤：

(a4)固定视频描述模型中的视频片段提议模块和视频片段筛选模块，用视频METEOR得分作为reward，使用强化学习的方法训练视频描述生成模块；

(b4)固定视频描述模型中的视频片段筛选模块和视频描述生成模块，用视频METEOR得分作为reward，使用强化学习的方法训练视频片段提议模块；

(c4)固定视频描述模型中的视频片段提议模块和视频描述生成模块，用视频METEOR得分作为reward，使用强化学习的方法训练视频片段筛选模块；

重复上述步骤(a4)-(c4)，直到视频METEOR得分到达最大，训练结束。

本实施例的步骤(a4)-(c4)在上述步骤(a3)-(c3)之后，此时视频片段提议模块、视频片段筛选模块和视频描述生成模块都经过独立的预训练。

本实施例中的Meteor得分，是基于视频描述生成模块为适合描述的多个视频片段生成的描述，而得到的一个视频的整体得分。例如，可以为基于Meteor 0.5IOU计算得到每个视频的Meteor得分，本实施例的步骤(a4)-(c4)的训练过程是以Meteor得分收敛作为训练的终止条件。

具体地，训练时，可以将每一条训练视频输入至视频描述模型，此时视频片段提议模块、视频片段筛选模块处理和视频描述生成模块处理后，可以输出该训练视频的多个适合描述的视频片段的描述。此时基于Meteor0.5IOU，可以根据获取到的多个视频片段的描述计算该视频的Meteor得分。同时，判断当前的Meteor得分相对于之前的训练视频计算得到的Meteor得分是否在增大的方向趋于收敛；例如，在步骤(a4)的训练中，若未收敛，固定视频片段提议模块和视频片段筛选模块的参数不变，调整视频描述生成模块的参数，使得计算得到的Meteor得分继续朝着增大的方向趋于收敛。在步骤(b4)的训练中，若未收敛，固定视频片段筛选模块和视频描述生成模块的参数不变，调整视频片段提议模块的参数，使得计算得到的Meteor得分继续朝着增大的方向趋于收敛。在步骤(c4)的训练中，若未收敛，固定视频片段提议模块和视频描述生成模块的参数不变，调整视频片段筛选模块的参数，使得计算得到的Meteor得分继续朝着增大的方向趋于收敛。

实际应用中，上述步骤(a4)训练完视频描述生成模块，视频METEOR得分收敛后，执行步骤(b4)，步骤(b4)中训练完视频片段提议模块，视频METEOR得分收敛后，执行步骤(c4)，步骤(c4)训练完视频片段筛选模块，视频METEOR得分收敛后，此时还需要返回步骤(a4)、(b4)、(c4)继续训练，直至重复训练后，每个步骤的视频的METEOR得分仍然收敛，三个模块的参数均不需要再做调整，此时联合训练结束，才确定视频片段提议模块、视频片段筛选模块处理和视频描述生成模块的参数。

实际应用中，上述步骤(a4)-(c4)的实施先后顺序也可以为其他，在此不做限定。

上述实施例中，均是以视频描述模型中包括视频片段提议模块、视频片段筛选模块和视频片段描述模块三个模块为例，来介绍视频描述模型的训练。而若实际应用中，采用人工方式提取视频中的提议片段，此时没有视频片段提议模块，视频描述模型中仅包括视频片段筛选模块和视频片段描述模块，其实现原理是相同的，在此不再赘述。

上述实施例的视频描述模型的训练方法，不仅对视频描述模型中的各模块进行独立预训练，还对各模块进行联合训练，避免仅独立训练后导致应用和训练不一致，出现视频片段描述不准确的问题，能够有效地提高视频片段描述的准确性和描述质量。

图5为本申请第五实施例所示的视频片段描述的生成装置的结构图。如图5所示，本实施例的视频片段描述的生成装置500，包括：

视频片段筛选模块501，用于对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；

视频片段描述模块502，用于对各视频片段进行描述。

本实施例的视频片段描述的生成装置即为上述实施例的视频描述模型。

进一步可选地，本实施例的视频片段描述的生成装置500中，视频描述模型中的视频片段筛选模块501和视频片段描述模块502经过联合训练得到。

进一步可选地，本实施例的视频片段描述的生成装置500中，还包括：

视频片段提议模块503，用于从待分析的视频中提取多个视频提议片段；或者

获取模块504，用于获取通过人工方式从待分析的视频中提取的多个视频提议片段；

进一步地，若还包括视频片段提议模块503时，视频片段提议模块503、视频片段筛选模块501和视频片段描述模块502经过联合训练得到。

进一步可选地，本实施例的视频片段描述的生成装置500中，视频片段提议模块503具体用于：

提取待分析的视频中的各视频帧；

采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，分别提取各视频帧中的视频帧特征，得到对应的视频帧特征序列，共得到至少一个视频帧特征序列；

对于各视频帧特征序列，采用预先训练的置信度统计模型，获取对应的片段置信度图，共得到至少一种片段置信度图；

根据至少一种片段置信度图，获取待分析的视频中的多个视频提议片段。

若仅包括一种片段置信度图时，根据片段置信度图中各视频片段的置信度，获取置信度前topN个视频片段，作为对应的视频提议片段；

若包括至少两种片段置信度图时，将至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度；根据融合各片段的置信度，获取置信度前topN个视频片段，作为对应的视频提议片段。

进一步可选地，本实施例的视频片段描述的生成装置500中，视频片段筛选模块502具体用于：

获取待分析的视频的特征；

获取各视频提议片段的特征；

采用预先训练的分类模型、待分析的视频的特征以及各视频提议片段的特征，从多个视频提议片段中筛选出适合描述的多个视频片段。

对于多个视频提议片段中的各视频提议片段，将视频提议片段的特征和待分析的视频的特征，输入至分类模型中，并获取分类模型输出的概率值；

判断输出的概率值是否大于预设概率阈值；

若是，确定视频提议片段为适合描述的视频片段，共得到适合描述的多个视频片段。

本实施例的视频片段描述的生成装置，通过采用上述模块实现视频片段描述的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6为本申请第六实施例所示的视频描述模型的训练装置的结构图。如图6所示，本实施例的视频描述模型的训练装置600，包括：

独立训练模块601，用于对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练；

联合训练模块602，用于对经过预训练后得到的视频片段筛选模块和视频片段描述模块进行联合训练。

进一步可选地，若视频描述模型中还包括视频片段提议模块时：

独立训练模块601，用于对视频描述模型中的视频片段提议模块独立进行预训练；

联合训练模块602，用于对经过预训练后的视频片段提议模块、视频片段筛选模块和视频片段描述模块进行联合训练。

进一步可选地，联合训练模块602，用于：

依次保持视频片段提议模块、视频片段筛选模块和视频片段描述模块中任意两个固定不变，使用强化学习的方法训练其中第三个模块，直至三个模块均被训练。

本实施例的视频描述模型的训练装置600，通过采用上述模块实现视频描述模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的实现上述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。例如，本实施例的电子设备可以用于实现上述视频片段描述的生成方法，或者也可以用于实现上述视频描述模型的训练方法。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频片段描述的生成方法、或者视频描述模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频片段描述的生成方法、或者视频描述模型的训练方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频片段描述的生成方法、或者视频描述模型的训练方法对应的程序指令/模块(例如，附图5所示的相关模块或者附图6所示的相关模块)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频片段描述的生成方法、或者视频描述模型的训练方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现视频片段描述的生成方法、或者视频描述模型的训练方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至实现视频片段描述的生成方法、或者视频描述模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现视频片段描述的生成方法、或者视频描述模型的训练方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与实现视频片段描述的生成方法、或者视频描述模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；然后再采用视频片段描述模块对各视频片段进行描述，这样，可以避免对所有的视频提议片段进行描述，可以仅对筛选后的与视频的相关性较强的、适合描述的视频片段进行描述，去除不适合描述的视频片段的描述对视频描述的干扰，保证最终的视频片段描述的准确性，提高视频片段描述的质量。而且，由于引入了视频片段筛选模块来对视频片段进行筛选，可以使得视频提议片段更加专注于视频的召回，能够有助于获取到更加多样化的视频片段，提高后续的视频片段描述的多样化。

进一步地，根据本申请实施例的技术方案，视频描述模型中的各模块预先经过联合训练，这样，可以避免现有技术中各模型独立训练，导致模型之间存在不适用性，视频片段描述不准确的技术问题，由于视频描述模型中的各模块预先经过联合训练，可以有效地保证视频描述模型中的各模块之间的兼容性，可以保证训练和应用的一致性，不会出现训练时效果好，应用时效果不理想的情况，能够保证应用时的整体效果的提升，有效地提高视频片段描述的质量和视频片段描述的准确性。

另外，根据本申请实施例的技术方案，通过采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，获取至少一个视频帧特征序列；并采用预先训练的置信度统计模型获取至少一种片段置信度图；并根据至少一种片段置信度图，获取待分析的视频中的多个视频提议片段，该方案更加专注于提议片段的召回，能够获取到更加多样化的视频提议片段，保证视频提议片段的完备性和多样性，进而有助于后续获取更加全面和准确的视频片段的描述。

再者，根据本申请实施例的技术方案，可以采用至少两种子模型，获取对应的视频帧特征序列，进而获取对应的片段置信度图，并将至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度，可以保证基于融合后的各片段的置信度提取视频提议片段时，视频提议片段的质量，进而保证适合描述的视频片段的质量，能够有效地提高最终的视频描述的准确性。

而且，根据本申请实施例的技术方案，可以采用预先训练的分类模型、待分析的视频的特征以及各视频提议片段的特征，从多个视频提议片段中筛选出适合描述的多个视频片段，能够筛选出与视频相关性最强的视频提议片段，作为适合描述的视频片段，进而能够有效地提高视频描述的准确性，保证视频描述的质量。

根据本申请实施例的技术方案，在训练时，不仅对视频描述模型中的各模块进行独立预训练，还对各模块进行联合训练，避免仅独立训练后导致应用和训练不一致，出现视频片段描述不准确的问题，能够有效地提高视频片段描述的准确性和描述质量。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频片段描述的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述视频描述模型中的所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

3.根据权利要求2所述的方法，其特征在于，采用视频描述模型中的视频片段筛选模块对预先获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段，包括：

提取所述待分析的视频中的各视频帧；

5.根据权利要求4所述的方法，其特征在于，根据所述至少一种片段置信度图，获取所述待分析的视频中的多个视频提议片段，包括：

6.根据权利要求4所述的方法，其特征在于，采用所述视频描述模型中的视频片段筛选模块对所述多个视频提议片段进行筛选，获取适合描述的多个视频片段，包括：

获取所述待分析的视频的特征；

获取各所述视频提议片段的特征；

7.根据权利要求6所述的方法，其特征在于，采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征，从所述多个视频提议片段中筛选出适合描述的所述多个视频片段，包括：

判断输出的所述概率值是否大于预设概率阈值；

8.一种视频描述模型的训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，若所述视频描述模型中还包括视频片段提议模块时，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练，包括：

11.一种视频片段描述的生成装置，其特征在于，包括：

视频片段描述模块，用于对各所述视频片段进行描述。

12.根据权利要求11所述的装置，其特征在于，所述视频描述模型中的所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

视频片段提议模块，用于从所述待分析的视频中提取所述多个视频提议片段；或者

获取模块，用于获取通过人工方式从所述待分析的视频中提取的所述多个视频提议片段；

进一步地，若还包括所述视频片段提议模块时，所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

14.根据权利要求13所述的装置，其特征在于，所述视频片段提议模块，具体用于：

提取所述待分析的视频中的各视频帧；

15.根据权利要求14所述的装置，其特征在于，所述视频片段提议模块，具体用于：

16.根据权利要求14所述的装置，其特征在于，所述视频片段筛选模块，具体用于：

获取所述待分析的视频的特征；

获取各所述视频提议片段的特征；

17.根据权利要求16所述的装置，其特征在于，所述视频片段筛选模块，具体用于：

判断输出的所述概率值是否大于预设概率阈值；

18.一种视频描述模型的训练装置，其特征在于，包括：

19.根据权利要求18所述的装置，其特征在于，若所述视频描述模型中还包括视频片段提议模块时：

所述独立训练模块，用于对所述视频描述模型中的视频片段提议模块独立进行预训练；

所述联合训练模块，用于对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练。

20.根据权利要求19所述的装置，其特征在于，所述联合训练模块，用于：

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7或者8-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7或者8-10中任一项所述的方法。