CN112183275A

CN112183275A - 视频描述信息的生成方法、装置及服务器

Info

Publication number: CN112183275A
Application number: CN202010995648.2A
Authority: CN
Inventors: 张胜卓; 田燕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2021-01-05
Anticipated expiration: 2040-09-21
Also published as: CN112183275B

Abstract

本公开关于一种视频描述信息的生成方法、装置及服务器，视频描述信息的生成方法包括：获取目标视频，目标视频包括以下至少两项特征信息：目标视频的标签、用于表征目标视频中音频的第一特征信息、用于表征目标视频的显示内容的第二特征信息；将至少两项特征信息进行融合，得到融合特征信息；将融合特征信息输入至目标视频描述生成模型，得到目标视频的视频描述信息。利用本公开的视频描述信息的生成方法，可以更加准确地生成目标视频的描述信息。

Description

视频描述信息的生成方法、装置及服务器

技术领域

本公开涉及人工智能领域，尤其涉及视频描述信息的生成方法、装置及服务器。

背景技术

随着互联网技术的发展，越来越多的用户将视频分享至网络上。但是，受限于视频描述及打字门槛比较高，有些用户不会对视频进行文本描述，这对视频的检索、审核以及推荐等后续处理带来比较大的障碍。

针对上述技术问题，在相关技术中采用如下方案来解决：首先提取视频的特征；然后将视频的特征输入至视频描述生成模型中，得到视频描述信息。由此，实现了利用视频描述生成模型自动生成视频描述信息。

但是，由于输入至视频描述生成模型中的视频特征比较单一，导致利用视频描述生成模型生成的视频描述信息无法准确地对视频进行描述。

发明内容

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频描述信息的生成方法，包括：

获取目标视频，所述目标视频包括以下至少两项特征信息：所述目标视频的标签、用于表征所述目标视频中音频的第一特征信息、用于表征所述目标视频的显示内容的第二特征信息；

将所述至少两项特征信息进行融合，得到融合特征信息；

将所述融合特征信息输入至目标视频描述生成模型，得到所述目标视频的视频描述信息。

在本公开的一个或多个实施例中，所述将所述至少两项特征信息进行融合，得到融合特征信息，包括：

获取至少两个特征矩阵，所述至少两个特征矩阵与所述至少两项特征信息一一对应，所述至少两个特征矩阵的行数或列数相同，且所述至少两个特征矩阵的行数或列数为N，N为大于1的整数；

将所述至少两个特征矩阵在第一方向上进行拼接，得到所述融合特征信息；其中，当所述至少两个特征矩阵的行数相同时，所述第一方向为行方向；当所述至少两个特征矩阵的列数相同时，所述第一方向为列方向。

在本公开的一个或多个实施例中，所述第一特征信息包括第一文本，所述第一文本包括以下至少一项：所述目标视频的语音对应的文本、所述目标视频的背景音乐的歌词文本、所述目标视频的背景音乐的音乐主题文本；

所述获取至少两个特征矩阵，包括：

在所述至少两个特征矩阵包括所述标签对应的特征矩阵或者所述第一文本对应的特征矩阵的情况下，根据目标特征信息，确定N个子特征，其中，当所述目标特征信息为所述标签时，所述N个子特征包括所述标签中的多个字符，当所述目标特征信息为所述第一文本时，所述N个子特征包括所述第一文本中的多个关键词；

将所述N个子特征分别对应的特征向量在垂直于所述第一方向的方向上进行拼接，得到所述标签对应的特征矩阵或者所述第一文本对应的特征矩阵。

在本公开的一个或多个实施例中，所述根据目标特征信息，确定N个子特征，包括：

当所述目标特征信息中的子特征数量小于N时，确定所述N个子特征为所述目标特征信息中的子特征以及至少一个空字符；

当所述目标特征信息中的子特征数量等于N时，确定所述N个子特征为所述目标特征信息中的子特征；

当所述目标特征信息中的子特征数量大于N时，确定所述N个子特征为所述目标特征信息中的部分子特征；

其中，所述目标特征信息中的一个子特征为所述标签中的一个字符或者所述第一文本中的一个关键词。

在本公开的一个或多个实施例中，所述获取至少两个特征矩阵，包括：

在所述至少两个特征矩阵包括所述第二特征信息对应的特征矩阵的情况下，在所述目标视频中抽取N帧图片；

获取所述N帧图片中每帧图片的显示内容特征，所述每帧图片的显示内容特征包括以下任意一项：M个概率值、光流图以及图片中的文本，其中，一个概率值为图片中存在M个目标对象中的一个目标对象的概率值，所述光流图表征图片与所述N帧图片中的上一帧图片的变化信息，M为大于1的整数；

将所述N帧图片的显示内容特征分别对应的特征向量在垂直于所述第一方向的方向上进行拼接，得到所述第二特征信息对应的特征矩阵。

在本公开的一个或多个实施例中，所述获取所述N帧图片中的每帧图片的显示内容特征，包括：

在所述每帧图片的显示内容特征包括光流图的情况下，将所述N帧图片按照在所述目标视频中的顺序排列；

对于所述N帧图片中的第1帧图片，确定所述第1帧图片与预定的空白图片之间的光流图；对于所述N帧图片中的第i帧图片，确定所述第i帧图片与第i-1帧图片之间的光流图，i∈[2，N]中的任意一个整数。

在本公开的一个或多个实施例中，在所述每帧图片的显示内容特征包括M个概率值的情况下，

所述将所述N帧图片的显示内容特征分别对应的特征向量在垂直于所述第一方向的方向上进行拼接之前，所述方法还包括：

对于所述N帧图片中的任意一帧目标图片，将所述目标图片的M个概率值在所述第一方向上排列得到的向量确定为所述目标图片对应的特征向量。

根据本公开实施例的第二方面，提供一种视频描述信息的生成装置，包括：

视频获取模块，被配置为获取目标视频，所述目标视频包括以下至少两项特征信息：所述目标视频的标签、用于表征所述目标视频中音频的第一特征信息、用于表征所述目标视频的显示内容的第二特征信息；

信息融合模块，被配置为将所述至少两项特征信息进行融合，得到融合特征信息；

信息输入模块，被配置为将所述融合特征信息输入至目标视频描述生成模型，得到所述目标视频的视频描述信息。

在本公开的一个或多个实施例中，所述信息融合模块包括：

矩阵获取单元，被配置为获取至少两个特征矩阵，所述至少两个特征矩阵与所述至少两项特征信息一一对应，所述至少两个特征矩阵的行数或列数相同，且所述至少两个特征矩阵的行数或列数为N，N为大于1的整数；

矩阵拼接单元，被配置为将所述至少两个特征矩阵在第一方向上进行拼接，得到所述融合特征信息；其中，当所述至少两个特征矩阵的行数相同时，所述第一方向为行方向；当所述至少两个特征矩阵的列数相同时，所述第一方向为列方向。

所述矩阵获取单元包括：

特征确定子单元，被配置为在所述至少两个特征矩阵包括所述标签对应的特征矩阵或者所述第一文本对应的特征矩阵的情况下，根据目标特征信息，确定N个子特征，其中，当所述目标特征信息为所述标签时，所述N个子特征包括所述标签中的多个字符，当所述目标特征信息为所述第一文本时，所述N个子特征包括所述第一文本中的多个关键词；

第一拼接子单元，被配置为将所述N个子特征分别对应的特征向量在垂直于所述第一方向的方向上进行拼接，得到所述标签对应的特征矩阵或者所述第一文本对应的特征矩阵。

在本公开的一个或多个实施例中，所述特征确定子单元包括：

第一子单元，被配置为当所述目标特征信息中的子特征数量小于N时，确定所述N个子特征为所述目标特征信息中的子特征以及至少一个空字符；

第二子单元，被配置为当所述目标特征信息中的子特征数量等于N时，确定所述N个子特征为所述目标特征信息中的子特征；

第三子单元，被配置为当所述目标特征信息中的子特征数量大于N时，确定所述N个子特征为所述目标特征信息中的部分子特征；

在本公开的一个或多个实施例中，所述矩阵获取单元包括：

图片抽取子单元，被配置为在所述至少两个特征矩阵包括所述第二特征信息对应的特征矩阵的情况下，在所述目标视频中抽取N帧图片；

特征获取子单元，被配置为获取所述N帧图片中每帧图片的显示内容特征，所述每帧图片的显示内容特征包括以下任意一项：M个概率值、光流图以及图片中的文本，其中，一个概率值为图片中存在M个目标对象中的一个目标对象的概率值，所述光流图表征图片与所述N帧图片中的上一帧图片的变化信息，M为大于1的整数；

第二拼接子单元，被配置为将所述N帧图片的显示内容特征分别对应的特征向量在垂直于所述第一方向的方向上进行拼接，得到所述第二特征信息对应的特征矩阵。

在本公开的一个或多个实施例中，所述特征获取子单元包括：

排序子单元，被配置为在所述每帧图片的显示内容特征包括光流图的情况下，将所述N帧图片按照在所述目标视频中的顺序排列；

光流图确定子单元，被配置为对于所述N帧图片中的第1帧图片，确定所述第1帧图片与预定的空白图片之间的光流图；对于所述N帧图片中的第i帧图片，确定所述第i帧图片与第i-1帧图片之间的光流图，i∈[2，N]中的任意一个整数。

所述装置还包括：

特征向量确定模块，被配置为对于所述N帧图片中的任意一帧目标图片，将所述目标图片的M个概率值在所述第一方向上排列得到的向量确定为所述目标图片对应的特征向量。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的视频描述信息的生成方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行任一项所述的视频描述信息的生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行任一项所述的视频描述信息的生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

首先获取目标视频，并将目标视频的至少两项特征信息进行融合，得到目标视频的融合特征信息。然后，将融合特征信息输入至目标视频描述生成模型，得到目标视频的视频描述信息。由于融合特征信息是由目标视频的至少两项特征信息进行融合得到，因此，融合特征信息是目标视频的多方面信息，那么，输入至目标视频描述生成模型中的融合特征信息比较丰富。由此，目标视频描述生成模型输出的视频描述信息可以更加准确地对目标视频进行描述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频描述信息的生成方法的流程图。

图2是根据另一示例性实施例示出的一种视频描述信息的生成方法的流程图。

图3是根据再一示例性实施例示出的一种获取特征矩阵的流程图。

图4是根据又一示例性实施例示出的一种视频描述信息的生成方法的流程图。

图5是根据又一示例性实施例示出的一种视频描述信息的生成方法的流程图。

图6是根据又一示例性实施例示出的一种视频描述信息的生成装置的结构图。

图7是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频描述信息的生成方法的流程图，视频描述信息的生成方法可以用于服务器。如图1所示，视频描述信息的生成方法包括：

S102：获取目标视频，目标视频包括以下至少两项特征信息：目标视频的标签、用于表征目标视频中音频的第一特征信息、用于表征目标视频的显示内容的第二特征信息；

S104：将至少两项特征信息进行融合，得到融合特征信息；

S106：将融合特征信息输入至目标视频描述生成模型，得到目标视频的视频描述信息。

下面对本公开实施例中的各个步骤进行说明。

在S102中，作为一个示例，可以从视频库中获取待处理的目标视频。

作为一个示例，目标视频可以为短视频。其中，短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容，短视频的时长为几秒到几分钟不等。

作为另一个示例，目标视频可以为电影、直播视频等等。在此不对目标视频的类别进行限定。

作为一个示例，目标视频的标签可以包括以下至少一项：视频分类标签以及地理信息标签。例如，视频分类标签包括草根恶搞视频、情景短剧、技能分享视频以及陕北民风视频等。

作为一个示例，目标视频中音频的第一特征信息可以包括第一文本，所述第一文本包括以下至少一项：所述目标视频的语音对应的文本、所述目标视频的背景音乐的歌词文本、所述目标视频的背景音乐的音乐主题文本。

作为一个获取第一文本的示例，可以利用自动语音识别(Automatic SpeechRecognition，ASR)技术识别目标视频的语音对应的文本。

作为一个获取第一文本的示例，可以获取目标视频的背景音乐的歌曲名称以及歌手信息；查询与歌曲名称以及歌手信息匹配的歌词文本。在查询与歌曲名称以及歌手信息匹配的歌词文本之后，根据歌词文本中出现次数最多的关键词确定为音乐主题文本。

下面举几个例子说明目标视频中音频的第一文本。

比如，目标视频是一段自我介绍，那么第一特征信息可以包括目标视频中的人物所做的自我介绍的内容。

再比如，目标视频中有背景音乐，而背景音乐是一个歌曲，那么第一特征信息可以包括歌曲的歌词。

又比如，目标视频中有背景音乐，且背景音乐是《未来不是梦》，那么第一特征信息可以包括“梦想”等文本。

作为一个示例，用于表征所述目标视频的显示内容的第二特征信息可以为目标视频中的多帧图片上显示的内容。

在S104中，可以将至少两项特征信息按预定顺序进行拼接，得到融合特征信息。

在S106中，目标视频描述生成模型是已经训练好的视频描述生成模型，将融合特征信息输入至已经训练好的目标视频描述生成模型中，可以得到目标视频的视频描述信息。

在本公开实施例中，首先获取目标视频，并将目标视频的至少两项特征信息进行融合，得到目标视频的融合特征信息。然后，将融合特征信息输入至目标视频描述生成模型，得到目标视频的视频描述信息。由于融合特征信息是由目标视频的至少两项特征信息进行融合得到，因此，输入至目标视频描述生成模型中的融合特征信息比较丰富。由此，目标视频描述生成模型输出的视频描述信息可以更加准确地对目标视频进行描述。

在本公开的一个或多个实施例中，如图2所示，S104可以包括：

S1042，获取至少两个特征矩阵，至少两个特征矩阵与至少两项特征信息一一对应，至少两个特征矩阵的行数或列数相同，且至少两个特征矩阵的行数或列数为N，N为大于1的整数；

S1044，将至少两个特征矩阵在第一方向上进行拼接，得到融合特征信息；其中，当至少两个特征矩阵的行数相同时，第一方向为行方向；当至少两个特征矩阵的列数相同时，第一方向为列方向。

下面具体说明上述的S1042和S1044。

在S1042中，目标视频的至少两个特征矩阵中的一个特征矩阵可以用于表征目标视频的一项特征信息。比如，至少两个特征矩阵中的一个特征矩阵用于表征目标视频的标签，另一个特征矩阵用于表征目标视频中音频的第一特征信息，又一个特征矩阵用于表征目标视频的显示内容的第二特征信息。需要说明的是，如果目标视频有多个第一特征信息或者多个第二特征信息，那么一个第一特征信息或者一个第二特征信息可以通过一个特征矩阵进行表征。

作为一个示例，在至少两个特征矩阵的行数相同的情况下，至少两个特征矩阵的列数可以相同，也可以不相同。

作为一个示例，在至少两个特征矩阵的列数相同的情况下，至少两个特征矩阵的行数可以相同，也可以不相同。

在S1044中，作为一个示例，S1044可以包括：在至少两个特征矩阵按顺序排列的情况下，从第1个特征矩阵开始，将第j+1个特征矩阵拼接在第j个特征矩阵之后，第j个特征矩阵可以是至少两个特征矩阵中的除最后一个特征矩阵之外的任意一个特征矩阵。

在至少两个特征矩阵的行数为N的情况下，将至少两个特征矩阵在行方向上进行拼接，得到拼接之后的矩阵，拼接之后的矩阵的行数也为N，拼接之后的矩阵即为融合特征信息。同理，在至少两个特征矩阵的列数为N的情况下，将至少两个特征矩阵在列方向上进行拼接，得到融合特征信息。

在本公开实施例中，将至少两个特征矩阵进行拼接，得到融合特征信息；将融合特征信息输入至目标视频描述生成模型，得到视频描述信息。由于融合特征信息是由至少两个特征矩阵拼接得到，因此，融合特征信息表征目标视频的多个维度的特征。由此，输入至目标视频描述生成模型中的视频特征信息比较丰富，使得目标视频描述生成模型输出的视频描述信息可以更加准确地对目标视频进行描述。

在本公开的一个或多个实施例中，S1042可以包括：

在至少两个特征矩阵包括标签对应的特征矩阵或者第一文本对应的特征矩阵的情况下，根据目标特征信息，确定N个子特征，其中，当目标特征信息为标签时，N个子特征包括标签中的多个字符，当目标特征信息为第一文本时，N个子特征包括第一文本中的多个关键词；

将N个子特征分别对应的特征向量在垂直于第一方向的方向上进行拼接，得到标签对应的特征矩阵或者第一文本对应的特征矩阵。

作为一个示例，根据目标特征信息，确定N个子特征，可以包括：

当目标特征信息中的子特征数量小于N时，确定N个子特征为目标特征信息中的子特征以及至少一个空字符；

当目标特征信息中的子特征数量等于N时，确定N个子特征为目标特征信息中的子特征；

当目标特征信息中的子特征数量大于N时，确定N个子特征为目标特征信息中的部分子特征。

其中，目标特征信息中的一个子特征为标签中的一个字符或者第一文本中的一个关键词。

作为一个示例，空字符可以为0，也可以为“—”或者“\”等符号。

下面通过两个例子说明根据目标特征信息，确定N个子特征。

比如，目标特征信息为目标视频的标签，目标视频的标签为“我爱踢足球”，N＝150。标签中的一个字符为一个子特征，由于目标视频的标签中的字符总数量为5，即子特征数量小于N，那么在“我爱踢足球”后面补145个0。因此，标签的N个子特征为：“我”、“爱”、“踢”、“足”、“球”、“0”……“0”。

再比如，目标特征信息为目标视频中的语音对应的文本：“今天天气晴朗，我现在位于**体育馆，第32届足球比赛即将在这里开始，我正在进行这场比赛的直播……”。将这段语音对应的文本进行分词处理，并提取关键词。一个关键词为一个子特征。如果关键词的总数量大于150，那么将语音对应的文本中的前150个关键词作为N个子特征。如果关键词的总数量小于150，那么在语音对应的文本中的关键词之后补0，一个0代表一个子特征，由此得到N个子特征。

在本示例中，根据目标特征信息，确定N个子特征，在目标特征信息的子特征数量小于N的情况下，可以通过增加空字符凑齐N个子特征。这样将N个子特征信息分别对应的特征向量进行拼接，可以得到N行或者N列的特征矩阵，便于后续将多个相同行数或者相同列数的特征矩阵进行拼接。

下面对N个子特征分别对应的特征向量在垂直于第一方向的方向上进行拼接进行具体说明。

作为一个示例，N个子特征分别对应的特征向量在垂直于第一方向的方向上进行拼接可以包括：获取N个子特征分别对应的行特征向量；将N个子特征分别对应的行特征向量在列方向上进行拼接，得到N行的特征矩阵。

作为另一个示例，N个子特征分别对应的特征向量在垂直于第一方向的方向上进行拼接可以包括：获取N个子特征分别对应的列特征向量；将N个子特征分别对应的列特征向量在行方向上进行拼接，得到N列的特征矩阵。

在本公开实施例中，可以确定用于表征目标视频的标签以及上述第一文本中的至少一项的特征矩阵，由此，可以根据目标视频的标签以及上述第一文本的至少一项得到目标视频的视频描述信息，使得视频描述信息与目标视频的标签以及目标视频中的音频相匹配，从而可以更加准确地对目标视频进行描述。

在本公开的一个或多个实施例中，在所述至少两个特征矩阵包括所述第二特征信息对应的特征矩阵的情况下，如图3所示，S1042可以包括：

S10422：在目标视频中抽取N帧图片；

S10424：获取N帧图片中的每帧图片的显示内容特征，每帧图片的显示内容特征包括以下任意一项：M个概率值、光流图以及图片中的文本，其中，一个概率值为图片中存在M个目标对象中的一个目标对象的概率值，光流图表征图片与N帧图片中的上一帧图片的变化信息，M为大于1的整数；

S10426：将N帧图片的显示内容特征分别对应的特征向量在垂直于第一方向的方向上进行拼接，得到第二特征信息对应的特征矩阵。

在本公开实施例中，可以确定用于表征目标视频的显示内容特征的特征矩阵，由此，可以根据目标视频的显示内容特征得到目标视频的视频描述信息，使得视频描述信息与目标视频的显示内容特征相匹配，从而可以更加准确地对目标视频进行描述。

下面对上述的步骤进行具体说明。

在S10422中，作为一个示例，通过预定抽帧方式在目标视频中抽取N帧图片。预定抽帧方式可以为抽取视频关键帧、抽取视频场景转换帧、按照时间进行均匀抽帧或者抽取制定时间的视频帧。

在S10424中，作为一个示例，S10424可以包括：通过对象检测模型对每帧图片中的目标对象检测，得到每帧图片对应的M个概率值，一个概率值为一帧图片中存在M个目标对象中的一个目标对象的概率值。

作为一个示例，S10424可以包括：在N帧图片按照在目标视频中的顺序排列的情况下，针对N帧图片中的第1帧图片，确定第1帧图片与预定的空白图片之间的光流图；针对N帧图片中的第i帧图片，确定第i帧图片与第i-1帧图片之间的光流图，i∈[2，N]中的任意一个整数。由此，可以根据N帧图片得到N个光流图，并可以得到N行或N列的特征矩阵。

其中，光流图(Flow Field)可以是表示视频帧序列中各像素点在视频帧中移动所形成的位置偏移图，可以表示视频帧之间的运动变化信息，包括视频画面中对象的运动变化信息。相邻两帧的第一图片和第二图片之间的光流图，是第一图片中各像素点相对于第二图片的运动变化。比如，视频中的对象区域的像素点A在第一图片中的位置为(X,Y)，在第二图片中找到像素点A，对应的位置为(X’,Y’)，则像素点A在第一图片与第二图片之间的运动变化信息为像素点A从第一图片到第二图片的位置偏移(U,V)，其中(U,V)＝(X’,Y’)-(X,Y)。

作为一个示例，S10424可以包括：通过光学字符识别(Optical CharacterRecognition，OCR)识别N帧图片中的每帧图片中的文本。

在S10426中，N帧图片中的每帧图片具有显示内容特征，每帧图片的一种显示内容特征对应一个特征向量。作为一个示例，每帧图片具有M个概率值，一帧图片的M个概率值对应一个特征向量。作为另一个示例，每帧图片具有光流图，一帧图片的光流图对应一个特征向量。作为又一个示例，每帧图片中有文本，一帧图片中的文本对应一个特征向量。需要说明的是，如果某一帧图片中没有文本，那么该帧图片中的文本可以用空字符表示。

在本公开的一个或多个实施例中，在每帧图片的显示内容特征包括M个概率值的情况下，S10426之前，视频描述信息的生成方法还可以包括：

对于N帧图片中的任意一帧目标图片，将目标图片的M个概率值在第一方向上排列得到的向量确定为目标图片对应的特征向量。

下面通过一个例子说明如何根据目标图片的M个概率值得到目标图片对应的特征向量。

比如，M个目标对象包括桌子、椅子、电脑、天空、树木、小孩等150个目标对象。通过对象检测模型检测目标图片的以下150个概率值：目标图片中有桌子的概率值为1％，目标图片中有椅子的概率值为78％，目标图片中有电脑的概率值为0.8％，目标图片中有天空的概率值为90％，目标图片中有树木的概率值为83％，目标图片中有小孩的概率值为79％，......。在此情况下，目标图片的显示内容特征向量可以为[1％，78％，0.8％，90％，83％，79％，......]。

将目标图片的M个概率值在第一方向上排列得到目标图片的显示内容特征向量，由此，得到的显示内容特征向量可以表征目标图片中的目标对象。

在本公开的一个或多个实施例中，在每帧图片的显示内容特征包括光流图的情况下，S1052之前，视频描述信息的生成方法还可以包括：

可以利用OpenCV将N帧图片中的每帧图片的光流图转换为对应的显示内容特征向量。

本公开提供又一示例性实施例的视频描述信息的生成方法，图4是根据又一示例性实施例示出的一种视频描述信息的生成方法的流程图。如图4所示，视频描述信息的生成方法包括：

S202：获取目标视频；

S204：获取目标视频的标签；

S206：根据目标视频的标签，生成用于表征标签的第一特征矩阵；具体是根据目标视频的标签，确定N个字符，将N个字符分别对应的特征向量进行拼接，得到第一特征矩阵；

S208：获取目标视频的语音对应的第一文本；

S210：根据第一文本，生成用于表征第一文本的第二特征矩阵；具体是根据第一文本中的关键词，确定N个关键词，将N个关键词分别对应的特征向量进行拼接，得到第二特征矩阵；

S212：从目标视频中抽取N帧图片；

S214：检测N帧图片中的每帧图片的M个概率值，一个概率值为图片中存在M个目标对象中的一个目标对象的概率值；

S216：生成第三特征矩阵；具体是对于N帧图片中的任意一帧目标图片，将目标图片的M个概率值在第一方向上排列得到的向量确定为目标图片对应的图片对象特征向量；将N帧图片分别对应的图片对象特征向量进行拼接，得到第三特征矩阵；

S218：获取每帧图片对应的光流图；

S220：生成第四特征矩阵；具体是将每帧图片的光流图转换为对应的光流图特征向量，将N帧图片分别对应的光流图特征向量进行拼接，得到第四特征矩阵；

S222：获取每帧图片中的文本；

S224：生成第五特征矩阵；具体是将每帧图片中的文本转换为对应的文本特征向量，将N帧图片分别对应的文本特征向量进行拼接，得到第五特征矩阵；

S226：将第一特征矩阵、第二特征矩阵、第三特征矩阵、第四特征矩阵以及第五特征矩阵进行拼接，得到融合特征信息；

S228：将融合特征信息输入至目标视频描述生成模型，得到视频描述信息。

需要说明的是，在此并不限定S204、S208、S212之间的执行顺序，这三个步骤可以同时执行，也可以分步执行。在此并不限定S214、S218、S222之间的执行顺序，这三个步骤可以同时执行，也可以分步执行。

下面通过一个例子对上述的各个步骤进行说明。

在S202中，目标视频为小朋友踢足球的视频。

在S204中，目标视频的标签为“我爱踢足球”。

在S206中，假设N＝150，那么在“我爱踢足球”后面补145个0，由此得到150个字符。将150个字符中的每个字符转换成8维(也可以是32维或64维等)的行向量。将150个字符的行向量在列方向上进行拼接，得到如下的第一特征矩阵：

其中，[X1,1 X1,2 … X1,8]是“我”对应的8维行向量，[X150,1 X150,2 … X150,8]是第150个字符“0”对应的8维行向量。

在S208中，利用自动语音识别技术识别目标视频的语音对应的第一文本。

在S210中，对第一文本进行分词，提取150个关键词，包括“您好”、“踢球”……“足球”等关键词。另外，如果不够150个关键词可以用“0”补齐，如果超过150个关键词，可以提取前150个关键词。将150个关键词中的每个关键词转换成对应的行向量。将150个关键词的行向量在列方向上进行拼接，得到如下的第二特征矩阵：

其中，[Y1,1 Y1,2 … Y1,64]是“您好”对应的64维行向量，[Y150,1 Y150,2 …Y150,64]是第150个关键词“足球”对应的64维行向量。

在S212中，从目标视频中抽取150帧图片。

在S214中，检测150帧图片中的每帧图片的100个概率值，一个概率值为图片中存在100个目标对象中的一个目标对象的概率值。

在S216中，对于每帧图片，将同一帧图片的100个概率值在行方向上排列得到的向量确定为该图片对应的目标对象特征向量，由此，得到每帧图片的目标对象特征向量。将150帧图片的目标对象特征向量在列方向上拼接，得到150行的第三特征矩阵，第三特征矩阵如下：

其中，对于[Z1,1 Z1,2 … Z1,100]，Z1,1为第一帧图片中存在第一个目标对象的概率值，Z1,2为第一帧图片中存在第二个目标对象的概率值，Z1,00为第一帧图片中存在第100个目标对象的概率值。

在S218中，获取150帧图片中的每帧图片对应的光流图。

在S220中，将每帧图片的光流图转换为对应的光流图特征向量，该光流图特征向量为行向量，将150帧图片分别对应的光流图特征向量在列方向上进行拼接，得到150行的第四特征矩阵。

在S222中，利用OCR工具识别每帧图片中的文本。

在S224中，将每帧图片中的文本转换为对应的文本特征向量，将150帧图片分别对应的文本特征向量进行拼接，得到第五特征矩阵。

在S226中，将第一特征矩阵、第二特征矩阵、第三特征矩阵、第四特征矩阵以及第五特征矩阵进行拼接，得到如下的目标特征信息矩阵：

在S228中，将目标特征信息矩阵输入至目标视频描述生成模型，得到描述小孩在踢足球的信息。

本公开提供又一示例性实施例的视频描述信息的生成方法，图5是根据又一示例性实施例示出的一种视频描述信息的生成方法的流程图。如图5所示，相比于图1，在S102之前，视频描述信息的生成方法还可以包括S108：训练视频描述生成模型的步骤。

作为一个示例，训练视频描述生成模型的步骤可以包括：

获取视频样本；

根据视频样本，确定视频样本的至少两个特征矩阵，至少两个特征矩阵用于表征以下至少两项：视频样本的标签、视频样本的听觉特征以及视频样本的显示内容特征；至少两个特征矩阵的行数或列数相同，且至少两个特征矩阵的行数或列数为N，N为大于1的整数；

将至少两个特征矩阵在第一方向上进行拼接，得到拼接特征矩阵；其中，当至少两个特征矩阵的行数相同时，第一方向为行方向；当至少两个特征矩阵的列数相同时，第一方向为列方向；

将拼接特征矩阵输入至预设视频描述生成模型，得到视频样本的第一视频描述信息；

通过损失函数，计算视频样本的已标注的第二视频描述信息与第一视频描述信息之间的损失值；

根据损失值调节预设视频描述生成模型的参数，并对预设视频描述生成模型进行迭代训练，直到预设视频描述生成模型满足预定条件为止，得到目标视频描述生成模型。

与本公开实施例的视频描述信息的生成方法对应地，本公开提供一种视频描述信息的生成装置。图6是根据又一示例性实施例示出的一种视频描述信息的生成装置的结构图。如图6所示，视频描述信息的生成装置300包括：

视频获取模块302，被配置为获取目标视频，目标视频包括以下至少两项特征信息：目标视频的标签、用于表征目标视频中音频的第一特征信息、用于表征目标视频的显示内容的第二特征信息；

信息融合模块304，被配置为将至少两项特征信息进行融合，得到融合特征信息；

信息输入模块306，被配置为将融合特征信息输入至目标视频描述生成模型，得到目标视频的视频描述信息。

在本公开的一个或多个实施例中，信息融合模块304可以包括：

矩阵获取单元，被配置为获取至少两个特征矩阵，至少两个特征矩阵与至少两项特征信息一一对应，至少两个特征矩阵的行数或列数相同，且至少两个特征矩阵的行数或列数为N，N为大于1的整数；

矩阵拼接单元，被配置为将至少两个特征矩阵在第一方向上进行拼接，得到融合特征信息；其中，当至少两个特征矩阵的行数相同时，第一方向为行方向；当至少两个特征矩阵的列数相同时，第一方向为列方向。

在本公开的一个或多个实施例中，第一特征信息包括第一文本，第一文本包括以下至少一项：目标视频的语音对应的文本、目标视频的背景音乐的歌词文本、目标视频的背景音乐的音乐主题文本；矩阵获取单元可以包括：

特征确定子单元，被配置为在至少两个特征矩阵包括标签对应的特征矩阵或者第一文本对应的特征矩阵的情况下，根据目标特征信息，确定N个子特征，其中，当目标特征信息为标签时，N个子特征包括标签中的多个字符，当目标特征信息为第一文本时，N个子特征包括第一文本中的多个关键词；

第一拼接子单元，被配置为将N个子特征分别对应的特征向量在垂直于第一方向的方向上进行拼接，得到标签对应的特征矩阵或者第一文本对应的特征矩阵。

在本公开的一个或多个实施例中，特征确定子单元可以包括：

第一子单元，被配置为当目标特征信息中的子特征数量小于N时，确定N个子特征为目标特征信息中的子特征以及至少一个空字符；

第二子单元，被配置为当目标特征信息中的子特征数量等于N时，确定N个子特征为目标特征信息中的子特征；

第三子单元，被配置为当目标特征信息中的子特征数量大于N时，确定N个子特征为目标特征信息中的部分子特征；其中，目标特征信息中的一个子特征为标签中的一个字符或者第一文本中的一个关键词。

在本实施例中，根据目标特征信息，确定N个子特征，在目标特征信息的子特征数量小于N的情况下，可以通过增加空字符凑齐N个子特征。这样将N个子特征信息分别对应的特征向量进行拼接，可以得到N行或者N列的特征矩阵，便于后续将多个相同行数或者相同列数的特征矩阵进行拼接。

在本公开的一个或多个实施例中，矩阵获取单元可以包括：

图片抽取子单元，被配置为在至少两个特征矩阵包括第二特征信息对应的特征矩阵的情况下，在目标视频中抽取N帧图片；

特征获取子单元，被配置为获取N帧图片中每帧图片的显示内容特征，每帧图片的显示内容特征包括以下任意一项：M个概率值、光流图以及图片中的文本，其中，一个概率值为图片中存在M个目标对象中的一个目标对象的概率值，光流图表征图片与N帧图片中的上一帧图片的变化信息，M为大于1的整数；

第二拼接子单元，被配置为将N帧图片的显示内容特征分别对应的特征向量在垂直于第一方向的方向上进行拼接，得到第二特征信息对应的特征矩阵。

在本公开的一个或多个实施例中，特征获取子单元可以包括：

排序子单元，被配置为在每帧图片的显示内容特征包括光流图的情况下，将N帧图片按照在目标视频中的顺序排列；

光流图确定子单元，被配置为对于N帧图片中的第1帧图片，确定第1帧图片与预定的空白图片之间的光流图；对于N帧图片中的第i帧图片，确定第i帧图片与第i-1帧图片之间的光流图，i∈[2，N]中的任意一个整数。由此，可以根据N帧图片得到N个光流图，并可以得到N行或N列的特征矩阵。

在本公开的一个或多个实施例中，在每帧图片的显示内容特征包括M个概率值的情况下，装置300还可以包括：

特征向量确定模块，被配置为对于N帧图片中的任意一帧目标图片，将目标图片的M个概率值在第一方向上排列得到的向量确定为目标图片对应的特征向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供一种服务器，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现任一项的视频描述信息的生成方法。

图7是根据一示例性实施例示出的一种服务器的框图。例如，服务器可以被提供为一服务器。参照图7，服务器400包括处理组件422，其进一步包括一个或多个处理器，以及由存储器432所代表的存储器资源，用于存储可由处理组件422的执行的指令，例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件422被配置为执行指令，以执行上述视频描述信息的生成方法。

服务器400还可以包括一个电源组件426被配置为执行服务器400的电源管理，一个有线或无线网络接口450被配置为将服务器400连接到网络，和一个输入输出(I/O)接口458。服务器400可以操作基于存储在存储器432的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，本公开还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本公开还提供了一种存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行任一项的视频描述信息的生成方法。

在示例性实施例中，本公开还提供了一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行任一项的视频描述信息的生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频描述信息的生成方法，其特征在于，包括：

将所述至少两项特征信息进行融合，得到融合特征信息；

2.根据权利要求1所述的方法，其特征在于，所述将所述至少两项特征信息进行融合，得到融合特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一特征信息包括第一文本，所述第一文本包括以下至少一项：所述目标视频的语音对应的文本、所述目标视频的背景音乐的歌词文本、所述目标视频的背景音乐的音乐主题文本；

所述获取至少两个特征矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据目标特征信息，确定N个子特征，包括：

5.根据权利要求2所述的方法，其特征在于，在所述至少两个特征矩阵包括所述第二特征信息对应的特征矩阵的情况下，

所述获取至少两个特征矩阵，包括：

在所述目标视频中抽取N帧图片；

6.根据权利要求5所述的方法，其特征在于，所述获取所述N帧图片中的每帧图片的显示内容特征，包括：

7.根据权利要求5所述的方法，其特征在于，在所述每帧图片的显示内容特征包括M个概率值的情况下，

8.一种视频描述信息的生成装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频描述信息的生成方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的视频描述信息的生成方法。