CN110769267B

CN110769267B - 一种视频的展示方法、装置、电子设备及存储介质

Info

Publication number: CN110769267B
Application number: CN201911047971.0A
Authority: CN
Inventors: 卢建鑫; 金志威
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-02-08
Anticipated expiration: 2039-10-30
Also published as: CN110769267A

Abstract

本公开是关于一种视频的展示方法、装置、电子设备及存储介质，该方法包括：获取目标视频在预设时段内的视频图像帧，并对视频图像帧进行图像识别得到视频图像帧中的关键信息，基于视频图像帧中的关键信息确定目标视频的目标类别；根据目标类别对目标视频进行展示，基于上述处理，能够提高展示的视频的准确度。

Description

一种视频的展示方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，特别是涉及一种视频的展示方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的快速发展，网络直播行业逐渐成为一种新的互联网文化产业。主播可以通过客户端进行视频的直播，为用户放送精彩的节目。在用户观看直播视频的过程中，用户可以搜索自己想要观看的直播视频的类别，服务器则可以向该用户推荐属于该类别的直播视频。

相关技术中，针对某一直播视频，通常可以根据该直播视频所属直播间的直播标题、主播的昵称、主播的个人介绍等信息，确定该直播视频的类别。然而，主播在进行直播时，其播放的视频内容与上述信息可能并不存在关系。例如，根据某一直播视频所属直播间的直播标题，确定该直播视频的类别为“唱歌”，然而，当向某一搜索“唱歌”的用户展示该直播视频时，该直播视频的主播可能并未在唱歌，即，展示的直播视频并不符合用户的需求。

可见，相关技术中，展示的视频的准确度较低。

发明内容

本公开提供一种视频的展示方法、装置、电子设备及存储介质，以至少解决相关技术中展示的视频的准确度较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频的展示方法，所述方法包括：

获取目标视频在预设时段内的视频图像帧，并对所述视频图像帧进行图像识别得到所述视频图像帧中的关键信息，所述视频图像帧中的关键信息包括所述视频图像帧中显示的对象；

基于所述视频图像帧中的关键信息确定所述目标视频的目标类别；

根据所述目标类别对所述目标视频进行展示。

可选的，所述基于所述视频图像帧中的关键信息确定所述目标视频的目标类别，包括：

基于预设的关键信息与类别的对应关系，确定所述视频图像帧中的关键信息对应的类别，作为候选类别；

基于所述候选类别，确定所述目标视频的目标类别。

可选的，所述基于所述候选类别，确定所述目标视频的目标类别，包括：

将所述视频图像帧输入至预先训练的所述候选类别对应的第一深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第一概率；其中，所述第一深度学习网络模型为将样本图像帧作为预设结构的深度学习网络模型的输入特征，将所述样本图像帧的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本图像帧包括属于所述候选类别的正样本图像帧和不属于所述候选类别的负样本图像帧；所述样本图像帧的标签表示所述样本图像帧属于所述候选类别或者不属于所述候选类别；

如果所述第一概率大于第一预设概率阈值，将所述候选类别确定为所述目标视频的目标类别。

获取所述预设时间段内所述目标视频中预设时长的语音数据；

将所述语音数据输入至预先训练的所述候选类别对应的第二深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第二概率；其中，所述第二深度学习网络模型为将样本语音数据作为预设结构的深度学习网络模型的输入特征，将所述样本语音数据的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本语音数据包括属于所述候选类别的正样本语音数据和不属于所述候选类别的负样本语音数据；所述样本语音数据的标签表示所述样本语音数据属于所述候选类别或者不属于所述候选类别；

如果所述第二概率大于第二预设概率阈值，将所述候选类别确定为所述目标视频的目标类别。

获取用户输入的针对所述视频图像帧的评论文本；

计算所述评论文本与所述候选类别的语义相关度；

如果所述语义相关度大于预设相关度阈值，将所述候选类别确定为所述目标视频的目标类别。

获取所述预设时间段内所述目标视频中预设时长的语音数据，并将所述语音数据输入至预先训练的所述候选类别对应的第二深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第二概率；其中，所述第二深度学习网络模型为将样本语音数据作为预设结构的深度学习网络模型的输入特征，将所述样本语音数据的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本语音数据包括属于所述候选类别的正样本语音数据和不属于所述候选类别的负样本语音数据；所述样本语音数据的标签表示所述样本语音数据属于所述候选类别或者不属于所述候选类别；

获取用户输入的针对所述视频图像帧的评论文本，并计算所述评论文本与所述候选类别的语义相关度；

如果所述第一概率大于第一预设概率阈值、所述第二概率大于第二预设概率阈值，且所述语义相关度大于预设相关度阈值，将所述候选类别确定为所述目标视频的目标类别。

可选的，所述根据所述目标类别对所述目标视频进行展示，包括：

将所述目标视频展示在所述目标类别对应的展示区域；或者，

展示包含有所述目标类别的所述目标视频的视频封面。

根据本公开实施例的第二方面，提供一种视频的展示装置，所述装置包括：

识别模块，被配置为执行获取目标视频在预设时段内的视频图像帧，并对所述视频图像帧进行图像识别得到所述视频图像帧中的关键信息，所述视频图像帧中的关键信息包括所述视频图像帧中显示的对象；

确定模块，被配置为执行基于所述视频图像帧中的关键信息确定所述目标视频的目标类别；

展示模块，被配置为执行根据所述目标类别对所述目标视频进行展示。

可选的，所述确定模块，具体被配置为执行基于预设的关键信息与类别的对应关系，确定所述视频图像帧中的关键信息对应的类别，作为候选类别；

基于所述候选类别，确定所述目标视频的目标类别。

可选的，所述确定模块，具体被配置为执行将所述视频图像帧输入至预先训练的所述候选类别对应的第一深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第一概率；其中，所述第一深度学习网络模型为将样本图像帧作为预设结构的深度学习网络模型的输入特征，将所述样本图像帧的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本图像帧包括属于所述候选类别的正样本图像帧和不属于所述候选类别的负样本图像帧；所述样本图像帧的标签表示所述样本图像帧属于所述候选类别或者不属于所述候选类别；

可选的，所述确定模块，具体被配置为执行获取所述预设时间段内所述目标视频中预设时长的语音数据；

可选的，所述确定模块，具体被配置为执行获取用户输入的针对所述视频图像帧的评论文本；

计算所述评论文本与所述候选类别的语义相关度；

可选的，所述展示模块，具体被配置为执行将所述目标视频展示在所述目标类别对应的展示区域；或者，

展示包含有所述目标类别的所述目标视频的视频封面。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器上所存放的指令时，实现如上第一方面所述的视频的展示方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的视频的展示方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上第一方面所述的视频的展示方法。

本公开的实施例提供的技术方案可以包括以下有益效果：获取目标视频在预设时段内的视频图像帧，并对视频图像帧进行图像识别得到视频图像帧中的关键信息，基于视频图像帧中的关键信息确定目标视频的目标类别；根据目标类别对目标视频进行展示。基于上述处理，能够根据目标视频中的视频图像帧，确定目标视频的目标类别，相对于目标视频所属直播间的直播标题、主播的昵称、主播的个人介绍等信息，预设时段内的视频图像帧，能够更准确地体现主播当前播放的内容，进而，基于本公开的方法，能够提高展示的视频的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频的展示方法的流程图。

图2是根据一示例性实施例示出的一种确定目标类别的方法的流程图。

图3是根据一示例性实施例示出的一种视频的展示方法示例的流程图。

图4是根据一示例性实施例示出的一种视频的展示装置的结构图。

图5是根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，在进行视频的展示时，通常根据视频所属直播间的直播标题、主播的昵称、主播的个人介绍等信息，确定该视频的类别，并根据确定出的类别对视频进行展示，可能会导致展示的视频不符合用户的需求，即，展示的视频的准确度较低。

为了解决上述问题，本公开实施例提供了一种视频的展示方法，该方法可以应用于电子设备，该电子设备可以为服务器。

电子设备可以获取目标视频在预设时段内的视频图像帧，并对视频图像帧进行图像识别得到视频图像帧中的关键信息，然后，电子设备可以基于视频图像帧中的关键信息确定目标视频的目标类别，进而，电子设备可以根据目标类别对目标视频进行展示。

基于上述处理，电子设备能够根据目标视频中的视频图像帧，确定目标视频的目标类别，相对于目标视频所属直播间的直播标题、主播的昵称、主播的个人介绍等信息，预设时段内的视频图像帧，能够更准确地体现主播当前播放的内容，进而，基于本公开的方法，能够提高展示的视频的准确度。

参见图1，图1是根据一示例性实施例示出的一种视频的展示方法的流程图，该方法可以应用于电子设备，该方法可以包括以下步骤：

S101：获取目标视频在预设时段内的视频图像帧，并对视频图像帧进行图像识别得到视频图像帧中的关键信息。

预设时间段所持续的时长可以由技术人员根据经验进行设置。例如，预设时间段所持续的时长可以为3分钟，或者，也可以为4分钟，但并不限于此。一种方式中，预设时间段可以为距离当前时刻最近的时间段。

视频图像帧中的关键信息包括视频图像帧中显示的对象。对象为视频图像帧的图像画面所表示的视觉元素，例如，钓鱼的视频图像帧中的对象可以包括“鱼”、“水”、“鱼竿”等。

一种实现方式中，如果目标视频为直播视频，电子设备可以获取目标视频在距离当前时刻最近的预设时间段内的视频图像帧，可以理解的是，电子设备获取的视频图像帧可以为一个，也可以为多个。例如，电子设备可以周期性地获取预设时间段内目标视频中的多个视频图像帧。进而，电子设备可以对获取的视频图像帧进行图像识别，得到视频图像帧中的关键信息。如果视频图像帧为多个，则各视频图像帧中的关键信息可能相同，也可能会不同。

在一个实施例中，如果预设时间段所持续的时长为3分钟，在主播开始进行直播3分钟后，电子设备可以每隔6秒获取一个视频图像帧，直至获取到第6分钟时的视频图像帧。然后，电子设备可以对获取的多个视频图像帧进行图像识别，确定出每一视频图像帧中的关键信息。

S102：基于视频图像帧中的关键信息确定目标视频的目标类别。

在确定出视频图像帧中的关键信息后，电子设备可以根据关键信息，确定目标视频的类别(即本公开实施例中的目标类别)。

在一个实施例中，如果视频图像帧为多个，则电子设备可以获取各视频图像帧中的所有关键信息，并根据获取的所有关键信息，确定目标视频的的目标类别。

在一个实施例中，如果直播图像帧为多个，则电子设备也可以获取各视频图像帧中相同的关键信息，并根据获取的相同的关键信息，确定目标视频的目标类别。

可选的，参见图2，图2是根据一示例性实施例示出的一种确定目标类别的方法的流程图，即，S102可以包括以下步骤：

S1021：基于预设的关键信息与类别的对应关系，确定视频图像帧中的关键信息对应的类别，作为候选类别。

预设的关键信息与类别的对应关系可以由技术人员根据经验进行设置，电子设备本地可以存储有该对应关系。

进而，当确定出视频图像帧中的关键信息后，电子设备可以在该对应关系中进行查询，确定视频图像帧中的关键信息对应的类别(即本公开实施例中的候选类别)。可以理解的是，确定出的候选类别可以为一个，也可以为多个。

在一个实施例中，如果关键信息为多个，则电子设备可以确定与所有关键信息均对应的类别为候选类别，或者，电子设备也可以确定与部分关键信息均对应的类别为候选类别。

例如，关键信息包括：“鱼”、“水”、“树”和“鸟”，与“鱼”和“水”对应的类别为“钓鱼”，与“鱼”和“鸟”对应的类别为“宠物”，则电子设备可以确定候选类别包括“钓鱼”和“宠物”。

S1022：基于候选类别，确定目标视频的目标类别。

在一个实施例中，电子设备可以直接将确定出的候选类别，作为目标视频的目标类别。

在另一个实施例中，电子设备还可以结合目标视频中的语音数据和/或用户输入的针对目标视频的评论文本，进一步判断目标视频是否属于候选类别。

在一个实施例中，为了进一步提高展示的视频的准确度，S1022可以包括以下步骤：

将视频图像帧输入至预先训练的候选类别对应的第一深度学习网络模型中，得到目标视频属于候选类别的概率，作为第一概率；如果第一概率大于第一预设概率阈值，将候选类别确定为目标视频的目标类别。

其中，第一深度学习网络模型为将样本图像帧作为预设结构的深度学习网络模型的输入特征，将样本图像帧的标签作为深度学习网络模型的输出特征，对深度学习网络模型进行训练得到的。第一预设概率阈值可以由技术人员根据经验进行设置，例如，第一预设概率阈值可以为95％，或者，也可以为90％，但并不限于此。

样本图像帧包括属于候选类别的正样本图像帧和不属于候选类别的负样本图像帧，样本图像帧的标签表示样本图像帧属于候选类别或者不属于候选类别。例如，正样本图像帧的标签可以为1，负样本图像帧的标签可以为0。

电子设备可以将目标视频的视频图像帧输入至训练好的候选类别对应的第一深度学习网络模型中，相应的，第一深度学习网络模型的输出结果表示目标视频的视频图像帧属于候选类别的概率(即本公开实施例中的第一概率)，也即，目标视频属于候选类别的概率。进而，如果第一概率大于第一预设概率阈值，电子设备可以确定该候选类别为目标视频的目标类别，即目标视频属于该候选类别。

相应的，如果第一概率不大于第一预设概率阈值，电子设备可以确定该候选类别不是目标视频的目标类别，即目标视频不属于该候选类别。

在一个实施例中，如果获取的目标视频的视频图像帧为一个，则电子设备可以将该视频图像帧属于候选类别的概率，确定为第一概率。

如果获取的目标视频的视频图像帧为多个，则电子设备可以计算各视频图像帧分别属于候选类别的概率的平均值，并将计算得到的平均值，确定为第一概率。

可以理解的是，如果候选类别为多个，则可以得到对应的多个第一概率。针对每一候选类别，电子设备均可以判断该候选类别对应的第一概率是否大于第一预设概率阈值，并根据判定结果确定该候选类别是否为目标类别。

例如，候选类别包括：“钓鱼”和“宠物”，第一预设概率阈值为95％，如果第一深度学习网络模型确定出的目标视频属于“钓鱼”类别的第一概率为97％，目标视频属于“宠物”类别的第一概率为80％，则电子设备可以确定“钓鱼”类别为目标类别，“宠物”类别不是目标类别，即，确定目标视频属于“钓鱼”类别，而不属于“宠物”类别。

获取预设时间段内目标视频中预设时长的语音数据，并将语音数据输入至预先训练的候选类别对应的第二深度学习网络模型中，得到目标视频属于候选类别的概率，作为第二概率；如果第二概率大于第二预设概率阈值，将候选类别确定为目标视频的目标类别。

其中，第二深度学习网络模型为将样本语音数据作为预设结构的深度学习网络模型的输入特征，将样本语音数据的标签作为深度学习网络模型的输出特征，对深度学习网络模型进行训练得到的。第二预设概率阈值可以由技术人员根据经验进行设置，例如，第二预设概率阈值可以为95％，或者，也可以为90％，但并不限于此。

样本语音数据包括属于候选类别的正样本语音数据和不属于候选类别的负样本语音数据，样本语音数据的标签表示样本语音数据属于候选类别或者不属于候选类别。例如，正样本语音数据的标签可以为1，负样本语音数据的标签可以为0。

预设时长可以根据预设时间段所持续的时长确定。在一个实施例中，电子设备获取的语音数据可以为一段，也可以为多段。例如，预设时间段所持续的时长为3分钟，则电子设备可以从预设时间段内，选取一段1分钟时长的语音数据，或者，电子设备也可以从预设时间段内，选取两段均为1分钟时长的语音数据，且该两段语音数据不存在相同的语音数据部分。

电子设备可以将目标视频中预设时长的语音数据输入至训练好的候选类别对应的第二深度学习网络模型中，相应的，第二深度学习网络模型的输出结果表示目标视频中预设时长的语音数据属于候选类别的概率(即本公开实施例中的第二概率)，也即，目标视频属于候选类别的概率。进而，如果第二概率大于第二预设概率阈值，电子设备可以确定该候选类别为目标视频的目标类别，即目标视频属于该候选类别。

相应的，如果第二概率不大于第二预设概率阈值，电子设备可以确定该候选类别不是目标视频的目标类别，即目标视频不属于该候选类别。

在一个实施例中，如果获取的目标视频中预设时长的语音数据为一段，则电子设备可以将该段语音数据属于候选类别的概率，确定为第二概率。

如果获取的目标视频中预设时长的语音数据为多段，则电子设备可以计算各语音数据分别属于候选类别的概率的平均值，并将计算得到的平均值，确定为第二概率。

可以理解的是，如果候选类别为多个，则可以得到对应的多个第二概率。针对每一候选类别，电子设备均可以判断该候选类别对应的第二概率是否大于第二预设概率阈值，并根据判定结果确定该候选类别是否为目标类别。

获取用户输入的针对视频图像帧的评论文本，并计算评论文本与候选类别的语义相关度；如果语义相关度大于预设相关度阈值，将候选类别确定为目标视频的目标类别。

其中，获取的评论文本的数目可以为预设数目，预设数目可以由技术人员根据经验进行设置，例如，预设数目可以为50，或者，也可以为80，但并不限于此。预设相似度阈值可以为95％，或者，也可以为90％，但并不限于此。

一种实现方式中，用户在观看目标视频的过程中，可以发表针对目标视频的评论，进而，电子设备可以获取针对目标视频的距离当前时刻最近的预设数目个评论文本。

在获取预设数目个评论文本后，电子设备可以基于语义分析，计算评论文本与候选类别的语义相关度，进而，如果得到的语义相关度大于预设相关度阈值，电子设备可以将候选类别确定为目标视频的目标类别，即，确定目标视频属于候选类别。进而，如果语义相关度大于预设相关度阈值，电子设备可以确定该候选类别为目标视频的目标类别，即目标视频属于该候选类别。

相应的，如果语义相关度不大于预设相关度阈值，电子设备可以确定该候选类别不是目标视频的目标类别，即目标视频不属于该候选类别。

可以理解的是，如果候选类别为多个，则可以得到对应的多个语义相关度。针对每一候选类别，电子设备均可以判断该候选类别对应的语义相关度是否大于预设相关度阈值，并根据判定结果确定该候选类别是否为目标类别。

另外，电子设备还可以根据第一概率、第二概率和评论文本与候选类别的语义相关度的任意组合，确定候选类别是否为目标类别。

一种实现方式中，如果第一概率大于第一预设概率阈值、第二概率大于第二预设概率阈值，且语义相关度大于预设相关度阈值，则电子设备可以将候选类别确定为目标视频的目标类别。

或者，如果第一概率大于第一预设概率阈值，且语义相关度大于预设相关度阈值，则电子设备可以将候选类别确定为目标视频的目标类别。

或者，如果第二概率大于第二预设概率阈值，且语义相关度大于预设相关度阈值，则电子设备可以将候选类别确定为目标视频的目标类别。

或者，如果第一概率大于第一预设概率阈值，且第二概率大于第二预设概率阈值，则电子设备可以将候选类别确定为目标视频的目标类别。

可以理解的是，电子设备可以周期性地根据本公开的方法，确定目标视频的类别，以提高确定出的类别的有效性。

S103：根据目标类别对目标视频进行展示。

在确定目标视频的目标类别后，电子设备可以对目标视频进行展示。

一种实现方式中，电子设备可以将目标视频展示在目标类别对应的展示区域。

电子设备的展示页面中可以设置不同类别对应的展示区域，相应的，电子设备可以将目标视频展示在目标类别对应的展示区域。如果目标类别为多个，则电子设备可以在每一目标类别对应的展示区域中展示目标视频。

另一种实现方式中，电子设备可以展示包含有目标类别的目标视频的视频封面。

电子设备可以在展示区域中展示目标视频的视频封面，且展示的视频封面中显示有目标类别。如果目标类别为多个，电子设备可以将多个目标类别按照预设顺序显示在视频封面中。预设顺序可以是根据各目标类别对应的第一概率、第二概率或语义相关度的大小确定的。

参见图3，图3是根据一示例性实施例示出的一种视频的展示方法示例的流程图，该方法可以包括以下步骤：

S301：对目标视频在预设时间段内的视频图像帧进行图像识别，得到视频图像帧中的关键信息。

S302：基于预设的关键信息与类别的对应关系，确定视频图像帧中的关键信息对应的类别，作为候选类别。

S303：将视频图像帧输入至预先训练的候选类别对应的第一深度学习网络模型中，得到目标视频属于候选类别的概率，作为第一概率。

其中，第一深度学习网络模型为将样本图像帧作为预设结构的深度学习网络模型的输入特征，将样本图像帧的标签作为深度学习网络模型的输出特征，对深度学习网络模型进行训练得到的。样本图像帧包括属于候选类别的正样本图像帧和不属于候选类别的负样本图像帧。样本图像帧的标签表示样本图像帧属于候选类别或者不属于候选类别。

S304：判断第一概率是否大于第一预设概率阈值，如果否，执行S305，如果是，执行S306。

S305：确定目标视频不属于候选类别。

S306：获取预设时间段内目标视频中预设时长的语音数据，并将语音数据输入至预先训练的候选类别对应的第二深度学习网络模型中，得到目标视频属于候选类别的概率，作为第二概率。

其中，第二深度学习网络模型为将样本语音数据作为预设结构的深度学习网络模型的输入特征，将样本语音数据的标签作为深度学习网络模型的输出特征，对深度学习网络模型进行训练得到的。样本语音数据包括属于候选类别的正样本语音数据和不属于候选类别的负样本语音数据。样本语音数据的标签表示样本语音数据属于候选类别或者不属于候选类别。

S307：判断第二概率是否大于第二预设概率阈值，如果否，执行S305，如果是，执行S308。

S308：获取用户输入的针对视频图像帧的距离当前时刻最近的预设数目个评论文本，并计算评论文本与候选类别的语义相关度。

S309：判断语义相关度是否大于预设语义相关度阈值，如果否，执行S305，如果是，执行S3010。

S3010：将候选类别确定为目标视频的目标类别。

S3011：根据目标类别对目标视频进行展示。

基于相同的发明构思，参见图4，图4是根据一示例性实施例示出的一种视频的展示装置的结构图，该装置可以包括：

识别模块401，被配置为执行获取目标视频在预设时段内的视频图像帧，并对所述视频图像帧进行图像识别得到所述视频图像帧中的关键信息，所述视频图像帧中的关键信息包括所述视频图像帧中显示的对象；

确定模块402，被配置为执行基于所述视频图像帧中的关键信息确定所述目标视频的目标类别；

展示模块403，被配置为执行根据所述目标类别对所述目标视频进行展示。

可选的，所述确定模块402，具体被配置为执行基于预设的关键信息与类别的对应关系，确定所述视频图像帧中的关键信息对应的类别，作为候选类别；

基于所述候选类别，确定所述目标视频的目标类别。

可选的，所述确定模块402，具体被配置为执行将所述视频图像帧输入至预先训练的所述候选类别对应的第一深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第一概率；其中，所述第一深度学习网络模型为将样本图像帧作为预设结构的深度学习网络模型的输入特征，将所述样本图像帧的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本图像帧包括属于所述候选类别的正样本图像帧和不属于所述候选类别的负样本图像帧；所述样本图像帧的标签表示所述样本图像帧属于所述候选类别或者不属于所述候选类别；

可选的，所述确定模块402，具体被配置为执行获取所述预设时间段内所述目标视频中预设时长的语音数据；

可选的，所述确定模块402，具体被配置为执行获取用户输入的针对所述视频图像帧的评论文本；

计算所述评论文本与所述候选类别的语义相关度；

可选的，所述展示模块403，具体被配置为执行将所述目标视频展示在所述目标类别对应的展示区域；或者，

展示包含有所述目标类别的所述目标视频的视频封面。

图5是根据一示例性实施例示出的一种用于展示视频的电子设备500的框图。例如，电子设备500可以被提供为一服务器。参照图5，电子设备500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述视频的展示方法。

电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理，一个有线或无线网络接口550被配置为将电子设备500连接到网络，和一个输入输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似操作系统。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频的展示方法，其特征在于，所述方法包括：

获取目标视频在预设时段内的视频图像帧和语音数据，并对所述视频图像帧进行图像识别得到所述视频图像帧中的关键信息，所述视频图像帧中的关键信息包括所述视频图像帧中显示的对象；

根据所述目标类别对所述目标视频进行展示；

所述基于所述视频图像帧中的关键信息确定所述目标视频的目标类别，包括：

基于所述候选类别，确定所述目标视频的目标类别，包括，基于所述候选类别，根据所述目标视频中的语音数据，确定所述目标视频的目标类别，或者，

基于所述候选类别，根据所述目标视频的视频图像帧的评论文本，确定所述目标视频的目标类别，或者，

基于所述候选类别，根据所述目标视频中的视频图像帧、所述目标视频中的语音数据和所述目标视频的视频图像帧的评论文本，确定所述目标视频的目标类别。

2.根据权利要求1所述的视频的展示方法，其特征在于，所述基于所述候选类别，根据所述目标视频中的语音数据，确定所述目标视频的目标类别，包括：

获取预设时间段内所述目标视频中预设时长的语音数据；

3.根据权利要求1所述的视频的展示方法，其特征在于，所述基于所述候选类别，根据所述目标视频的视频图像帧的评论文本，确定所述目标视频的目标类别，包括：

获取用户输入的针对所述视频图像帧的评论文本；

计算所述评论文本与所述候选类别的语义相关度；

4.根据权利要求1所述的视频的展示方法，其特征在于，所述基于所述候选类别，根据所述目标视频中的视频图像帧、所述目标视频中的语音数据和所述目标视频的视频图像帧的评论文本，确定所述目标视频的目标类别，包括：

获取预设时间段内所述目标视频中预设时长的语音数据，并将所述语音数据输入至预先训练的所述候选类别对应的第二深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第二概率；其中，所述第二深度学习网络模型为将样本语音数据作为预设结构的深度学习网络模型的输入特征，将所述样本语音数据的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本语音数据包括属于所述候选类别的正样本语音数据和不属于所述候选类别的负样本语音数据；所述样本语音数据的标签表示所述样本语音数据属于所述候选类别或者不属于所述候选类别；

5.根据权利要求1所述的视频的展示方法，其特征在于，所述根据所述目标类别对所述目标视频进行展示，包括：

展示包含有所述目标类别的所述目标视频的视频封面。

6.一种视频的展示装置，其特征在于，所述装置包括：

识别模块，被配置为执行获取目标视频在预设时段内的视频图像帧和语音数据，并对所述视频图像帧进行图像识别得到所述视频图像帧中的关键信息，所述视频图像帧中的关键信息包括所述视频图像帧中显示的对象；

展示模块，被配置为执行根据所述目标类别对所述目标视频进行展示；

所述确定模块，具体被配置为执行基于预设的关键信息与类别的对应关系，确定所述视频图像帧中的关键信息对应的类别，作为候选类别；基于所述候选类别，确定所述目标视频的目标类别，包括，

基于所述候选类别，根据所述目标视频中的语音数据，确定所述目标视频的目标类别，或者，

7.根据权利要求6所述的视频的展示装置，其特征在于，所述确定模块，具体被配置为执行获取预设时间段内所述目标视频中预设时长的语音数据；

8.根据权利要求6所述的视频的展示装置，其特征在于，所述确定模块，具体被配置为执行获取用户输入的针对所述视频图像帧的评论文本；

计算所述评论文本与所述候选类别的语义相关度；

9.根据权利要求6所述的视频的展示装置，其特征在于，所述确定模块，具体被配置为执行将所述视频图像帧输入至预先训练的所述候选类别对应的第一深度学习网络模型中，得到所述目标视频属于所述候选类别的概率，作为第一概率；其中，所述第一深度学习网络模型为将样本图像帧作为预设结构的深度学习网络模型的输入特征，将所述样本图像帧的标签作为所述深度学习网络模型的输出特征，对所述深度学习网络模型进行训练得到的；所述样本图像帧包括属于所述候选类别的正样本图像帧和不属于所述候选类别的负样本图像帧；所述样本图像帧的标签表示所述样本图像帧属于所述候选类别或者不属于所述候选类别；

10.根据权利要求6所述的视频的展示装置，其特征在于，所述展示模块，具体被配置为执行将所述目标视频展示在所述目标类别对应的展示区域；或者，

展示包含有所述目标类别的所述目标视频的视频封面。

11.一种电子设备，其特征在于，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5任一所述的视频的展示方法。

12.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5任一所述的视频的展示方法。