CN109040778B

CN109040778B - 视频封面的确定方法、用户设备、存储介质及装置

Info

Publication number: CN109040778B
Application number: CN201811066290.4A
Authority: CN
Inventors: 张聪; 刘宇; 黄柯薇; 王松; 阳傲傲; 朱华东
Original assignee: Wuhan Polytechnic University
Current assignee: Wuhan Polytechnic University
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2021-01-22
Anticipated expiration: 2038-09-12
Also published as: CN109040778A

Abstract

本发明公开了视频封面的确定方法、用户设备、存储介质及装置。本发明中对视频流信息进行解码，以获得与视频流信息对应的音频流信息；基于预设音频关注度模型生成与音频流信息对应的目标音频关注度；在目标音频关注度处于预设关注度范围内时，查询与目标音频关注度对应的音频流时刻；在视频流信息中截取与音频流时刻对应的视频图片，并将视频图片作为视频封面。在本发明中将直接对音频流信息进行处理，提高了工作效率；同时引入音频关注度，可计算出各个音频流时刻的音频关注度，并基于音频关注度来挑选符合条件的视频封面，不会遗漏掉视频画面。所以，可认为，解决了在生成封面的过程中存在着的无法平衡高效率以及高封面质量的技术问题。

Description

视频封面的确定方法、用户设备、存储介质及装置

技术领域

本发明涉及视频信息处理技术领域，尤其涉及视频封面的确定方法、用户设备、存储介质及装置。

背景技术

随着网络直播的不断兴起，越来越多的人花费较多的时间在各大直播平台上观看网络直播。但是，直播平台上存在着大量的直播主播以及其自己的直播房间，可参见图1，为了便于直播平台的访问者能够快速地挑选出自身感兴趣的直播房间并迅速地了解各直播房间中的现况，直播平台中用于展示各直播房间的封面就尤为重要。

为了生成直播房间的封面，可先获取处于直播状态的实时视频流，并对获取到的实时视频流进行一定处理，将实时视频流中较为精彩的图片作为直播房间的封面进行展示，以吸引访问者进行点阅。

但是，实时视频流的数据量较为庞大，对实时视频流进行处理的处理操作极为消耗中央处理器(Central Processing Unit，CPU)的运算量，效率较低。虽然，可对该处理操作进行优化以提高工作效率，比如，对视频流的处理可采用间隔分帧的方式，即并不对视频流的全部帧进行处理，而是，隔几个视频帧处理一次，虽然该种高效处理视频流的方式在一定程度上缓解了CPU的处理压力，但是，可能会遗漏掉很多精彩部分的视频帧，导致封面的质量不高，不吸引访问者进行点阅。

所以，在生成封面的过程中存在着无法平衡高效率以及高封面质量的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供视频封面的确定方法、用户设备、存储介质及装置，旨在解决在生成封面的过程中存在着的无法平衡高效率以及高封面质量的技术问题。

为实现上述目的，本发明提供一种视频封面的确定方法，所述视频封面的确定方法包括以下步骤：

在获取到视频流信息时，对所述视频流信息进行解码，以获得与所述视频流信息对应的音频流信息；

基于预设音频关注度模型生成与所述音频流信息对应的目标音频关注度；

在所述目标音频关注度处于预设关注度范围内时，查询与所述目标音频关注度对应的音频流时刻；

在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面。

优选地，所述在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面，包括：

在所述视频流信息中截取与所述音频流时刻对应的视频图片；

对所述视频图片进行图像识别，以识别出所述视频图片中与预设游戏参数类型对应的目标游戏参数；

在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面。

优选地，所述在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面，包括：

在所述预设游戏参数类型为游戏人数时，获取与所述游戏人数对应的目标游戏人数参数；

在所述目标游戏人数参数处于预设人数参数范围内时，将与所述目标游戏人数参数对应的视频图片作为所述视频流信息的视频封面。

优选地，所述在所述视频流信息中截取与所述音频流时刻对应的视频图片之后，所述视频封面的确定方法还包括：

在获取到当前电子游戏标识时，根据所述当前电子游戏标识确定预设游戏界面中的待读取区域控件；

相应地，所述对所述视频图片进行图像识别，以识别出所述视频图片中与预设游戏参数类型对应的目标游戏参数，包括：

对所述视频图片进行图像识别，以识别出所述视频图片中的所述待读取区域控件；

确定所述待读取区域控件所处的目标控件位置；

在所述视频图片中的所述目标控件位置处读取与预设游戏参数类型对应的目标游戏参数。

优选地，所述预设音频关注度模型包括自底而上音频关注度模型；

相应地，所述基于预设音频关注度模型生成与所述音频流信息对应的目标音频关注度，包括：

通过自底而上音频关注度模型从所述音频流信息中提取音源方位变化信息，根据所述音源方位变化信息确定对应的目标音频关注度。

优选地，所述音源方位变化信息包括双耳强度差变化信息；

相应地，所述通过自底而上音频关注度模型从所述音频流信息中提取音源方位变化信息，根据所述音源方位变化信息确定对应的目标音频关注度，包括：

通过自底而上音频关注度模型对所述音频流信息进行时域频域转换，以获得频域信号；

将所述频域信号划分为预设数量的各子带信号，并确定所述子带信号的当前子带双耳强度差；

计算所述当前子带双耳强度差与预设子带双耳强度差之间的双耳强度差变化信息，并将所述双耳强度差变化信息设为目标音频关注度。

优选地，所述预设音频关注度模型包括自顶而下音频关注度模型；

基于自顶而下音频关注度模型将所述音频流信息划分为预设频率通道下的通道频率信号与预设时间通道下的时间频率信号；

根据所述通道频率信号与所述时间频率信号确定对应的基础音频关注度；

基于预设自动编码机对所述音频流信息进行训练，以获得与所述音频流信息对应的目标音源权重；

根据所述基础音频关注度与所述目标音源权重确定对应的目标音频关注度。

此外，为实现上述目的，本发明还提出一种用户设备，所述用户设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频封面的确定程序，所述视频封面的确定程序配置为实现如上文所述的视频封面的确定方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有视频封面的确定程序，所述视频封面的确定程序被处理器执行时实现如上文所述的视频封面的确定方法的步骤。

此外，为实现上述目的，本发明还提出一种视频封面的确定装置，所述视频封面的确定装置包括：

音频流解码模块，用于在获取到视频流信息时，对所述视频流信息进行解码，以获得与所述视频流信息对应的音频流信息；

关注度生成模块，用于基于预设音频关注度模型生成与所述音频流信息对应的目标音频关注度；

时刻确定模块，用于在所述目标音频关注度处于预设关注度范围内时，查询与所述目标音频关注度对应的音频流时刻；

封面截取模块，用于在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面。

本发明中为了高效地生成高质量的视频封面，将先解码出视频流信息的音频流信息，并引入预设音频关注度模型以获得各个音频流时刻的音频关注度，当音频关注度处于预设关注度范围内时，截取出与音频关注度对应的音频流时刻的视频图片，并将之设为视频封面。明显地，本发明中由于直接对音频流信息进行处理，大大地缓解了CPU的计算压力，提高了工作效率；而且，由于同时引入了音频关注度，可计算出各个音频流时刻的音频关注度，并基于音频关注度来挑选符合条件的视频封面，不会漏掉精彩的视频瞬间。所以，可认为，解决了在生成封面的过程中存在着的无法平衡高效率以及高封面质量的技术问题。

附图说明

图1为直播房间的封面示意图；

图2是本发明实施例方案涉及的硬件运行环境的用户设备结构示意图；

图3为本发明视频封面的确定方法第一实施例的流程示意图；

图4为本发明视频封面的确定方法第二实施例的流程示意图；

图5为本发明视频封面的确定方法第三实施例的流程示意图；

图6为本发明视频封面的确定装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图2，图2为本发明实施例方案涉及的硬件运行环境的用户设备结构示意图。

如图2所示，该用户设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图2中示出的结构并不构成对用户设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图2所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频封面的确定程序。

在图2所示的用户设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设；所述用户设备通过处理器1001调用存储器1005中存储的视频封面的确定程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的视频封面的确定程序，还执行以下操作：

相应地，还执行以下操作：

确定所述待读取区域控件所处的目标控件位置；

本实施例中为了高效地生成高质量的视频封面，将先解码出视频流信息的音频流信息，并引入预设音频关注度模型以获得各个音频流时刻的音频关注度，当音频关注度处于预设关注度范围内时，截取出与音频关注度对应的音频流时刻的视频图片，并将之设为视频封面。明显地，本实施例中由于直接对音频流信息进行处理，大大地缓解了CPU的计算压力，提高了工作效率；而且，由于同时引入了音频关注度，可计算出各个音频流时刻的音频关注度，并基于音频关注度来挑选符合条件的视频封面，不会漏掉精彩的视频瞬间。所以，可认为，解决了在生成封面的过程中存在着的无法平衡高效率以及高封面质量的技术问题。

基于上述硬件结构，提出本发明视频封面的确定方法的实施例。

参照图3，图3为本发明视频封面的确定方法第一实施例的流程示意图。

在第一实施例中，所述视频封面的确定方法包括以下步骤：

步骤S10：在获取到视频流信息时，对所述视频流信息进行解码，以获得与所述视频流信息对应的音频流信息。

可以理解的是，考虑到实时视频流的数据量较为庞大，若直接处理该视频流以截取出直播房间的封面，较消耗掉较为庞大的CPU运算量，无论是间隔性分帧处理视频流、定时性分帧处理视频流还是基于预先训练的人工智能模型来处理该视频流，处理对象仍然均为视频流本身，处理复杂性较高，无法克服运算量较大带来的处理效率低下的缺陷。

应当理解的是，正是为了克服掉处理效率低下缺陷并兼顾对于最终获取到的封面质量的保证，本实施例将不会直接处理视频流本身，而将间接地处理音频流，以最终提取出视频流中精彩部分的图片作为封面。

在具体实现中，若当前主播为电子游戏实况主播，获取到的视频流信息为游戏视频流信息，将先从该游戏视频流信息中分离出不含图像的音频流信息。

步骤S20：基于预设音频关注度模型生成与所述音频流信息对应的目标音频关注度。

在具体实现中，为了使得最终获取到的封面图片为内容较为精彩的图片，将引入音频关注度作为评估视频内容是否精彩的参数。其中，预设音频关注度模型用于生成每一时刻的音频流信息的音频关注度。

应当理解的是，引入音频关注度是考虑到，直播主播在直播过程中当产出的直播视频内容较为精彩时，往往伴随着数值较高的音频特征，比如，由于直播主播的情绪较为激动，音频的频率较高，响度较大等。所以，当音频流信息中的音频特征的数值较高时，对应的音频关注度也就较高。

此外，由于本实施例中处理的数据对象为解码后的音频流信息而非视频流信息本身，减少了待处理的数据量；而且，由于本实施例中并未对视频流信息进行间隔性分帧处理，并不会遗漏掉精彩部分的视频帧。

步骤S30：在所述目标音频关注度处于预设关注度范围内时，查询与所述目标音频关注度对应的音频流时刻。

可以理解的是，为了找出精彩部分的视频帧作为直播房间的封面进行展示，将预先设置数值较高的预设关注度范围，比如，预设关注度范围为70≤x≤100，x表示关注度。若目标音频关注度为80，则确定该目标音频关注度为哪个时刻的音频流信息。

步骤S40：在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面。

应当理解的是，由于并未跳帧，音频流信息的时刻次序即为视频流信息的时刻次序，则将截取出这一时刻的视频图片作为直播房间的视频封面。不仅保证了截取出的视频封面具有较高的音频关注度，也保障了并未遗漏掉一部分的视频帧。

参照图4，图4为本发明视频封面的确定方法第二实施例的流程示意图，基于上述图3所示的第一实施例，提出本发明视频封面的确定方法的第二实施例。

第二实施例中，所述步骤S40，包括：

步骤S401：在所述视频流信息中截取与所述音频流时刻对应的视频图片。

应当理解的是，考虑到音频关注度是从音频流信息层面上进行视频封面的筛选，可同时结合对于视频流信息的考量，以进一步地提高视频封面的质量。

步骤S402：对所述视频图片进行图像识别，以识别出所述视频图片中与预设游戏参数类型对应的目标游戏参数。

在具体实现中，比如，若满足预设关注度范围的视频图片存在多个，比如有，视频图片A、视频图片B以及视频图片C。若视频流信息为游戏视频流信息，电子游戏实况主播操作的电子游戏类型存在多种，而某些竞技性的电子游戏会在游戏界面上显示一些相关的游戏参数以提醒游戏用户游戏的当前进度，游戏参数类型可为游戏人数、游戏剩余时间以及游戏已持续时间等。

步骤S403：在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面。

可以理解的是，若预设游戏参数类型为游戏剩余时间，由于在进行游戏竞技时，一般地，游戏剩余时间越少，游戏的激烈程度越高，更加精彩且吸引访问者点阅。所以，可设置数值较低的预设参数范围，比如，预设参数范围可为0min≤y1≤8min，y1表示预设参数值。若在游戏界面上显示的目标游戏参数为3min，则可认为该时刻的视频内容较为精彩，将该时刻的视频图片作为视频封面。

进一步地，所述在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面，包括：

在具体实现中，若预设游戏参数类型为游戏人数，由于在进行游戏竞技时，一般地，仍处于游戏状态的游戏人数越少，游戏的激烈程度越高。所以，可设置数值较低的预设人数参数范围，比如，预设人数参数范围可为0人≤y2≤6人，y2表示预设人数参数。若在游戏界面上显示的游戏人数参数为4人，则可认为该时刻的视频内容较为精彩，将该时刻的视频图片作为视频封面。

进一步地，所述在所述视频流信息中截取与所述音频流时刻对应的视频图片之后，所述视频封面的确定方法还包括：

确定所述待读取区域控件所处的目标控件位置；

应当理解的是，考虑到不同的电子游戏，可能在游戏界面中显示的游戏参数类型不同，显示游戏参数的位置也不同，比如，可能某种游戏仅在显示屏右上角的视图控件上显示游戏人数，而某种游戏仅在显示屏左下角的视图控件上显示游戏剩余时间。

在具体实现中，为了克服游戏种类的不同带来的游戏参数的类型差异以及显示位置差异，本实施例可为不同的游戏种类设置唯一性的电子游戏标识，以对不同游戏进行编码。同时，预先设置电子游戏标识与区域控件的对应关系，比如，游戏A的游戏界面中存在显示游戏人数的区域控件A，则将先锁定区域控件A所处的位置，再对游戏A的视频图片进行图像识别，以识别出该位置上的字符信息。其中，识别出的字符信息即为游戏人数的值。

本实施例中在基于音频关注度筛选视频流信息中的视频图片的前提下，还可通过游戏界面中显示的游戏参数来进一步地筛选视频图片，从而实现了同时结合视频流信息中的音频信息与图像信息双重地筛选视频封面，以获得较高质量的视频封面，以提高访问者对于该直播房间的点阅率。

参照图5，图5为本发明视频封面的确定方法第三实施例的流程示意图，基于上述图3所示的第一实施例，提出本发明视频封面的确定方法的第三实施例。

第三实施例中，所述预设音频关注度模型包括自底而上音频关注度模型；

所述基于预设音频关注度模型生成与所述音频流信息对应的目标音频关注度，包括：

可以理解的是，计算音频关注度的模型可划分为自底而上音频关注度模型与自顶而下音频关注度模型。自底而上音频关注度模型或称自下而上音频关注度模型将依据底层的音频特征，并通过相邻的音频特征之间的显著不同来计算出音频关注度；自顶而下音频关注度模型或称自上而下音频关注度模型是以模拟人类听觉系统的选择性注意能力来获得音频关注度。

在具体实现中，若依据自底而上音频关注度模型来确定音频关注度，可引用音频方位信息作为音频特征来计算出音频关注度。其中，音频方位信息是指人耳对音频对象的空间方位的感知，特别地，当音频对象即音源发生快速移动时人耳将灵敏地注意到，所以，可基于相邻的音频方位信息之间的显著变化来计算出音频关注度。其中，相邻的音频方位信息之间的显著变化即为音源方位变化信息。

进一步地，所述音源方位变化信息包括双耳强度差变化信息；

相应地，所述步骤S20，包括：

步骤S201：通过自底而上音频关注度模型对所述音频流信息进行时域频域转换，以获得频域信号。

可以理解的是，考虑到可表示音频对象的空间方位的信息存在多种，本实施例中通过双耳强度差来作为音频方位信息，将双耳强度差变化信息作为音源方位变化信息。

在具体实现中，为了计算出音频对象在快速方位变化下的音频关注度，可先将时域下的音频流信息变化为频域下的频域信号。

步骤S202：将所述频域信号划分为预设数量的各子带信号，并确定所述子带信号的当前子带双耳强度差。

在具体实现中，可将频域信号划分为预设数量的子带，预设数量简记为N。由于频域信号中可能同时存在左右声道的能量，故而，可计算出各个子带的子带双耳强度差。具体而言，可在预设双耳强度差公式下来计算出子带信号的子带双耳强度差，至于预设双耳强度差公式为，

其中，m_i表示第i个子带的子带双耳强度差，1≤i≤N，i为正整数；P_iL表示第i个子带的子带信号中的左声道能量，P_iR表示第i个子带的子带信号中的右声道能量。

可以理解的是，在获取共N个子带的子带双耳强度差后，可将N个子带的子带双耳强度差的集合称为当前子带双耳强度差。其中，当前子带双耳强度差可记为M_N，M_N＝{m₁,m₂…m_N-1,m_N}，M_N即为当前帧的N维矢量。

步骤S203：计算所述当前子带双耳强度差与预设子带双耳强度差之间的双耳强度差变化信息，并将所述双耳强度差变化信息设为目标音频关注度。

在具体实现中，在计算出一个帧的N维矢量即M_N后，可再计算出另一个帧的N维矢量，并将这两帧进行矢量差计算，以获得矢量差。然后，计算该矢量差的均值的绝对值，该绝对值即为双耳强度差变化信息，从而得到了基于音源方位的音频关注度。

明显地，通过音源方位来计算音频关注度可以有效地监测出音频流信息中音源方位变动，而短时间的音源方位变动可认为具有极高的刺激性，所以，可依据该值来选定视频封面。

进一步地，所述预设音频关注度模型包括自顶而下音频关注度模型；

可以理解的是，除了适用自底而上音频关注度模型，还可适用自顶而下音频关注度模型来求得音频关注度。

在具体实现中，考虑到音频流信息的音频关注度主要体现在时间和频率维度的变化上，所以，通过自顶而下音频关注度模型突出时间和频率维度上的变化可以有效地表现出音频的显著性。具体步骤为，先分别从频率以及时间维度上进行音频流信息的划分，比如，可通过带通滤波器划分出24个频率通道以及24个时间通道，而且，不同的频率通道以及不同的时间通道可采用不同尺度的滤波器，所以，可得到划分后的通道频率信号以及时间频率信号。

应当理解的是，可再将划分后的通道频率信号以及时间频率信号分别进行线性合并，以获得频率关注度与时间关注度；再将频率关注度与时间关注度进行合并，即可获得基础音频关注度。

在具体实现中，还可引入对于说话人的辨识，以有效地模拟该辨识过程。具体而言，可借助叠层的自动编码机进行神经网络的训练，以不断地矫正音源权重，再通过基础音频关注度与引入多层训练的音源权重来获得音频关注度。其中，自动编码机是一种神经网络，可对音源权重值进行预训练，进而便于后续对于音频关注度大小的调整。

本实施例中可采用自底而上音频关注度模型来求得音频关注度，而且，其中所依据的空间线索为音源方位信息，更加细化地，可为双耳强度差，从而能够有效地监测出音频流信息中的音源方位变动，得出的音频关注度具有更高的参考性。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有视频封面的确定程序，所述视频封面的确定程序被处理器执行时实现如下操作：

进一步地，所述视频封面的确定程序被处理器执行时还实现如下操作：

相应地，还实现如下操作：

确定所述待读取区域控件所处的目标控件位置；

此外，参照图6，本发明实施例还提出一种视频封面的确定装置，所述视频封面的确定装置包括：

音频流解码模块10，用于在获取到视频流信息时，对所述视频流信息进行解码，以获得与所述视频流信息对应的音频流信息。

关注度生成模块20，用于基于预设音频关注度模型生成与所述音频流信息对应的目标音频关注度。

时刻确定模块30，用于在所述目标音频关注度处于预设关注度范围内时，查询与所述目标音频关注度对应的音频流时刻。

封面截取模块40，用于在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面。

在一实施例中，所述封面截取模块40，还用于在所述视频流信息中截取与所述音频流时刻对应的视频图片；对所述视频图片进行图像识别，以识别出所述视频图片中与预设游戏参数类型对应的目标游戏参数；在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面。

在一实施例中，所述封面截取模块40，还用于在所述预设游戏参数类型为游戏人数时，获取与所述游戏人数对应的目标游戏人数参数；在所述目标游戏人数参数处于预设人数参数范围内时，将与所述目标游戏人数参数对应的视频图片作为所述视频流信息的视频封面。

在一实施例中，所述视频封面的确定装置还包括：

控件确定模块，用于在获取到当前电子游戏标识时，根据所述当前电子游戏标识确定预设游戏界面中的待读取区域控件；

所述封面截取模块40，还用于对所述视频图片进行图像识别，以识别出所述视频图片中的所述待读取区域控件；确定所述待读取区域控件所处的目标控件位置；在所述视频图片中的所述目标控件位置处读取与预设游戏参数类型对应的目标游戏参数。

在一实施例中，所述关注度生成模块20，还用于通过自底而上音频关注度模型从所述音频流信息中提取音源方位变化信息，根据所述音源方位变化信息确定对应的目标音频关注度。

在一实施例中，所述关注度生成模块20，还用于通过自底而上音频关注度模型对所述音频流信息进行时域频域转换，以获得频域信号；将所述频域信号划分为预设数量的各子带信号，并确定所述子带信号的当前子带双耳强度差；计算所述当前子带双耳强度差与预设子带双耳强度差之间的双耳强度差变化信息，并将所述双耳强度差变化信息设为目标音频关注度。

在一实施例中，所述关注度生成模块20，还用于基于自顶而下音频关注度模型将所述音频流信息划分为预设频率通道下的通道频率信号与预设时间通道下的时间频率信号；根据所述通道频率信号与所述时间频率信号确定对应的基础音频关注度；基于预设自动编码机对所述音频流信息进行训练，以获得与所述音频流信息对应的目标音源权重；根据所述基础音频关注度与所述目标音源权重确定对应的目标音频关注度。

本发明所述视频封面的确定装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频封面的确定方法，其特征在于，所述视频封面的确定方法包括以下步骤：

在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面；

所述在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面，包括：

2.如权利要求1所述的视频封面的确定方法，其特征在于，所述在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面，包括：

3.如权利要求1所述的视频封面的确定方法，其特征在于，所述在所述视频流信息中截取与所述音频流时刻对应的视频图片之后，所述视频封面的确定方法还包括：

确定所述待读取区域控件所处的目标控件位置；

4.如权利要求1至3中任一项所述的视频封面的确定方法，其特征在于，所述预设音频关注度模型包括自底而上音频关注度模型；

5.如权利要求4所述的视频封面的确定方法，其特征在于，所述音源方位变化信息包括双耳强度差变化信息；

6.如权利要求1至3中任一项所述的视频封面的确定方法，其特征在于，所述预设音频关注度模型包括自顶而下音频关注度模型；

根据所述基础音频关注度与所述目标音源权重确定对应的目标音频关注度；

所述通道频率信号为经过所述预设频率通道的滤波器处理的音频信号。

7.一种用户设备，其特征在于，所述用户设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行视频封面的确定程序，所述视频封面的确定程序被所述处理器执行时实现如权利要求1至6中任一项所述的视频封面的确定方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有视频封面的确定程序，所述视频封面的确定程序被处理器执行时实现如权利要求1至6中任一项所述的视频封面的确定方法的步骤。

9.一种视频封面的确定装置，其特征在于，所述视频封面的确定装置包括：

封面截取模块，用于在所述视频流信息中截取与所述音频流时刻对应的视频图片，并将所述视频图片作为所述视频流信息的视频封面；

所述封面截取模块，还用于在所述视频流信息中截取与所述音频流时刻对应的视频图片；

所述封面截取模块，还用于对所述视频图片进行图像识别，以识别出所述视频图片中与预设游戏参数类型对应的目标游戏参数；

所述封面截取模块，还用于在所述目标游戏参数处于预设参数范围内时，将与所述目标游戏参数对应的视频图片作为所述视频流信息的视频封面。