CN114491153A

CN114491153A - 封面图像的确定方法、介质、装置和计算设备

Info

Publication number: CN114491153A
Application number: CN202210126016.1A
Authority: CN
Inventors: 赵栋; 许盛辉; 潘照明
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-05-13

Abstract

本公开的实施方式提供了一种封面图像的确定方法、介质、装置和计算设备，该方法包括：提取目标视频中包含的音频信息，确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，根据音频信息的声音属性信息，确定音频片段的精彩度，根据精彩度和相关度，确定目标视频的封面图像。本公开能够获得更具有吸引力的封面图像，从而能够提高视频的点击率；且在确定封面图像时，处理效率更高。

Description

封面图像的确定方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及图像处理技术领域，更具体地，本公开的实施方式涉及一种封面图像的确定方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着移动设备和网络媒体的快速增长，越来越多的人喜欢在网上发布或观看视频。视频通常以封面图像和文本标题的形式呈现在视频或流媒体网站或者应用程序上，其中，封面图像是吸引用户点击视频的重要因素，因此，如何创建有吸引力的封面图像来提高视频的点击率，对于视频发布者和流媒体网站就尤为关键。

相关技术中，在确定视频的封面图像时，通常是对视频包含的每一帧图像进行分析，滤除低质量和美学评价低的图像，再通过聚簇分析，选出最有代表性的一帧图像作为视频的封面图像。

但通过上述方式获得的视频的封面图像，可能存在视频的点击率较低的问题。

发明内容

本公开提供一种封面图像的确定方法、介质、装置和计算设备，以解决通过相关技术获得的视频的封面图像，可能存在的视频的点击率较低的问题。

在本公开实施方式的第一方面中，提供了一种封面图像的确定方法，包括：

提取目标视频中包含的音频信息；

确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，视频属性信息包括视频标题、视频标签或视频描述中的至少一种；

根据音频信息的声音属性信息，确定音频片段的精彩度，声音属性信息包括声音频率和声音强度中的至少一种；

根据精彩度和相关度，确定目标视频的封面图像。

在一种可能的实施方式中，确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，包括：通过预设语音识别模型对音频信息进行分析处理，获得音频信息对应的按时间排列的文字信息；通过预设相关度模型对文字信息与视频属性信息的相关程度进行分析处理，确定相关度。

在一种可能的实施方式中，根据音频信息的声音属性信息，确定音频片段的精彩度，包括：根据音频片段对应的声音频率的平均值和/或声音强度的平均值，确定精彩度。

在一种可能的实施方式中，根据精彩度和相关度，确定目标视频的封面图像，包括：根据精彩度和相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段；根据交集时间段对应的目标视频的图像，确定封面图像。

在一种可能的实施方式中，根据交集时间段对应的目标视频的图像，确定封面图像，包括：通过预设美观度模型和预设清晰度模型中的至少一个对交集时间段对应的目标视频的图像进行分析处理，确定封面图像。

第二方面，本公开实施例提供一种封面图像的确定装置，包括：

提取模块，用于提取目标视频中包含的音频信息；

第一确定模块，用于确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，视频属性信息包括视频标题、视频标签或视频描述中的至少一种；

第二确定模块，用于根据音频信息的声音属性信息，确定音频片段的精彩度，声音属性信息包括声音频率和声音强度中的至少一种；

处理模块，用于根据精彩度和相关度，确定目标视频的封面图像。

在一种可能的实施方式中，第一确定模块具体用于：通过预设语音识别模型对音频信息进行分析处理，获得音频信息对应的按时间排列的文字信息；通过预设相关度模型对文字信息与视频属性信息的相关程度进行分析处理，确定相关度。

在一种可能的实施方式中，第二确定模块具体用于：根据音频片段对应的声音频率的平均值和/或声音强度的平均值，确定精彩度。

在一种可能的实施方式中，处理模块具体用于：根据精彩度和相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段；根据交集时间段对应的目标视频的图像，确定封面图像。

在一种可能的实施方式中，处理模块在用于根据交集时间段对应的目标视频的图像，确定封面图像时，具体用于：通过预设美观度模型和预设清晰度模型中的至少一个对交集时间段对应的目标视频的图像进行分析处理，确定封面图像。

第三方面，本公开实施例提供一种计算设备，包括：处理器，以及与处理器通信连接的存储器；

存储器存储计算机执行指令；

处理器执行存储器存储的计算机执行指令，以实现如本公开第一方面所述的封面图像的确定方法。

第四方面，本公开实施例提供一种存储介质，存储介质中存储有计算机程序指令，计算机程序指令被执行时，实现如本公开第一方面所述的封面图像的确定方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如本公开第一方面所述的封面图像的确定方法。

本公开实施例提供的封面图像的确定方法、介质、装置和计算设备，通过提取目标视频中包含的音频信息，确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，根据音频信息的声音属性信息，确定音频片段的精彩度，根据精彩度和相关度，确定目标视频的封面图像。由于本公开实施例考虑了目标视频中包含的音频信息，基于音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度以及音频片段的精彩度，确定目标视频的封面图像，因此，能够获得更具有吸引力的封面图像，从而能够提高视频的点击率；且在确定封面图像时，处理效率更高。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1为公开实施例提供的一种应用场景示意图；

图2为本公开一实施例提供的封面图像的确定方法的流程图；

图3为本公开一实施例提供的声音频率的波形图的示意图；

图4为本公开一实施例提供的声音强度的波形图的示意图；

图5为本公开另一实施例提供的封面图像的确定方法的流程图；

图6为本公开一实施例提供的交集时间段的示意图；

图7为本公开一实施例提供的封面图像的确定装置的结构示意图；

图8为本公开一实施例提供的存储介质示意图；

图9为本公开一实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种封面图像的确定方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语：卷积神经网络(Convolutional NeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一；自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科，按照技术实现难度的不同，自然语言处理系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本发明人发现，创建有吸引力的封面图像能够提高视频的点击率。然而，目前视频的封面图像大都是视频创作者手动创建的，具体比如从视频中手动挑选一张图像，进行相应的编辑后作为视频的封面图像。通过上述手动方式获得的视频的封面图像的质量不高，且效率较低。

相关技术中，在确定视频的封面图像时，通常是对视频包含的每一帧图像进行分析，滤除低质量和美学评价低的图像，再通过聚簇分析，选出最有代表性的一帧图像作为视频的封面图像。但上述方式未利用视频中包含的音频信息，也未利用视频对应的文本标题等文本信息，仅仅分析视频包含的每一帧图像，因此，通过上述方式获得的视频的封面图像与视频对应的文本标题的相关性不足，进而导致可能存在视频的点击率较低的问题。且在通过上述方式获取视频的封面图像的时候，其中具体采用了多模块串行过滤的方法，导致计算量大，参数众多，可扩性不足。

另外，相关技术中，还可以通过以下方式确定视频的封面图像：从视频中均匀抽取多帧图像，例如19帧图像，然后通过深度学习算法对图像进行打分，其中，深度学习算法中考虑到了人脸因素的影响。但上述方式未利用视频中包含的音频信息，也未利用视频对应的文本标题等文本信息，仅仅分析从视频中均匀抽取的19帧图像，因此，通过上述方式获得的视频的封面图像与视频对应的文本标题的相关性不足。且上述方式属于图像打分算法，需要先从视频中抽取图像帧，再处理图像，因此，存在遗漏和步骤冗繁的问题，且逐帧处理视频，计算效率较低。

综上，相关技术主要存在以下问题：(1)采用传统方法进行质量和美学属性分析，考虑因素不足和准确率低；多模块串行处理的方法，参数众多，泛化能力弱，部署困难。(2)深度学习方法中，特征表示单一，只考虑了个别因素；步骤多，需要先抽帧，再针对图像进行处理。

基于上述问题，本公开提供一种封面图像的确定方法、介质、装置和计算设备，通过分析视频中包含的音频信息来确定视频的封面图像，能够获得更具有吸引力的封面图像，从而能够提高视频的点击率；且在确定封面图像时，处理效率更高。

应用场景总览

首先参考图1对本公开提供的方案的应用场景进行示例说明。图1为本公开实施例提供的一种应用场景示意图，如图1所示，本应用场景中，客户端101将待确定封面图像的视频发送给服务器102，服务器102确定视频的封面图像，并将该封面图像发送给客户端101，以使客户端101显示该封面图像。其中，服务器102确定视频的封面图像的具体实现过程可以参见下述各实施例的方案。

需要说明的是，图1仅是本公开实施例提供的一种应用场景的示意图，本公开实施例不对图1中包括的设备进行限定，也不对图1中设备之间的位置关系进行限定。例如，在图1所示的应用场景中，还可以包括数据存储设备，该数据存储设备相对客户端101或者服务器102可以是外部存储器，也可以是集成在客户端101或者服务器102中的内部存储器。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的用于封面图像的确定方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

首先，通过具体实施例介绍封面图像的确定方法。

图2为本公开一实施例提供的封面图像的确定方法的流程图。本公开实施例的方法可以应用于计算设备中，该计算设备可以是服务器或服务器集群等。如图2所示，本公开实施例的方法包括：

S201、提取目标视频中包含的音频信息。

本公开实施例中，示例性地，目标视频中包含图像和声音，可以通过音视频处理软件提取目标视频中包含的音频信息。音视频处理软件比如为MKVToolNix、剪映等软件。具体地，可以通过音视频处理软件打开目标视频，然后另存为动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)。另外，也可以通过编写好的音视频处理程序提取目标视频中包含的音频信息，编写好的音视频处理程序比如为用于视频编辑的Python模块(moviepy)等程序包。

S202、确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度。

其中，视频属性信息包括视频标题、视频标签或视频描述中的至少一种。

该步骤中，音频信息包含的对应时间的音频片段比如为音频信息包含的对应时间的句子或句子片段。在获得了目标视频中包含的音频信息后，可以基于该音频信息，确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度。对于如何确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，可参考后续实施例，此处不再赘述。

S203、根据音频信息的声音属性信息，确定音频片段的精彩度。

其中，声音属性信息包括声音频率和声音强度中的至少一种。

示例性地，音频信息的声音属性信息比如为通过使用语音处理的Python库(PyAudio)对音频信息进行分析获得的。图3为本公开一实施例提供的声音频率的波形图的示意图，如图3所示，示出了不同时刻对应的声音频率的波形图。图4为本公开一实施例提供的声音强度的波形图的示意图，如图4所示，示出了不同时刻对应的声音强度的波形图。该步骤中，在获得了目标视频中包含的音频信息后，可以根据音频信息的声音属性信息，确定音频片段的精彩度。对于如何根据音频信息的声音属性信息，确定音频片段的精彩度，可参考后续实施例，此处不再赘述。

S204、根据精彩度和相关度，确定目标视频的封面图像。

该步骤中，在确定了音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度以及音频片段的精彩度后，可以根据精彩度和相关度，确定目标视频的封面图像。对于如何根据精彩度和相关度，确定目标视频的封面图像，可参考后续实施例，此处不再赘述。

本公开实施例提供的封面图像的确定方法，通过提取目标视频中包含的音频信息，确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，根据音频信息的声音属性信息，确定音频片段的精彩度，根据精彩度和相关度，确定目标视频的封面图像。由于本公开实施例考虑了目标视频中包含的音频信息，基于音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度以及音频片段的精彩度，确定目标视频的封面图像，因此，能够获得更具有吸引力的封面图像，从而能够提高视频的点击率；且在确定封面图像时，处理效率更高。

图5为本公开另一实施例提供的封面图像的确定方法的流程图。在上述实施例的基础上，本公开实施例对如何确定封面图像进行进一步说明。如图5所示，本公开实施例的方法可以包括：

S501、提取目标视频中包含的音频信息。

该步骤的具体描述可以参见图2所示实施例中S201的相关描述，此处不再赘述。

本公开实施例中，图2中S202步骤可以进一步包括如下的S502和S503两个步骤：

S502、通过预设语音识别模型对音频信息进行分析处理，获得音频信息对应的按时间排列的文字信息。

示例性地，预设语音识别模型比如为通过人工智能(Artificial Intelligence，AI)语音技术获得的语音识别模型。也可以通过编写语音识别程序的方式来获得语音识别模型，比如通过使用Python语音识别(SpeechRecognition)软件包来获得语音识别模型。该步骤中，在获得了目标视频中包含的音频信息后，可以通过预设语音识别模型对音频信息进行分析处理，获得音频信息对应的按时间排列的文字信息，即获得了音频信息对应的按时间排列的音频片段。音频信息对应的按时间排列的文字信息比如为在第2秒至第4秒对应的第一句话，在第5秒至第7秒对应的第2句话，依此类推，可以得到按时间排列的文字信息。可以理解，音频信息中可能会存在有些时间对应有声音，有些时间没有对应的声音的情况，相应地，可以根据有声音的时间获得音频信息对应的按时间排列的文字信息。

S503、通过预设相关度模型对文字信息与视频属性信息的相关程度进行分析处理，确定相关度。

示例性地，预设相关度模型比如为NLP模型，NLP模型比如为双向全序编码预测器(Bidirectional Encoder Representations from Transformers，BERT)模型。该步骤中，在获得了音频信息对应的按时间排列的文字信息后，可以通过预设相关度模型对文字信息与视频属性信息的相关程度进行分析处理，确定相关度。示例性地，文字信息比如为在第2秒至第4秒对应的第一句话(即音频片段)，视频属性信息比如包括视频标题、视频标签和视频描述，通过预设相关度模型对第一句话与目标视频的视频标题的相关程度、与目标视频的视频标签的相关程度以及与目标视频的视频描述的相关程度进行分析处理，确定相关度。

本公开实施例中，图2中S203步骤可以进一步包括如下的S504步骤：

S504、根据音频片段对应的声音频率的平均值和/或声音强度的平均值，确定精彩度。

该步骤中，对于音频信息包含的对应时间的音频片段，比如可以通过使用PyAudio库对音频片段进行分析，获得音频片段中包含的每个词对应的声音频率和声音强度；根据每个词对应的声音频率，可以获得音频片段对应的声音频率的平均值；根据每个词对应的声音强度，可以获得音频片段对应的声音强度率的平均值。因此，可以根据音频片段对应的声音频率的平均值，确定音频片段的精彩度，或者，可以根据音频片段对应的声音强度的平均值，确定音频片段的精彩度，或者，可以根据音频片段对应的声音频率的平均值和声音强度的平均值，确定音频片段的精彩度。

本公开实施例中，图2中S204步骤可以进一步包括如下的S505和S506两个步骤：

S505、根据精彩度和相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段。

该步骤中，在获得了音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度以及音频片段的精彩度后，可以根据精彩度和相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段。

示例性地，图6为本公开一实施例提供的交集时间段的示意图，如图6所示，精彩度最高的音频片段是2分15秒到3分20秒，相关度最大的音频片段是2分40秒到4分19秒，因此，可以确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段为2分40秒到3分20秒。

可以理解，通过采用成熟度和准确率较高的语音识别技术和NLP技术，能够筛选出精彩度最高的音频片段与相关度最大的音频片段的交集时间段，基于交集时间段执行S506步骤，能够大大减小视频处理的范围，避免处理无关内容，提高了视频处理的效率。

S506、根据交集时间段对应的目标视频的图像，确定封面图像。

该步骤中，在确定了精彩度最高的音频片段与相关度最大的音频片段的交集时间段后，可以根据交集时间段对应的目标视频的图像，确定封面图像。

进一步地，可选的，根据交集时间段对应的目标视频的图像，确定封面图像，可以包括：通过预设美观度模型和预设清晰度模型中的至少一个对交集时间段对应的目标视频的图像进行分析处理，确定封面图像。

示例性地，预设美观度模型比如为CNN模型，将交集时间段对应的目标视频的图像输入至预设美观度模型，可以获得对应的美观度分值。预设清晰度模型比如为CNN模型，将交集时间段对应的目标视频的图像输入至预设清晰度模型，可以获得对应的清晰度分值。在一种可能的实施方式中，可以通过预设美观度模型对交集时间段对应的目标视频的图像进行分析处理，根据获得的图像对应的美观度分值，确定封面图像。在另一种可能的实施方式中，可以通过预设清晰度模型对交集时间段对应的目标视频的图像进行分析处理，根据获得的图像对应的清晰度分值，确定封面图像。在又一种可能的实施方式中，通过深度CNN模型，比如神经图像评估(Neural Image Assessment，NIMA)模型，具有预设美观度模型和预设清晰度模型两个模型的功能，即能够同时考虑图像的美观度和清晰度合二为一，确定封面图像。

本公开实施例提供的封面图像的确定方法，通过提取目标视频中包含的音频信息，通过预设语音识别模型对音频信息进行分析处理，获得音频信息对应的按时间排列的文字信息，通过预设相关度模型对文字信息与视频属性信息的相关程度进行分析处理，确定相关度；根据音频片段对应的声音频率的平均值和/或声音强度的平均值，确定精彩度；根据精彩度和相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段，根据交集时间段对应的目标视频的图像，确定封面图像。由于本公开实施例考虑了目标视频中包含的音频信息，基于音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度以及音频片段的精彩度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段，进而确定目标视频的封面图像，因此，能够获得与视频主题相关性更高的且更具有吸引力的封面图像，从而能够提高视频的点击率；且在确定封面图像时，处理效率更高。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图7对本公开示例性实施方式的封面图像的确定装置进行说明。本公开示例性实施方式的装置，可以实现前述封面图像的确定方法实施例中的各个过程，并达到相同的功能和效果。

图7为本公开一实施例提供的封面图像的确定装置的结构示意图，如图7所示，本公开实施例的封面图像的确定装置700包括：提取模块701、第一确定模块702、第二确定模块703和处理模块704。其中：

提取模块701，用于提取目标视频中包含的音频信息。

第一确定模块702，用于确定音频信息包含的对应时间的音频片段与目标视频的视频属性信息的相关度，视频属性信息包括视频标题、视频标签或视频描述中的至少一种。

第二确定模块703，用于根据音频信息的声音属性信息，确定音频片段的精彩度，声音属性信息包括声音频率和声音强度中的至少一种。

处理模块704，用于根据精彩度和相关度，确定目标视频的封面图像。

在一种可能的实施方式中，第一确定模块702可以具体用于：通过预设语音识别模型对音频信息进行分析处理，获得音频信息对应的按时间排列的文字信息；通过预设相关度模型对文字信息与视频属性信息的相关程度进行分析处理，确定相关度。

在一种可能的实施方式中，第二确定模块703可以具体用于：根据音频片段对应的声音频率的平均值和/或声音强度的平均值，确定精彩度。

在一种可能的实施方式中，处理模块704可以具体用于：根据精彩度和相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段；根据交集时间段对应的目标视频的图像，确定封面图像。

在一种可能的实施方式中，处理模块704在用于根据交集时间段对应的目标视频的图像，确定封面图像时，可以具体用于：通过预设美观度模型和预设清晰度模型中的至少一个对交集时间段对应的目标视频的图像进行分析处理，确定封面图像。

本公开实施例的装置，可以用于执行上述任一方法实施例中封面图像的确定方法的方案，其实现原理和技术效果类似，此处不再赘述。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图8对本公开示例性实施方式的存储介质进行说明。

图8为本公开一实施例提供的存储介质示意图。参考图8所示，存储介质800中存储着根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图9对本公开示例性实施方式的计算设备进行说明。

图9显示的计算设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图9为本公开一实施例提供的计算设备的结构示意图，如图9所示，计算设备900以通用计算设备的形式表现。计算设备900的组件可以包括但不限于：至少一个处理单元901、至少一个存储单元902，连接不同系统组件(包括处理单元901和存储单元902)的总线903。其中，至少一个存储单元902中存储有计算机执行指令；至少一个处理单元901包括处理器，处理器执行该计算机执行指令，以实现上文描述的方法。

总线903包括数据总线、控制总线和地址总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)9023。

存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备900也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备900还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备900的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了封面图像的确定装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种封面图像的确定方法，包括：

提取目标视频中包含的音频信息；

确定所述音频信息包含的对应时间的音频片段与所述目标视频的视频属性信息的相关度，所述视频属性信息包括视频标题、视频标签或视频描述中的至少一种；

根据所述音频信息的声音属性信息，确定所述音频片段的精彩度，所述声音属性信息包括声音频率和声音强度中的至少一种；

根据所述精彩度和所述相关度，确定所述目标视频的封面图像。

2.根据权利要求1所述的封面图像的确定方法，所述确定所述音频信息包含的对应时间的音频片段与所述目标视频的视频属性信息的相关度，包括：

通过预设语音识别模型对所述音频信息进行分析处理，获得所述音频信息对应的按时间排列的文字信息；

通过预设相关度模型对所述文字信息与所述视频属性信息的相关程度进行分析处理，确定所述相关度。

3.根据权利要求1所述的封面图像的确定方法，所述根据所述音频信息的声音属性信息，确定所述音频片段的精彩度，包括：

根据所述音频片段对应的声音频率的平均值和/或声音强度的平均值，确定所述精彩度。

4.根据权利要求1至3中任一项所述的封面图像的确定方法，所述根据所述精彩度和所述相关度，确定所述目标视频的封面图像，包括：

根据所述精彩度和所述相关度，确定精彩度最高的音频片段与相关度最大的音频片段的交集时间段；

根据所述交集时间段对应的所述目标视频的图像，确定所述封面图像。

5.根据权利要求4所述的封面图像的确定方法，所述根据所述交集时间段对应的所述目标视频的图像，确定所述封面图像，包括：

通过预设美观度模型和预设清晰度模型中的至少一个对所述交集时间段对应的所述目标视频的图像进行分析处理，确定所述封面图像。

6.一种封面图像的确定装置，包括：

提取模块，用于提取目标视频中包含的音频信息；

第一确定模块，用于确定所述音频信息包含的对应时间的音频片段与所述目标视频的视频属性信息的相关度，所述视频属性信息包括视频标题、视频标签或视频描述中的至少一种；

第二确定模块，用于根据所述音频信息的声音属性信息，确定所述音频片段的精彩度，所述声音属性信息包括声音频率和声音强度中的至少一种；

处理模块，用于根据所述精彩度和所述相关度，确定所述目标视频的封面图像。

7.根据权利要求6所述的封面图像的确定装置，所述第一确定模块，具体用于：

8.根据权利要求6所述的封面图像的确定装置，所述第二确定模块，具体用于：

9.根据权利要求6至8中任一项所述的封面图像的确定装置，所述处理模块，具体用于：

10.根据权利要求9所述的封面图像的确定装置，所述处理模块在用于根据所述交集时间段对应的所述目标视频的图像，确定所述封面图像时，具体用于：