CN110532422B

CN110532422B - 封面生成装置和方法、电子设备和计算机可读存储介质

Info

Publication number: CN110532422B
Application number: CN201910726787.2A
Authority: CN
Inventors: 彭冲
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2022-03-08
Anticipated expiration: 2039-08-07
Also published as: CN110532422A

Abstract

提供了一种封面生成装置和封面生成方法。该封面生成装置包括：音频获取单元，用于获取可视化数据中的音频数据；情感提取单元，用于从所述音频数据中提取情感性信息；图像提取单元，用于基于所述情感性信息从可视化数据中提取对应的图像数据；封面生成单元，用于基于所提取的图像数据来生成用于所述可视化数据的封面。

Description

封面生成装置和方法、电子设备和计算机可读存储介质

技术领域

本公开涉及信息处理技术领域，更具体地，涉及一种基于可视化数据中的音频信息来生成封面的封面生成装置和封面生成方法，以及相应的电子设备和计算机可读存储介质。

背景技术

随着信息技术的发展，数据资源逐渐丰富。数据资源的形式是多样化的，例如，其可包括文本数据、图像数据、音频数据、视频数据、代码数据等。所述文本数据、图像数据、视频数据和代码数据等都能够以视觉感官来展现，即可视化数据。为了帮助用户快速找到所需要的数据资源，通常为各个数据资源附加适当的封面。

以视频交互平台的上的视频数据为例，在视频数据被制作完成之后，可以通过录制个性化的视频内容或通过编辑醒目的标题来制作封面，从而引起用户对视频数据的关注。对于用户而言，用户通常会先通过观看视频数据的封面来判断是否选择观看该视频，如果视频数据的封面没有引起用户的观看兴趣，用户很可能不会选择打开该视频。因此，通过视频封面，可能快速地向客户传达视频数据中的信息，并吸引用户点击浏览该视频数据，从而提高视频数据的访问量。此外，在购物网站、新闻网页、广告平台等中也需要针对各种数据资源生成封面。例如，在安装于手机的美团点评的应用中，对于旅游景点“圆明园”的视频数据，通常会录制动态封面来向用户展示“圆明园”中的精华部分。

典型地，对于待上传的视频数据，可以从随机地从待上传的视频数据中选择一帧图像作为该视频数据的封面。随机选择的封面很可能反应不出该视频数据的特点。相应地，该视频数据不能被合适的用户发现，从而对该视频数据的访问量造成不利影响。

发明内容

本公开涉及一种封面生成装置和封面生成方法。在本公开中，利用视频数据中的音频信息的情感性信息来生成封面，从而使该封面能够表征在视频数据中隐含的信息，并相应地代表该视频数据的典型特征。该情感性信息有较大可能性来引起用户的情感共鸣，从而更好地反映视频数据中的代表性特征，从而提高用户对视频数据的关注程度。

根据本公开的第一方面，提供了一种封面生成装置。该封面生成装置可包括：音频获取单元，用于获取可视化数据中的音频数据；情感提取单元，用于从所述音频数据中提取情感性信息；图像提取单元，用于基于所述情感性信息从可视化数据中提取对应的图像数据；封面生成单元，用于基于所提取的图像数据来生成用于所述可视化数据的封面。

结合第一方面，在第一方面的一种实现方式中，所述情感提取单元可包括：预处理模块，用于对所述音频数据进行预处理而得到音频特征样本；情感提取模块，用于利用一音频情感模型从所述音频特征样本中提取情感性信息。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述预处理模块可对所述音频数据进行时间片划分形成多个音频时间片，并对所述多个音频时间片进行特征提取形成多个音频特征样本。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述情感提取模块可将所述多个音频特征样本输入至一音频情感模型后得到对应的多个情感性向量作为情感性信息。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述情感性信息包括多个情感性向量，所述图像提取单元基于所述多个情感性向量获得所述多个情感性向量之间的音频情感变化，并基于所述音频情感变化从所述可视化数据中提取至少两个可视化数据片段作为对应的图像数据。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述情感性信息可包括与所述多个音频特征样本对应的多个情感性向量，所述图像提取单元可包括：计算模块，用于计算时间上相邻的两个情感性向量之间的距离作为相邻的两个音频时间片之间的音频情感变化量；确定模块，用于根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片；和图像提取模块，从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的至少两个可视化数据片段，作为对应的图像数据。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述封面生成单元可通过合成所提取的所述至少两个可视化数据片段中部分或全部的可视化数据而生成用于所述可视化数据的动态封面。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述封面生成单元可从所述至少两个可视化数据片段中选取图像质量大于预设阈值的图像帧来生成用于所述可视化数据的静态封面。

根据本公开的第二方面，提供了一种封面生成方法。该封面生成方法可包括：获取可视化数据中的音频数据；从所述音频数据中提取情感性信息；基于所述情感性信息从可视化数据中提取对应的图像数据；基于所提取的图像数据来生成用于所述可视化数据的封面。

结合第二方面，在第二方面的一种实现方式中，所述从所述音频数据中提取情感性信息可包括：对所述音频数据进行预处理而得到音频特征样本；利用一音频情感模型从所述音频特征样本中提取情感性信息。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述对所述音频数据进行预处理而得到音频特征样本可包括：对所述音频数据进行时间片划分形成多个音频时间片；对所述多个音频时间片进行特征提取形成多个音频特征样本。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述利用一音频情感模型从所述音频特征样本中提取情感性信息可包括：将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量作为情感性信息。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述情感性信息可包括多个情感性向量，所述基于所述情感性信息从可视化数据中提取对应的图像数据可包括：基于所述多个情感性向量获得所述多个情感性向量之间的音频情感变化；基于所述音频情感变化从所述可视化数据中提取至少两个可视化数据片段作为对应的图像数据。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述情感性信息可包括与所述多个音频特征样本对应的多个情感性向量，所述基于所述情感性信息从可视化数据中提取对应的图像数据可包括：计算时间上相邻的两个情感性向量之间的距离作为相邻的两个音频时间片之间的音频情感变化量；根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片；从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的至少两个可视化数据片段，作为对应的图像数据。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述基于所提取的图像数据来生成用于所述可视化数据的封面可包括：通过合成所提取的所述至少两个可视化数据片段中部分或全部的可视化数据而生成用于所述可视化数据的动态封面。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述基于所提取的图像数据来生成用于所述可视化数据的封面可包括：从所述至少两个可视化数据片段中选取图像质量大于预设阈值的图像帧来生成用于所述可视化数据的静态封面。

根据本公开的第三方面，提供了一种电子设备。该电子设备可包括：存储器，用于存储计算机可执行指令；控制器，当运行所述计算机可执行指令时，用于促使所述电子设备执行第二方面及其上述实现方式中任一项所述的封面生成方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的任一项封面生成方法中的步骤。

在根据本公开的各个实施方式的封面处理的技术方案中，通过从可视化数据的音频数据中提取情感性信息，并基于情感性信息来生成封面，从而使该封面能够表征在可视化数据中隐含的信息，并相应地代表该可视化数据的典型特征。该情感性信息有较大可能性来引起用户的情感共鸣，从而更好地反映可视化数据中的代表性特征，提高用户对可视化数据的关注程度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为示意性图示了根据本公开第一实施例的封面生成装置的框图；

图2为示意性图示了根据本公开第一实施例的封面生成装置中的情感提取单元的框图；

图3为示意性图示了根据本公开第一实施例的封面生成装置中的图像提取单元的框图；

图4为图示了利用本公开第一实施例的封面生成装置对视频数据的处理过程的示意图；

图5为图示了根据本公开第二实施例的封面生成方法的流程图；

图6为图示了根据本公开第二实施例的封面生成方法中的提取情感性信息的过程的流程图；

图7为图示了根据本公开第二实施例的封面生成方法中的基于情感性信息生成封面的过程的流程图；

图8为示意性图示了根据本公开第三实施例的电子设备的框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

接下来要介绍的示例仅是相应的具体例子，而不作为限制本发明的实施例必须为示出和描述的具体的外形、硬件、连接关系、步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

本公开的用于处理封面的设备和方法的实施例可适用于各种数据资源，典型地，用于视频数据、包括音频信息的文本数据等。本公开的应用场景可以是任何需要生成或展示封面的场景，包括但不限于购物网站中的产品的封面、新闻数据的封面、广告平台中的宣传内容的封面等。

在本公开中，利用可视化数据中的音频信息的情感性信息来生成封面，从而使该封面能够表征在可视化数据中隐含的信息，并相应地代表该可视化数据的典型特征。该情感性信息有较大可能性来引起用户的情感共鸣，从而更好地反映可视化数据中的代表性特征，从而提高用户对可视化数据的关注程度，提高可视化数据的点击率。

图1为示意性图示了根据本公开第一实施例的封面生成装置100的框图。如图1所示，该封面生成装置100可包括音频获取单元110、情感提取单元120、图像提取单元130和封面生成单元140。所述音频获取单元110可用于获取可视化数据中的音频数据。情感提取单元120可用于从所述音频数据中提取情感性信息。图像提取单元130可基于所述情感性信息从可视化数据中提取对应的图像数据。封面生成单元140可基于所提取的图像数据来生成用于所述可视化数据的封面。该封面生成装置100可以被实现在平板计算机、个人计算机、服务器、云服务器等多种电子设备上。

所述可视化数据可以是包括音频数据的任何可视的数据，其例如为视频数据、包括音频信息的文本数据等。在可视化数据中，不仅包括用户可通过视觉观看的图像信息，还可以包括通过听觉可以感受的音频信息。音频信息可以是可视化数据中涉及的人物的声音信息，还可以是可视化数据中的背景音乐信息，该背景音乐信息例如可以衬托可视化数据中展示的情节。该音频信息的具体音频范围或来源都不构成对本公开实施例的限制。在下文中，以可视化数据为视频数据进行描述，但是这仅仅示例，不能认为是对本公开的限制。

音频获取单元110可用于获取可视化数据中的音频数据。在可视化数据是视频数据的情况中，取决于可视化数据的格式或生成方式等，音频获取单元110可以采用各种音频提取器、音频提取软件应用的各种方式来实现，并且可以采用将来出现的各种器件或产品来实现。此外，该音频获取单元110可以分离视频数据中包括的音频数据和图像数据，并保留在所分离的音频数据和图像数据之间的对应关系。作为示例，音频获取单元110可以利用存储器和处理器来实现，存储器上存储用于获取可视化数据中的音频数据的程序，该程序由处理器执行来获取可视化数据中的音频数据。

情感提取单元120从音频获取单元110所获取的音频数据中提取情感性信息。情感提取单元120可以采用现有的或将来出现的各种技术来提取音频数据中的情感性信息。作为提取情感性信息的技术示例，情感提取单元120可以建立情感库、提取语音情感特征、特征降维与选择、情感识别；或者情感提取单元120还可以对音频数据进行预处理，并然后利用卷积神经网络从预处理的音频数据中提取情感性信息。

图2为示意性图示了根据本公开第一实施例的封面生成装置100中的情感提取单元120的框图。如图2所示，情感提取单元120可包括预处理模块121和情感提取模块122。预处理模块121可对所述音频数据进行预处理而得到音频特征样本。情感提取模块122可利用一音频情感模型从所述音频特征样本中提取情感性信息。

在一种实现方式中，预处理模块121可以对所述音频数据进行时间片划分形成多个音频时间片，并对所述多个音频时间片进行特征提取形成多个音频特征样本。相应地，情感提取模块122可以将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量作为情感性信息。作为示例，预处理模块121可对所述音频数据进行时间片划分、特征提取、和归一化处理而得到预定数目的音频特征样本。通过预处理模块121的预处理，音频数据被转化为可以由音频情感模型可以处理的音频特征样本，并然后情感提取模块122输出与多个音频特征样本对应的多个情感性向量作为情感性信息。

预处理模块121例如可将音频数据均匀地划分为多个音频时间片，或者还可以基于音频数据中的频谱变化或频谱范围来在时间上划分所述音频数据。然后，预处理模块121可以对各个音频时间片的音频数据进行特征提取，例如其将各个音频时间片的音频数据进行傅里叶变换而转换为频域数据，然后利用滤波器组从频域数据中提取梅尔倒谱系数(MFCC，Mel-scale Frequency Cepstral Coefficients)特征，对MFCC特征进行归一化处理，从而得到预定数目的音频特征样本，并将该预定数目的音频特征样本输入到情感提取模块122。梅尔频率是基于人耳听觉特性提出来的，它与赫兹频率成非线性对应关系。MFCC则是利用它们之间的这种关系，计算得到的赫兹频谱特征。MFCC在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的研究成果，其能够提高语音识别系统的性能。上述的预处理仅仅是示例，在具体应用中还可能涉及加窗处理等。该预处理取决于提取情感性信息的方式的不同而变化。

对于预处理模块121所获得的k个音频特征样本，该k是自然数，其值可以是100、500、1000等。该k个音频特征样本可被输入到情感提取模块122，情感提取模块122利用音频情感模型从音频特征样本中提取情感性信息。音频情感模型例如利用卷积神经网络来生成。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络可通过如下方式训练，对音频特征样本进行逐层训练，通过特征的逐层表达实现高层显著特征的凸显，最终生成音频情感模型。作为示例，可通过卷积神经网络从语谱图中提取相关卷积特征，将卷积特征与传统声学特征进行融合，构建基于特征优化的多级支持向量机(SVM)模型。情感提取模块122可以将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量，作为情感性信息。作为示例，该多个情感性向量可以与所述多个音频特征样本一一对应；或者，多个情感性向量之一还可以对应于多个音频特征样本中的两个或更多音频特征样本，特别是在该两个或更多音频特征样本近似的情况下。

此外，在音频情感模型被使用之前，还可以对已训练的卷积神经网络的音频情感模型进行验证。作为示例，在获得音频情感模型之后，可以向对应的已训练的卷积神经网络输入具有预定的情感性向量的音频特征样本，将从该已训练的卷积神经网络输出的情感性向量与所述预定的情感性向量进行比较。如果所输出的情感性向量与所述预定的情感性向量的差值小于预定阈值，则验证所述音频情感模型可用。如果所输出的情感性向量与所述预定的情感性向量的差值大于等于预定阈值，则所述音频情感模型有待提高，可继续训练卷积神经网络。

图1中的图像提取单元130可以基于所述情感性信息从可视化数据中提取对应的图像数据。以可视化数据是视频数据为例，视频数据包括图像数据和音频数据，图像提取单元130可基于所述情感性信息从所述视频数据中提取视频数据片段作为图像数据。包括音频信息的文本数据也可包括图像数据(即文本图像)和音频数据，图像提取单元130可基于所述情感性信息从所述包括音频信息的文本数据中提取文本图像。该情感性信息可以是情感性向量，还可以是任何其它能够表征情感的参数。不同的情感性向量可能表征不同的情况，例如开心、伤心、惊奇等。

图像提取单元130可以基于所述多个情感性向量获得所述多个情感性向量之间的音频情感变化，并基于所述音频情感变化从所述可视化数据中提取至少两个可视化数据片段作为对应的图像数据。作为示例，图像提取单元130可以从各个音频情感变化中确定所需要的音频情感变化，并从所述可视化数据中提取与所需要的音频情感变化对应的至少两个可视化数据片段。根据需要，该图像提取单元130也可以提取一个可视化数据片段。音频情感变化可以是所述多个情感性向量中的任意两个情感性向量之间的音频情感变化，包括时间上相邻的两个情感性向量之间的音频情感变化。

图3为示意性图示了根据本公开第一实施例的封面生成装置中的图像提取单元130的框图。如图3所示，图像提取单元130可包括计算模块131、确定模块132和图像提取模块133。

计算模块131可用于基于所述情感性信息计算所述音频数据中的音频情感变化。该音频情感变化可以是两个不同的情感性向量之间的距离，例如cos距离、欧式距离等。该距离越大，则情感变化越大；该距离越大，则情感变化越小。该两个不同的情感性向量可以是所有情感性向量之中的任两个情感性向量，也可以是在时间上相邻的两个音频数据所对应的情感性向量。

确定模块132可用于根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片。替换地，确定模块132可用于根据所述音频情感变化量确定具有最小音频情感变化量的两个音频时间片，或者确定具有特定音频情感变化量的两个音频时间片。该特定音频情感变化量可以是特定的数值，还可以是特定的范围。

图像提取模块133可从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的至少两个可视化数据片段，作为对应的图像数据。替换地，图像提取模块133可以从可视化数据中提取与具有最小音频情感变化量的两个音频时间片对应的至少两个可视化数据片段。另外，图像提取模块133可以从可视化数据中提取与具有特定音频情感变化量的两个音频时间片对应的至少两个可视化数据片段。所选择的可视化数据片段可以是时间上相邻的可视化数据片段，也可以是具有间隔的可视化数据片段。所选择的可视化数据片段的数量可以是两个，也可以是三个或更多。可视化数据片段的选择方式可以根据观看用户的喜好来确定。

图1中的封面生成单元140可用于基于图像提取模块133所提取的图像数据来生成用于所述可视化数据的封面。封面生成单元140可基于图像提取单元130所提取的至少两个可视化数据片段来生成用于所述可视化数据的封面。所生成的封面可以是动态封面，也可以是静态封面。在静态封面的情况中，封面生成单元140可以从所提取的图像数据中选取一帧图像作为封面。在所生成的封面中可以包括音频信息，也可以不包括音频信息。

作为一种实施示例，封面生成单元140可通过合成图像提取模块133所提取的至少两个可视化数据片段中的一部分或全部而生成用于所述可视化数据的动态封面。关于合成所述至少两个可视化数据片段中的一部分还是全部，例如可以根据动态封面的时间长度来确定。如果要求动态封面的时间长度比较短，则可以选取所述至少两个可视化数据片段中的一部分。

作为另一种实施示例，封面生成单元140可以从图像提取模块133所提取的至少两个可视化数据片段中选取图像质量大于预设阈值的图像帧来生成用于所述可视化数据的静态封面。作为示例，可以选取图像质量大于预设阈值的一帧图像直接作为静态封面，还可以选取图像质量大于预设阈值的至少两帧图像并将该至少两帧图像拼接成一副图像作为静态封面。

音频情感变化可以如上所述设置为两个不同的情感性向量之间的距离。在这种情况下，可以量化音频情感变化，例如为音频情感变化分。在图像提取模块133从可视化数据中选择与具有最大距离的两个情感性向量对应的两个可视化数据片段之后，计算模块131还可以计算具有最大距离的两个情感性向量之间的音频情感变化分。在该音频情感变化分用两个情感性向量之间的距离定义的情况下，该音频情感变化分为所述最大距离。或者，可以以其它方式定义音频情感变化，计算模块131的计算方式也相应地变化。该音频情感变化分用于表征所述可视化数据的音频情感变化，以量化的方式表征所生成的封面的情感信息。

在为多个可视化数据的每个生成封面的情况下，可以记录每个封面的音频情感变化分。此后，统计多个可视化数据的点击量，从而找出在可视化数据的封面的音频情感变化分与可视化数据的点击量之间的关系。根据该关系，可以判断具有哪些音频情感变化分的封面更能引起用户关注，可以在后续指导封面生成单元生成用于可视化数据的封面的方式，例如选择与具有能引起用户关注的音频情感变化分对应的可视化数据片段来生成封面。

在本公开中，利用音频信息的情感性信息来生成封面，从而使该封面能够表征在可视化数据中隐含的信息，并相应地代表该可视化数据的典型特征。该情感性信息有较大可能性来引起用户的情感共鸣，更好地反映可视化数据中的代表性特征，从而提高用户对可视化数据的关注程度，并提高可视化数据的点击率。

图4为图示了利用本公开第一实施例的封面生成装置100对视频数据的处理过程的示意图。在图4中，各个方框示出了所进行的操作或处理，并示出了在操作或处理过程中的输入和/或输出。

如图4所示，具有音频的视频数据是待生成其封面的视频数据。该视频数据被执行音频获取(操作410)，从而获得在视频数据中包括的音频数据。该音频获取(操作410)可通过图1中的音频获取单元110来执行。取决于可视化数据的格式或生成方式等，音频获取单元110可以采用各种音频提取器、音频提取软件应用的各种方式来实现，并且可以采用将来出现的各种器件或产品来实现。

在操作411中对所获取的音频数据执行预处理，从而得到预定数目的音频特征样本。该预处理可以由图2中的预处理模块121所执行。如前所述，预处理模块121可对音频数据进行时间片划分、特征提取、和归一化处理而得到预定数目(k)的音频特征样本。

在操作412中，利用一音频情感模型从k个音频特征样本中提取k个情感性向量，该k个情感性向量是所述k个音频特征样本的情感性信息。该操作412可以利用图2中的情感提取模块122来执行，其利用音频情感模型从音频特征样本中提取所述情感性向量。

对于所述k个情感性向量，在操作413中将时间上相邻的两个情感性向量作为一对，即k-1对情感性向量，并计算该k-1个情感性向量对中的每对(即两个)情感性向量之间的距离，并得到k-1个情感性向量距离，该情感性向量距离能够表征音频数据的音频情感变化。该操作413可以利用图3中的计算模块131来执行。

在执行所述操作410至413的过程中，与所述k个音频特征样本对应地，在操作420中对视频数据执行图像抽取，并获得k个视频数据片段。该k个视频数据片段与所述k个音频特征样本之间在时间上可以具有对应关系。这仅仅是示例，取决于抽取方式的不同，在音频特征样本和视频数据片段之间还可以具有其它关系。例如，k个音频特征样本可以对应于2k个视频数据片段。对于操作420中的图像抽取，其可以在操作411中对音频数据执行预处理的同时执行。例如，在预处理中对音频数据进行时间片划分时，根据时间分得到与时间分片对应的音频数据片段和视频数据片段。

在操作414中基于所述k-1个情感性向量距离从所述视频数据中选择至少两个视频数据片段。该操作可以利用图3中的图像提取模块133执行，并可以参见此前关于图像提取模块133的描述。具体地，在一种实现方式中，在操作414中，确定所述k-1个情感性向量距离之中的最大情感性向量距离，确定与该最大情感性向量距离对应的两个情感性向量，并确定与该两个情感性向量对应的视频数据片段。例如，可以对所述k-1个情感性向量距离进行降序排列，并从所述k-1个情感性向量距离之中确定出具有最大情感性向量距离的向量对是第m个情感性向量对(m为自然数，且m小于等于k-1)，确定所述第m个情感性向量对中的两个情感性向量(例如第m个情感性向量和第m+1个情感性向量)所对应的两个视频数据片段(例如第m个视频数据片段和第m+1个视频数据片段)。在另一种实现方式中，在操作414中，可以从所述k-1个情感性向量距离之中确定出情感性向量距离排名在前的两个情感性向量距离(例如第m个和第m-2个情感性向量对)，确定与该排名在前的两个情感性向量距离对应的四个情感性向量，即第m-2个视频数据片段、第m-1个视频数据片段、第m个视频数据片段和第m+1个视频数据片段。

在操作415中，对所确定的至少两个视频数据片段进行合成，例如将该两个视频数据片段级联，并得到用于视频数据的动态封面。该动态封面是利用在音频信息中隐含的情感性信息来生成的，从而使该封面能够代表该可视化数据的典型特征。该情感性信息有较大可能性来引起用户的情感共鸣，更好地反映视频数据中的代表性特征，从而提高用户对视频数据的关注程度，并提高可视化数据的点击率。

图5为图示了根据本公开第二实施例的封面生成方法500的流程图。如图5所示，该封面生成方法500可包括：获取可视化数据中的音频数据(S510)；从所述音频数据中提取情感性信息(S520)；基于所述情感性信息从可视化数据中提取对应的图像数据(S530)；基于所提取的图像数据来生成用于所述可视化数据的封面(S540)。该封面生成方法500可以被实现在平板计算机、个人计算机、服务器、云服务器等多种电子设备上。

在S510中，获取可视化数据中的音频数据。在可视化数据是视频数据的情况中，取决于可视化数据的格式或生成方式等，可以采用各种音频提取器、音频提取软件应用的各种方式来视频数据中获取音频数据，并且可以采用将来出现的各种器件或产品来实现。此外，在S510中，可以分离视频数据中包括的音频数据和图像数据以获得音频数据，并可以保留在所分离的音频数据和图像数据之间的对应关系。

在S520中，从所述音频数据中提取情感性信息。作为提取情感性信息的技术示例，可以通过建立情感库、提取语音情感特征、特征降维与选择、情感识别来提取情感性信息；或者还可以对音频数据进行预处理，并然后利用卷积神经网络从预处理的音频数据中提取情感性信息。具体的提取情感性信息的方式不构成对本公开实施例的限制。

图6为示意性图示了根据本公开第二实施例的封面生成方法500中的提取情感性信息S520的过程的流程图。如图6所示，为了提取情感性信息，所述从所述音频数据中提取情感性信息(S520)包括：对所述音频数据进行预处理而得到音频特征样本(S521)；利用一音频情感模型从所述音频特征样本中提取情感性信息(S522)。

在一种实现方式中，S521可包括：对所述音频数据进行时间片划分形成多个音频时间片，并对所述多个音频时间片进行特征提取形成多个音频特征样本。相应地，在S522中，可以将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量作为情感性信息。在S521中，可对所述音频数据进行时间片划分、特征提取、和归一化处理而得到预定数目的音频特征样本。通过S521的预处理，音频数据被转化为音频情感模型可以处理的音频特征样本，并然后利用音频情感模型从音频特征样本提取情感性信息。

在S521中，例如可将音频数据均匀地划分为多个音频时间片，或者还可以基于音频数据中的频谱变化或频谱范围来在时间上划分所述音频数据；然后，将各个音频时间片的音频数据进行傅里叶变换而转换为频域数据，并利用滤波器组从频域数据中提取MFCC特征；最后，对MFCC特征进行归一化处理，从而得到预定数目的音频特征样本，并将该预定数目的音频特征样本输入到卷积神经网络。上述的预处理仅仅是示例，根据需要在S521中还可以包括加窗处理等，以消除噪声。该预处理的具体操作取决于提取情感性信息的方式的不同而变化。例如，在S521中获得的k个音频特征样本，该k是自然数，其值可以是100、500、1000等。

在S522中，利用音频情感模型从音频特征样本中提取情感性信息。所述k个音频特征样本可以被输入到音频情感模型，并输出k个情感性信息。该情感性信息例如是情感性向量。音频情感模型例如利用卷积神经网络来生成。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络可通过如下方式训练，对音频特征样本进行逐层训练，通过特征的逐层表达实现高层显著特征的凸显，最终生成音频情感模型。

在S522中，可以将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量，作为情感性信息。作为示例，该多个情感性向量可以与所述多个音频特征样本一一对应；或者，多个情感性向量之一还可以对应于多个音频特征样本中的两个或更多音频特征样本，特别是在该两个或更多音频特征样本近似的情况下。此外，在音频情感模型被使用之前，还可以对其进行验证。

在图5中的S530中，可以基于所述情感性信息从可视化数据中提取对应的图像数据。以可视化数据是视频数据为例，视频数据包括图像数据和音频数据，在S530中可基于所述情感性信息从所述视频数据中提取视频数据片段，作为图像数据。包括音频信息的文本数据也可包括图像数据(即文本图像)和音频数据，图像提取单元130可基于所述情感性信息从所述包括音频信息的文本数据中提取文本图像。该情感性信息可以是情感性向量，还可以是任何其它能够表征情感的参数。不同的情感性向量可能表征不同的情况，例如开心、伤心、惊奇等。

在S530中，可以基于所述多个情感性向量获得所述多个情感性向量之间的音频情感变化，并基于所述音频情感变化从所述可视化数据中提取至少两个可视化数据片段作为对应的图像数据。作为示例，在S530中可以从各个音频情感变化中确定所需要的音频情感变化，并从所述可视化数据中提取与所需要的音频情感变化对应的至少两个可视化数据片段。根据需要，在S530中也可以提取一个可视化数据片段。音频情感变化可以是所述多个情感性向量中的任意两个情感性向量之间的音频情感变化，包括时间上相邻的两个情感性向量之间的音频情感变化。

图7为示意性图示了根据本公开第二实施例的封面生成方法500中的基于情感性信息生成封面S530的过程的流程图。如图7所示，该基于情感性信息生成封面(S530)包括：计算时间上相邻的两个情感性向量之间的距离作为相邻的两个音频时间片之间的音频情感变化量(S531)；根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片(S532)；从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的至少两个可视化数据片段，作为对应的图像数据(S533)。

在S531中，基于所述情感性信息计算所述音频数据中的音频情感变化。该音频情感变化可以是两个不同的情感性向量之间的距离，例如cos距离、欧式距离等。该距离越大，则情感变化越大；该距离越大，则情感变化越小。该两个不同的情感性向量可以是所有情感性向量之中的任两个情感性向量，也可以是在时间上相邻的两个音频数据所对应的情感性向量。

在S532中，根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片。替换地，在S532中还可以根据所述音频情感变化量确定具有最小音频情感变化量的两个音频时间片，或者确定具有特定音频情感变化量的两个音频时间片。该特定音频情感变化量可以是特定的数值，还可以是特定的范围。

在S533中，可从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的至少两个可视化数据片段，作为对应的图像数据。替换地，在S533中可以从可视化数据中提取与具有最小音频情感变化量的两个音频时间片对应的至少两个可视化数据片段。另外，在S533中可以从可视化数据中提取与具有特定音频情感变化量的两个音频时间片对应的至少两个可视化数据片段。所选择的可视化数据片段可以是时间上相邻的可视化数据片段，也可以是具有间隔的可视化数据片段。所选择的可视化数据片段的数量可以是两个，也可以是三个或更多。可视化数据片段的选择方式可以根据观看用户的喜好来确定。

图5中的步骤S540中，可基于在S533中提取的图像数据来生成用于所述可视化数据的封面。在S540中可基于所提取的至少两个可视化数据片段来生成用于所述可视化数据的封面。所生成的封面可以是动态封面，也可以是静态封面。在静态封面的情况中，在S540中可以从所提取的图像数据中选取一帧图像作为封面。在所生成的封面中可以包括音频信息，也可以不包括音频信息。

作为一种实施示例，在S540中可通过合成所提取的至少两个可视化数据片段中的一部分或全部而生成用于所述可视化数据的动态封面。关于合成所述至少两个可视化数据片段中的一部分还是全部，例如可以根据动态封面的时间长度来确定。如果要求动态封面的时间长度比较短，则可以选取所述至少两个可视化数据片段中的一部分。

作为另一种实施示例，在S540中可以从所提取的至少两个可视化数据片段中选取图像质量大于预设阈值的图像帧来生成用于所述可视化数据的静态封面。作为示例，可以选取图像质量大于预设阈值的一帧图像直接作为静态封面，还可以选取图像质量大于预设阈值的至少两帧图像并将该至少两帧图像拼接成一副图像作为静态封面。

音频情感变化可以如上所述设置为两个不同的情感性向量之间的距离。在这种情况下，可以量化音频情感变化，例如为音频情感变化分。在S532中从所述可视化数据中选择与具有最大距离的两个情感性向量对应的两个可视化数据片段之后，所述封面生成方法500还可以包括计算具有最大距离的两个情感性向量之间的音频情感变化分。在该音频情感变化分用两个情感性向量之间的距离定义的情况下，该音频情感变化分为所述最大距离。或者，可以以其它方式定义音频情感变化，音频情感变化分的计算方式也相应地变化。该音频情感变化分用于表征所述可视化数据的音频情感变化，以量化的方式表征所生成的封面的情感信息。

在本公开的封面生成方法500中，利用音频信息的情感性信息来生成封面，从而使该封面能够表征在可视化数据中隐含的信息，并相应地代表该可视化数据的典型特征。该情感性信息有较大可能性来引起用户的情感共鸣，更好地反映可视化数据中的代表性特征，从而提高用户对可视化数据的关注程度，并提高可视化数据的点击率。

关于在图5的封面生成方法500中的处理过程的示例，可以参见图4和上面结合图4进行的描述。在图4中，各个方框示出了所进行的操作或处理，并示出了在操作或处理过程中的输入和/或输出。图4中的操作410对应于图5中的步骤S510；图4中的操作411对应于图6中的步骤S521；图4中的操作412对应于图6中的步骤S522；图4中的操作413对应于图7中的步骤S531；图4中的操作414对应于图7中的步骤S532和S533；图4中的操作415对应于图5中的步骤S540。

图8为示意性图示了根据本公开第三实施例的电子设备800的框图。如图8所示，电子设备800包括存储器810和控制器820。存储器810用于存储计算机可执行指令。当运行所述计算机可执行指令时，控制器820促使所述电子设备执行如结合图5-7所描述的任一项封面生成方法。

此外，本公开的封面处理可以被实施在计算机可读存储介质中。该计算机可读存储介质存储有计算机程序。该计算机程序被处理器执行时实现如上所述的封面生成方法中的各个步骤。

当然，上述的具体实施例仅是例子而非限制，且本领域技术人员可以根据本公开的构思从上述分开描述的各个实施例中合并和组合一些步骤和装置来实现本公开的效果，这种合并和组合而成的实施例也被包括在本公开中，在此不一一描述这种合并和组合。

注意，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的系统、方法、装置的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些系统、方法、装置。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

另外，本文中的各个实施例中的步骤和装置并非仅限定于某个实施例中实行，事实上，可以根据本公开的概念来结合本文中的各个实施例中相关的部分步骤和部分装置以构思新的实施例，而这些新的实施例也包括在本公开的范围内。

以上描述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于硬件的电路、专用集成电路(ASIC)或处理器。

可以利用被设计用于进行在此描述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其它可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行描述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其它这样的配置。

结合本公开描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬碟、可移动碟、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此公开的方法包括用于实现描述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

上述功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光碟存储、磁碟存储或其它磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其它切实介质。如在此使用的，碟(disk)和盘(disc)包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软碟和蓝光盘，其中碟通常磁地再现数据，而盘利用激光光学地再现数据。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储(和/或编码)在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此描述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其它远程源传输软件。

此外，用于进行在此描述的方法和技术的模块和/或其它适当的手段可以在适当时由用户终端和/或基站下载和/或其它方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此描述的方法的手段的传送。或者，在此描述的各种方法可以经由存储部件(例如RAM、ROM、诸如CD或软碟等的物理存储介质)提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此描述的方法和技术提供给设备的任何其它适当的技术。

其它例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上描述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其它例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此描述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上描述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此描述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其它方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种封面生成装置，包括：

音频获取单元，用于获取可视化数据中的音频数据；

情感提取单元，用于将所述音频数据切分为多个音频时间片，并分别从各音频时间片中提取情感性信息，所述情感性信息包括情感性向量，其中不同的情感性向量表征不同的情感，情感包括开心、伤心、惊奇中的至少一种；

图像提取单元，用于至少基于多个所述情感性向量确定的音频情感变化，从所述可视化数据中提取至少两个具有音频情感变化的音频时间片对应的可视化数据片段，作为图像数据；

封面生成单元，用于基于所提取的图像数据来生成用于所述可视化数据的封面。

2.根据权利要求1所述的封面生成装置，其中，所述情感提取单元包括：

预处理模块，用于对所述音频数据进行预处理而得到音频特征样本；

情感提取模块，用于利用一音频情感模型从所述音频特征样本中提取情感性信息。

3.根据权利要求2所述的封面生成装置，其中，所述预处理模块对所述音频数据进行时间片划分形成多个音频时间片，并对所述多个音频时间片进行特征提取形成多个音频特征样本。

4.根据权利要求3所述的封面生成装置，其中，所述情感提取模块将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量作为情感性信息。

5.根据权利要求1所述的封面生成装置，其中，

所述情感性信息包括多个情感性向量，

所述图像提取单元基于所述多个情感性向量获得所述多个情感性向量之间的音频情感变化，并基于所述音频情感变化从所述可视化数据中提取至少两个可视化数据片段作为对应的图像数据。

6.根据权利要求3所述的封面生成装置，其中，所述情感性信息包括与所述多个音频特征样本对应的多个情感性向量，所述图像提取单元包括：

计算模块，用于计算时间上相邻的两个情感性向量之间的距离作为相邻的两个音频时间片之间的音频情感变化量；

确定模块，用于根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片；和

图像提取模块，从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的两个可视化数据片段，作为对应的图像数据。

7.根据权利要求5和6中任一项所述的封面生成装置，其中，所述封面生成单元通过合成所提取的所述至少两个可视化数据片段中部分或全部的可视化数据而生成用于所述可视化数据的动态封面。

8.根据权利要求5和6中任一项所述的封面生成装置，其中，所述封面生成单元从所述至少两个可视化数据片段中选取图像质量大于预设阈值的图像帧来生成用于所述可视化数据的静态封面。

9.一种封面生成方法，包括：

获取可视化数据中的音频数据；

将所述音频数据切分为多个音频时间片，并分别从各音频时间片中提取情感性信息，所述情感性信息包括情感性向量，其中不同的情感性向量表征不同的情感，情感包括开心、伤心、惊奇中的至少一种；

至少基于多个所述情感性向量确定的音频情感变化，从所述可视化数据中提取至少两个具有音频情感变化的音频时间片对应的可视化数据片段，作为图像数据；

基于所提取的图像数据来生成用于所述可视化数据的封面。

10.根据权利要求9所述的封面生成方法，其中，所述从各音频时间片中提取情感性信息包括：

对所述音频数据进行时间片划分形成多个音频时间片；

对所述多个音频时间片进行特征提取形成多个音频特征样本；

利用一音频情感模型从所述音频特征样本中提取情感性信息。

11.根据权利要求10的封面生成方法，其中，所述利用一音频情感模型从所述音频特征样本中提取情感性信息包括：

将所述多个音频特征样本输入至所述音频情感模型后得到对应的多个情感性向量作为情感性信息。

12.根据权利要求9的封面生成方法，其中，所述情感性信息包括多个情感性向量，

至少基于多个所述情感性向量确定的音频情感变化，从所述可视化数据中提取至少两个具有音频情感变化的音频时间片对应的可视化数据片段，作为图像数据包括：

基于所述多个情感性向量获得所述多个情感性向量之间的音频情感变化；

基于所述音频情感变化从所述可视化数据中提取至少两个可视化数据片段作为对应的图像数据。

13.根据权利要求10的封面生成方法，其中，所述情感性信息包括与所述多个音频特征样本对应的多个情感性向量，

其中，所述至少基于多个所述情感性向量确定的音频情感变化，从所述可视化数据中提取至少两个具有音频情感变化的音频时间片对应的可视化数据片段，作为图像数据包括：

计算时间上相邻的两个情感性向量之间的距离作为相邻的两个音频时间片之间的音频情感变化量；

根据所述音频情感变化量确定具有最大音频情感变化量的两个音频时间片；

从可视化数据中提取与所述具有最大音频情感变化量的两个音频时间片对应的至少两个可视化数据片段，作为对应的图像数据。

14.根据权利要求12和13中任一项所述的封面生成方法，其中，所述基于所提取的图像数据来生成用于所述可视化数据的封面包括：

通过合成所提取的所述至少两个可视化数据片段中部分或全部的可视化数据而生成用于所述可视化数据的动态封面。

15.根据权利要求12和13中任一项所述的封面生成方法，其中，所述基于所提取的图像数据来生成用于所述可视化数据的封面包括：

从所述至少两个可视化数据片段中选取图像质量大于预设阈值的图像帧来生成用于所述可视化数据的静态封面。

16.一种电子设备，包括：

存储器，用于存储计算机可执行指令；

控制器，当运行所述计算机可执行指令时，用于促使封面生成装置执行如权利要求9至15中任一项所述的封面生成方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求9至15中的任一项所述的封面生成方法中的步骤。