CN115294227A

CN115294227A - 一种多媒体界面生成方法、装置、设备及介质

Info

Publication number: CN115294227A
Application number: CN202210904780.7A
Authority: CN
Inventors: 李宜烜; 李鹏; 蔡苗苗; 曹偲
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-04

Abstract

本公开提供一种多媒体界面生成方法、装置、设备及介质，实现基于多媒体列表截图一键式生成多媒体界面。所述方法包括：获取多媒体列表截图并进行多媒体信息识别，得到所述多媒体列表截图中多媒体的相关信息；根据得到的多媒体的相关信息，从多媒体数据库中确定所述多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；根据所述相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

Description

一种多媒体界面生成方法、装置、设备及介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种多媒体界面生成方法、装置、设备及介质。

背景技术

随着各大多媒体平台的不断发展，以多媒体列表的方式进行多媒体播放的方式受到越来越多的用户的喜爱，各大多媒体平台纷纷推出了多媒体列表模式，但由于各大多媒体平台中的多媒体列表并不通用，用户在进行多媒体平台的更换后，需要重新进行多媒体列表的创建，为此，各多媒体平台推出了外部多媒体列表导入功能。

目前的多媒体列表导入的方法中，常见的方法为通过多媒体列表的截图进行导入，在导入的过程中，用户可以将多媒体列表截图导入当前使用的多媒体软件中，由多媒体软件根据多媒体列表截图对其中的多媒体进行识别，但目前这种多媒体列表导入方法，仍需要用户手动创建多媒体列表，以及手动输入多媒体列表的相关信息，极大增加了用户的使用成本。

发明内容

本公开实施例提供一种多媒体界面生成方法、装置、设备及介质，实现基于多媒体列表截图一键式生成多媒体界面。

根据本公开实施例的第一方面，提供一种多媒体界面生成方法，该方法包括：

获取多媒体列表截图并进行多媒体信息识别，得到所述多媒体列表截图中多媒体的相关信息；

根据得到的多媒体的相关信息，从多媒体数据库中确定所述多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；

根据所述相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

上述方法，根据从多媒体列表截图提取的多媒体的相关信息，从多媒体数据库中筛出多媒体列表截图的相似多媒体界面；根据相似多媒体界面的封面信息和多媒体描述信息，生成新的多媒体界面，在根据截图导入多媒体列表时，无需用户手动创建列表并输入相关信息，而是自动根据多媒体列表中的信息筛选相似多媒体，并根据相似多媒体的信息生成多媒体界面，实现了基于多媒体列表截图的多媒体界面的一键式生成，通过提高用户导入歌单的效率，提高了用户体验，降低了用户的使用成本。

一种可选的实施方式为，获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息，包括：

获取多媒体列表截图并进行多媒体信息区域检测，对检测出的多媒体信息区域进行文字内容识别；

根据识别得到的文字内容，在多媒体关键词库中匹配目标关键词；

根据目标关键词，得到多媒体列表截图中多媒体的相关信息。

上述方法，通过对多媒体列表截图进行区域检测以及文字识别，提取出多媒体列表截图中的文字，并通过在多媒体关键词库中进行关键词匹配，进一步从提取出的文字中提取相关信息，保证了提取出的信息的准确性以及有效性。

一种可选的实施方式为，获取多媒体列表截图并进行多媒体信息区域检测，对检测出的多媒体信息区域进行文字内容识别，包括：

对多媒体列表截图按行进行文字区域分割，得到多媒体列表截图的多行文字区域；

去除多媒体列表截图的每行文字区域的冗余信息，并确定多媒体截图中每行文字的包络区域；

利用深度学习神经网络对每行文字的包络区域进行文字识别，得到每行文字的包络区域对应的文字内容。

上述方法，通过行的形式对文字区域进行分割以及识别，充分利用率多媒体列表截图中文字按行进行分布的特点，提高了文字区域分割以及文字识别的效率以及准确性。

一种可选的实施方式为，根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，包括：

对从多媒体列表截图中提取的各多媒体的相关信息进行编码并进行整合，得到多媒体列表截图对应的第一编码向量；

获取多媒体数据库中不同多媒体界面的多媒体的相关信息的第二编码向量，并计算第二编码向量与第一编码向量的相似度；

根据计算得到的相似度，从多媒体数据库中确定多媒体列表截图的相似多媒体界面。

上述方法，通过将多媒体信息的相关信息对应的第一编码以及多媒体数据库中的各多媒体界面对应的第二编码进行相似度计算，根据相似度确定相似多媒体界面，实现了从多媒体数据库中准确确定出相似多媒体界面。

一种可选的实施方式为，根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面，包括：

识别各相似多媒体界面的封面风格，并根据相似多媒体界面的封面风格，确定与多媒体列表截图对应的封面信息；

识别各相似多媒体界面的多媒体描述信息中词语，并根据识别的词语确定与多媒体列表截图对应的多媒体描述信息；

根据多媒体列表截图中多媒体的相关信息，及对应的封面信息及多媒体描述信息，生成目标多媒体界面。

上述方法，根据相似多媒体的封面风格确定多媒体列表截图的封面信息，通过相似多媒体的描述信息确定多媒体列表截图的多媒体描述信息，保证了最后生成的多媒体界面与多媒体列表截图对应的界面的风格一致性。

一种可选的实施方式为，识别各相似多媒体界面的封面风格，包括：

对各相似多媒体界面的封面信息进行特征提取；

根据提取到的封面风格特征向量预测不同封面风格分类的概率，确定概率最大的封面风格分类为对应相似多媒体界面的封面风格。

上述方法，通过对封面信息进行特征提取，并根据提取到的特征信息进行封面风格分类概率预测，将预测到的概率最大的封面风格确定为相似多媒体界面的封面风格，保证了各相似多媒体界面的封面风格的准确性。

一种可选的实施方式为，根据相似多媒体界面的封面风格，确定与多媒体列表截图对应的封面信息，包括：

计算相似多媒体界面的封面风格中各封面风格对应的出现次数/用户偏好度；

根据出现次数/用户偏好度，确定与多媒体列表截图对应的目标封面风格；

从与目标封面风格对应的相似多媒体界面中，选择与多媒体列表截图对应的封面信息。

上述方法，根据各封面风格的出现次数/用户偏好度，确定与多媒体列表截图对应的目标封面风格，保证了确定出的目标封面风格的准确性。

一种可选的实施方式为，识别各相似多媒体界面的多媒体描述信息中词语，并根据识别的词语生成与多媒体列表截图对应的多媒体描述信息，包括：

识别各相似多媒体界面的多媒体描述信息中词语，并统计词语出现的次数；

根据词语出现的次数筛选出预设数量的目标词语，并根据目标词语确定与多媒体列表截图对应的多媒体描述信息。

上述方法，通过根据相似多媒体界面的多媒体描述信息中词语出现次数，确定目标词语，再根据目标词语确定多媒体列表截图对应的多媒体描述信息，提高了多媒体描述信息与多媒体列表截图中的描述信息相似的概率。

一种可选的实施方式为，根据词语出现的次数筛选出预设数量的目标词语，并根据目标词语确定与多媒体列表截图对应的多媒体描述信息，包括：

根据词语出现的次数，按照次数从高到低的顺序筛选出预设数量的目标词语；

根据筛选出的预设数量的目标词语预测对应的语义表达，并从多媒体描述信息库中筛选出相同语义表达的目标多媒体描述信息，将目标多媒体描述信息确定为与多媒体列表截图对应的多媒体描述信息。

上述方法，根据目标词语预测对应的语义表达，并根据该语义表达从多媒体描述信息库中筛选相同语义表达的目标多媒体描述信息，保证了确定出的目标多媒体描述信息的准确性。

根据本公开实施例的第二方面，提供一种多媒体界面生成装置，包括：

获取模块，用于获取多媒体列表截图并进行多媒体信息识别，得到所述多媒体列表截图中多媒体的相关信息；

确定模块，用于根据得到的多媒体的相关信息，从多媒体数据库中确定所述多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；

生产模块，用于根据所述相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为执行上述指令，以实现上述第一方面中任一项方法中的步骤。

根据本公开实施例的第四方面，提供一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行计算机可读指令时，使得计算机执行上述第一方面中任一项方法中的步骤。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的应用场景示意图；

图2为本公开实施例提供的一种多媒体界面生成方法的系统框架图；

图3为本公开实施例提供的一种多媒体界面生成方法的流程示意图；

图4为本公开实施例提供的一种文字区域分割的示意图；

图5为本公开实施例提供的一种包络区域的示意图；

图6为本公开实施例提供的一种封面风格分类模型训练方法的流程示意图；

图7为本公开实施例提供的一种多媒体描述生成模型训练方法的流程示意图；

图8为本公开实施例提供的一种多媒体界面生成装置的示意图；

图9为本公开实施例提供的一种电子设备的示意图；

图10为本公开实施例提供的一种程序产品示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现一种通过带宽估计发送数据的方法、装置、设备及介质。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种多媒体界面生成方法、装置、设备及介质。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本公开人发现，随着各大多媒体平台的不断发展，以多媒体列表的方式进行多媒体播放的方式受到越来越多的用户的喜爱，各大多媒体平台纷纷推出了多媒体列表模式，但由于各大多媒体平台中的多媒体列表并不通用，用户在进行多媒体平台的更换后，需要重新进行多媒体列表的创建，为此，各多媒体平台推出了外部多媒体列表导入功能。

目前的多媒体列表导入的方法中，常见的方法为通过多媒体列表的截图进行导入，在导入的过程中，用户可以将多媒体列表截图导入当前使用的多媒体软件中，由多媒体软件根据多媒体列表截图对其中的多媒体进行识别，但目前这种多媒体列表导入方法，仍需要用户手动创建多媒体列表，以及手动输入多媒体列表的相关信息，例如，在导入歌单截图时，多媒体软件会首先对截图进行识别，识别出其中的歌曲信息以及歌手信息后，由用户手动创建歌单，输入歌单名称，并将歌曲导入其中，极大增加了用户的使用成本。

有鉴于此，本公开实施例提供了一种多媒体界面生成方法。

该方法获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息；根据得到的多媒体的相关信息，从多媒体数据库中筛出多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；根据所述相似多媒体界面的封面信息和多媒体描述信息，生成新的多媒体界面，用以实现基于多媒体列表截图一键式生成多媒体界面。

应用场景总览

首先参考图1，其为本公开实施例的应用场景示意图。用户10通过用户设备11中安装的客户端登录网络服务器12，其中，客户端可以为网页的浏览器，也可以为安装于移动用户设备，如手机，平板电脑等中的应用客户端。

用户设备11与网络服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。用户设备11可以为便捷设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，网络服务器12可以为任何能够提供互联网服务的设备。

用户设备11与网络服务器12通信的一种可能的形式为，用户可以登录到相应的多媒体平台，并上传多媒体列表截图，网络服务器12接收用户设备11上传的多媒体列表截图，例如歌单对应的歌单列表截图，以及视频对应的视频列表截图。

本公开实施例中，网络服务器12在接收到用户10登录到对应的多媒体平台上传的多媒体列表截图后，对该多媒体列表截图进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息；根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

示例性方法

为便于理解，以下对本公开实施例中出现的术语进行统一解释：

交叉熵损失函数：深度学习中的一种损失函数，用于度量预测结果分布和真实标注分布之前的差异性，假设样本中M为类别的数量，y_ic为指示变量即真实标注标签，即当预测类别和样本类别相同就是1，否则为0，p_ic为观测样本属于某类别的预测概率，则对应的交叉熵损失函数(Cross Entropy Loss)为：

CNN：又称卷积神经网络(Convolutional Neural Network)，是一种前馈神经网络，人工神经元可以响应周围单元，卷积神经网络包括卷积层和池化层。

RNN：又称循环神经网络(Recurrent Neural Network)，网络的内部状态可以展示动态时序行为，可以利用内部的记忆来处理变长的输入序列。

CRNN：卷积循环神经网络，即CNN+RNN，用于解决基于图像的序列识别问题，特别是场景文字识别问题，CRNN网络实现了不定长验证，结合CNN和RNN网络结构，使用双向LSTM循环网络进行时序训练，并在最后引入CTC损失函数来实现端对端的不定长序列识别。

CTC：全称Connectionist temporal classification，是一种常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题。在CRNN中，它实际上就是模型对应的损失函数。

下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的多媒体界面生成方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出的，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于使用的任何场景。

图2为本公开实施例提供的一种多媒体界面生成方法的系统框架图，如图2所示，该系统主要分为多媒体检测模块、信息提取模块、多媒体描述匹配模块，封面匹配模块四部分，各模块的功能如下：

(1)多媒体检测模块，用于检测多媒体列表截图中，封面信息及多媒体描述信息(包括多媒体列表标题以及多媒体列表介绍)的位置，并筛除无用的背景区域。

(2)信息提取模块，用于识别出歌曲多媒体检测模块输出的局部区域内的信息，即使用文字识别和自然语言处理的弱纠错能力，提取文字中的多媒体的相关信息。

根据多媒体的相关信息，从多媒体数据库筛选与多媒体列表截图匹配的相似多媒体界面。

(3)多媒体描述匹配模块，用于根据信息提取模块的输出，进行多媒体描述信息的生成，即根据筛选出的相似多媒体界面，提取其多媒体描述信息，使用这些文本信息作为输入，使用多媒体描述生成模型(如GPT-2算法模型)，进行多媒体描述信息的生成。

(4)封面匹配模块，用于根据筛选出的相似多媒体界面的封面信息，利用封面风格分类模型识别相似多媒体界面的封面风格，根据识别到的封面风格，确定对应的封面信息。

在利用上述模型得到与多媒体列表截图对应的相关信息、封面信息及多媒体描述信息后，并在多媒体应用中生成全新的多媒体界面。

采用以上方式，可以有效降低用户使用成本，提供更便利的体验。

图3为本公开实施例提供一种多媒体界面生成方法的流程示意图，如图3所示，本公开实施例提供一种多媒体界面生成方法，包括如下步骤：

步骤301，获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息；

步骤302，根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；

步骤303，根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

上述方法，根据从多媒体列表截图提取的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面；根据相似多媒体界面的封面信息和多媒体描述信息，生成新的目标多媒体界面，在根据截图导入多媒体列表时，无需用户手动创建列表并输入相关信息，而是自动生成多媒体界面，实现了基于多媒体列表截图的多媒体界面的一键式生成。

上述步骤301中，多媒体列表截图中包括多媒体信息、多媒体封面、多媒体描述信息以及背景等，以歌单为例，歌单截图中通常包括歌曲信息(如歌曲名、歌手名以及歌曲的介绍等)、歌单信息(如歌单标题以及歌单介绍等)以及歌单封面几部分。

上述相关信息中包括多媒体列表截图中包括的各多媒体的名称、作者以及多媒体描述信息等，以歌单为例，其相关信息即包括歌曲名、歌手名和歌单标题等。

作为一种可选的实施方式，获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息，包括：

具体的，获取多媒体列表截图并进行多媒体信息区域检测，对检测出的多媒体信息区域进行文字内容识别，包括以下几个步骤：

步骤1、对多媒体列表截图按行进行文字区域分割，得到多媒体列表截图的多行文字区域；

在一些实施例中，利用自适应二值算法按行进行文字区域分割，分割后的多媒体列表截图如图4所示，即利用自适应二值算法将存在内容的区域以及不存在内容的区域采用不同的值进行区分，图4中黑色区域为存在内容的区域，白色区域为不存在内容的区域。

需要说明的是，上述存在内容的区域不仅仅是指存在文字的区域，还包括存在图片、图标的内容的区域。

然后利用行分割算法对处理后的多媒体列表截图进行分割，将利用自适应二值算法处理得到的存在内容的区域按照行的形式进行分割，如对图4中的黑色区域按照行进行分割，得到多媒体列表截图的多行文字区域。

该步骤主要的用途为去除多媒体列表截图的部分冗余信息，例如多媒体界面的背景信息等。

步骤2、去除多媒体列表截图的每行文字区域的冗余信息，并确定多媒体截图中每行文字的包络区域；

在一些实施例中，上述包络区域为包括全部文字的矩形区域。

具体地，采用深度学习CRNN算法，对分割得到的多媒体列表截图的多行文字区域中的文本区域进行检测，确定每行文字的包络区域，如图5所示，图中灰色区域为检测出的包络区域，在一些实施例中，包络区域对应的位置信息使用包络区域的坐标结合尺寸进行表示，例如可以用(x,y,w,h)进行表示，其中(x，y)为每一个灰色区域左上角(也可以为其他位置，例如中心点、右下角等)的坐标点，(w，h)为整个检测区域(即灰色区域)的长和宽。

需要说明的是，该步骤根据分割后的多行文字区域，按照行的形式确定每行文字的包络区域。

利用上述CRNN算法对分割得到的多媒体列表截图的多行文字区域中的文本区域进行检测之前，还需要对该算法进行训练，训练过程具体如下：

第一步，采集多张多媒体列表截图作为样本，并对样本中的每行文字的包络区域进行标注，标记方式为(x,y,w,h)；

第二步，选择文本检测CNN算法(如CRNN算法)，对包络区域进行回归训练，本公开实施例中使用的方法例如为yolov5；

第三步，确定输入样本多媒体列表截图后，输出对应的包络区域标注时，确定训练结束。

步骤3、利用深度学习神经网络对每行文字的包络区域进行文字识别，得到每行文字的包络区域对应的文字内容；

具体的，首先仿照多媒体列表中的文字格式，随机生成带有文字的图片，并记录图片中的文字信息，作为训练集，并使用常用的中文文字库生成文字字典，每个文字对应一个数字标签，如“你”对应数字标签1。

然后采用CRNN+CTC的方式，对图片中的文字进行识别训练，确定输出的文字内容与预先记录的对应的文字信息相匹配时，确定训练结束，即可得到训练好的文字分类onehot模型。

在应用时，将每行文字的包络区域(以图片的格式)输入训练好的文字分类onehot模型中，即可得到输出的包络区域对应的文字内容。

作为一种可选的实施方式，上述根据识别得到的文字内容，在多媒体关键词库中匹配目标关键词，根据目标关键词，得到多媒体列表截图中多媒体的相关信息，由上述信息提取模块实现，以下对信息提取模块提取相关信息的过程进行详细阐述。

上述利用深度学习神经网络识别得到的每行文字的包络区域对应的文字内容中，存在有部分冗余信息干扰，无法直接从中提取出最终的多媒体的相关信息，因此需要利用自然语言处理(NLP，Natural Language Processing)算法，在识别出的文字内容中，根据多媒体关键词库，识别出文字内容中的多媒体的相关信息。

本公开实施例中，NLP算法采用了TF-IDF算法，这是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术，除上述的TF-IDF算法外，也可采用其他NLP算法实现上述步骤，本公开实施例中并不对具体使用的算法进行限定。

本公开实施例中，利用TF-IDF算法将上述得到的包络区域对应的文字内容和多媒体关键词库中的信息进行匹配检索，检索出最匹配的内容，即目标关键词，并根据目标关键词确定多媒体截图中多媒体的相关信息。

以下与歌单截图为例，对本公开上述利用TF-IDF算法确定多媒体的相关信息的过程进行介绍。

假设利用深度学习神经网络识别得到的包络区域的文字内容如下：

[[‘VIP付费’]，[]，[‘歌曲名1’，‘1’，‘D’，‘L+’，‘歌手名1’]，[‘歌曲名2’，‘2’，‘D’，‘歌手名2，精选’]，[‘歌曲名3’，‘Y’，‘D’，‘L+’，‘歌手名3，国语..’]，[‘歌曲名4(旧日版)’，‘4’，‘D’，‘L+’，‘歌手名4原曲...’]]。

利用TF-IDF算法将上述文字内容与歌曲库中的文字内容进行匹配，其中，歌曲库中预先存储有各个歌曲名以及歌手名，将匹配到的歌曲库中的歌曲以及歌手名输出，输出的歌曲信息如下，其中包括歌单截图中的每个歌曲名和歌手名：

[[‘歌曲名1’，‘歌手名1’]，[‘歌曲名2’，‘歌手名2’]，[‘歌曲名3’，‘歌手名3’]，[‘歌曲名4’，‘歌手名4’]]。

根据上述目标关键词得到多媒体列表截图中多媒体的相关信息。

上述步骤302中，在本公开实施例中，根据提取的多媒体的相关信息，从多媒体数据库中使用聚类算法确定多媒体列表截图的相似多媒体界面，即以多媒体的相关信息为聚类中心，根据预设的匹配原则，从多媒体数据库中确定多媒体列表截图的相似多媒体界面。

上述步骤302中，根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，具体包括：

在得到多媒体截图与多媒体数据库中不同多媒体界面的相似度后，根据相似度对多媒体数据库中的多媒体界面进行排序，根据排列顺序确定预设数目的多媒体界面作为多媒体列表截图的相似多媒体界面。

上述步骤303中，根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面，包括以下三个子步骤：

其中，上述识别各相似多媒体界面的封面风格，包括：

对各相似多媒体界面的封面信息进行特征提取；

上述识别各相似多媒体界面的封面风格可利用封面风格分类模型实现，在利用封面风格分类模型识别各相似多媒体界面的封面风格前，首先需要对封面风格分类模型进行训练。

图6为本公开实施例提供的一种封面风格分类模型训练方法的流程示意图，如图6所示，上述封面风格分类模型训练方法，包括：

步骤601，获取不同封面风格的多个样本多媒体界面的封面信息，并确定各多媒体界面的封面风格标签；

在一些实施例中，可人工收集预设数量的样本多媒体界面的封面信息(通常为封面图片)，并进行风格以及色调标签的标注，上述风格标签包括但不限于科技风、甜美风、欧美摇滚风，极简风、复古风等和，黑白色调、暖色调、冷色调等。

步骤602，利用封面风格分类模型对各样本多媒体界面的封面信息进行特征提取，并根据提取到的封面风格特征向量预测不同封面风格分类的概率，确定各样本多媒体界面对应的封面风格；

步骤603，根据确定出的各样本多媒体界面的封面风格及对应的封面风格标签确定第一损失函数值，根据第一损失函数值对封面风格分类模型进行训练，训练结束得到训练好的封面风格分类模型。

在一些实施例中，计算对应的封面风格标签与模型输出的封面风格之间的交叉熵损失函数，并使用梯度下降算法进行优化。

将样本多媒体界面的封面信息输入该封面风格分类模型，确定模型输出的封面风格与标注的封面风格标签一致时，确定模型训练结束。

训练结束后，将各相似多媒体界面的封面信息输入训练好的封面风格分类模型后，即可得到各相似多媒体界面的封面风格。

作为一种可选的实施方式，根据相似多媒体界面的封面风格，确定与多媒体列表截图对应的封面信息，包括：

在一些实施例中，可以从相似多媒体界面的封面风格中出现次数最多的封面风格对应的封面信息，或者用户偏好度最高的封面风格对应的封面信息中，随机选取封面信息作为多媒体列表截图对应的目标封面风格。

其中，用户偏好度可以根据用户登录的账号的关注、收藏以及点赞等行为数据，或者用户的基础信息，如年龄、性别以及地域等信息进行计算得到。

上述识别各相似多媒体界面的多媒体描述信息中词语，并根据识别的词语生成与多媒体列表截图对应的多媒体描述信息，包括：

上述过程可通过多媒描述生成模型实现，在利用多媒体描述生成模型识别各相似多媒体界面的多媒体描述信息中词语前，首先需要对多媒体描述生成模型进行训练。

图7为本公开实施例提供的一种多媒体描述生成模型训练方法的流程示意图，如图7所示，本公开实施例还提供一种多媒体描述生成模型训练方法，包括：

步骤701，获取多个相似的样本多媒体界面及各样本多媒体界面的样本多媒体描述信息；

步骤702，利用多媒体描述生成模型对各样本多媒体界面的描述信息中词语进行识别；

步骤703，统计词语出现的次数，及根据词语出现的次数筛选出预设数量的目标词语，并根据目标词语预测多媒体描述信息并输出；

步骤704，根据输出的多媒体描述信息及对应的样本多媒体描述信息确定第二损失函数值，根据第二损失函数值对多媒体描述生成模型进行训练，训练结束得到训练好的多媒体描述生成模型。

作为一种可选的实施方式，根据词语出现的次数筛选出预设数量的目标词语，并根据目标词语预测多媒体描述信息，包括：

根据筛选出的预设数量的目标词语预测对应的语义表达，并从多媒体描述信息库中筛选出相同语义表达的多媒体描述信息。

在一些实施例中，多媒体描述信息包括多媒体标题信息以及多媒体介绍信息，由于多媒体标题信息以及多媒体介绍信息存在长度、内容等多方面的区别，因此在进行多媒体描述生成模型训练时，需要根据不同的数据库，预测其输出的多媒体标题信息以及多媒体介绍信息。

具体地，利用多媒体描述生成模型统计词语出现的次数，并筛选出预设数目的目标词语后，根据该目标词语以及对应的标题数据库，预测对应的多媒体标题信息并输出，同时，根据该词语以及对应的介绍数据库，预测对应的多媒体介绍信息并输出。

利用上述预测的多媒体标题信息以及多媒体介绍信息，对多媒体描述生成模型进行训练，确定其输出为预测的多媒体标题信息以及多媒体介绍信息时，结束训练。

训练结束后，即可根据训练好的多媒体描述生成模型识别各相似多媒体界面的多媒体描述信息中词语，并根据识别的词语生成与多媒体列表截图对应的多媒体描述信息。

示例性设备

在介绍了本公开示例性实施方式的方式之后，接下来，参考图8对本公开示例性实施方式的多媒体界面生成装置。本公开实施例所提供的上述多媒体界面生成装置与本发明上述示例性方法提供的多媒体界面生成方法属于同一公开构思，上述示例性方法提供的多媒体界面生成方法的各种实施方式，可以应用到本实施例中的多媒体界面生成装置进行实施，这里不再重述。如图8所示，本公开实施例还提供了一种多媒体界面生成装置，包括：

获取单元801，用于获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息；

确定单元802，用于根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；

生成单元803，用于根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

可选的，获取单元801用于获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息，包括：

可选的，获取单元801用于获取多媒体列表截图并进行多媒体信息区域检测，对检测出的多媒体信息区域进行文字内容识别，包括：

可选的，确定单元802用于根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，包括：

可选的，生成单元803用于根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面，包括：

可选的，生成单元803用于识别各相似多媒体界面的封面风格，包括：

对各相似多媒体界面的封面信息进行特征提取；

可选的，生成单元803用于根据相似多媒体界面的封面风格，确定与多媒体列表截图对应的封面信息，包括：

可选的，生成单元803用于识别各相似多媒体界面的多媒体描述信息中词语，并根据识别的词语生成与多媒体列表截图对应的多媒体描述信息，包括：

可选的，生成单元803用于根据词语出现的次数筛选出预设数量的目标词语，并根据目标词语确定与多媒体列表截图对应的多媒体描述信息，包括：

下面参照图9来描述根据本公开的这种实施方式的多媒体界面生成设备900。图9显示的多媒体界面生成设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，多媒体界面生成设备900可以以通用计算设备的形式表现，例如其可以为终端设备。多媒体界面生成设备900的组件可以包括但不限于：上述至少一个处理器901、上述至少一个存储器902、连接不同系统组件(包括存储器902和处理器901)的总线903。

总线903表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，还可以进一步包括只读存储器(ROM)9023。

存储器902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

多媒体界面生成设备900也可以与一个或多个外部设备904(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与多媒体界面生成设备900交互的设备通信，和/或与使得多媒体界面生成设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，多媒体界面生成设备900还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器906通过总线903与多媒体界面生成设备900的其它模块通信。应当明白，尽管图中未示出，可以结合多媒体界面生成设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

上述存储器902，用于存储程序指令；处理器901，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述实施例提供的多媒体界面生成方法。

示例性程序产品

在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的多媒体界面生成装置中各模块的步骤。

例如，终端设备可以执行获取多媒体列表截图并进行多媒体信息识别，得到多媒体列表截图中多媒体的相关信息；根据得到的多媒体的相关信息，从多媒体数据库中确定多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；根据相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图10所示，描述了根据本公开的实施方式一个的程序产品1000，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了系统的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开系统各模块的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些操作，将多个操作合并为一个操作执行，和/或将一个操作分解为多个操作执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种多媒体界面生成方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，获取多媒体列表截图并进行多媒体信息识别，得到所述多媒体列表截图中多媒体的相关信息，包括：

根据所述目标关键词，得到所述多媒体列表截图中多媒体的相关信息。

3.根据权利要求2所述的方法，其特征在于，获取多媒体列表截图并进行多媒体信息区域检测，对检测出的多媒体信息区域进行文字内容识别，包括：

对所述多媒体列表截图按行进行文字区域分割，得到所述多媒体列表截图的多行文字区域；

去除所述多媒体列表截图的每行文字区域的冗余信息，并确定所述多媒体截图中每行文字的包络区域；

4.根据权利要求1所述的方法，其特征在于，根据得到的多媒体的相关信息，从多媒体数据库中确定所述多媒体列表截图的相似多媒体界面，包括：

对从多媒体列表截图中提取的各多媒体的相关信息进行编码并进行整合，得到所述多媒体列表截图对应的第一编码向量；

获取所述多媒体数据库中不同多媒体界面的多媒体的相关信息的第二编码向量，并计算所述第二编码向量与所述第一编码向量的相似度；

根据计算得到的相似度，从多媒体数据库中确定所述多媒体列表截图的相似多媒体界面。

5.根据权利要求1所述的方法，其特征在于，根据所述相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面，包括：

识别各相似多媒体界面的封面风格，并根据所述相似多媒体界面的封面风格，确定与所述多媒体列表截图对应的封面信息；

识别各相似多媒体界面的多媒体描述信息中词语，并根据识别的词语确定与所述多媒体列表截图对应的多媒体描述信息；

根据所述多媒体列表截图中多媒体的相关信息，及对应的封面信息及多媒体描述信息，生成目标多媒体界面。

6.根据权利要求5所述的方法，其特征在于，识别各相似多媒体界面的封面风格，包括：

对各相似多媒体界面的封面信息进行特征提取；

7.根据权利要求5所述的方法，其特征在于，根据所述相似多媒体界面的封面风格，确定与所述多媒体列表截图对应的封面信息，包括：

计算所述相似多媒体界面的封面风格中各封面风格对应的出现次数/用户偏好度；

根据所述出现次数/用户偏好度，确定与所述多媒体列表截图对应的目标封面风格；

从与所述目标封面风格对应的相似多媒体界面中，选择与所述多媒体列表截图对应的封面信息。

8.一种多媒体界面生成装置，其特征在于，包括：

获取单元，用于获取多媒体列表截图并进行多媒体信息识别，得到所述多媒体列表截图中多媒体的相关信息；

确定单元，用于根据得到的多媒体的相关信息，从多媒体数据库中确定所述多媒体列表截图的相似多媒体界面，并获取各相似多媒体界面的封面信息和多媒体描述信息；

生成单元，用于根据所述相似多媒体界面的封面信息和多媒体描述信息生成目标多媒体界面。

9.一种电子设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行权利要求1至7中任一项所述的方法。