CN116049479A

CN116049479A - 歌单生成方法、介质、装置和计算设备

Info

Publication number: CN116049479A
Application number: CN202310090321.4A
Authority: CN
Inventors: 李宜烜; 蔡苗苗; 李鹏; 刘华平; 曹偲
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-05-02

Abstract

本公开的实施方式提供了一种歌单生成方法、介质、装置和计算设备。该方法包括：响应于接收到的歌单截图，提取歌单截图中歌曲的歌曲信息；基于歌曲信息，确定歌曲对应的风格信息；基于歌单截图中歌曲的数量和歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。本公开解决了相关技术中基于外部歌单截图导入的歌单需要用户进行再编辑，操作繁琐的问题。实现歌单截图中的自动分类和识别，而无需用户再进行繁琐的编辑，方便操作，提高用户体验。

Description

歌单生成方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及互联网技术领域，更具体地，本公开的实施方式涉及一种歌单生成方法、介质、装置和计算设备。

背景技术

本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

现有网络音乐平台和音乐软件，很多都能提供外部歌单导入的功能。通过输入外部歌单的链接，或者外部歌单的截图，自动识别歌单中的歌曲，并导入到新建的歌单中，而不需要为了收听歌单中的歌曲，在不同平台或软件之间，重复进行一首一首歌曲的匹配和添加，进而显著减少了用户的使用成本。

现有基于外部歌单截图导入歌单的方法，只能导入截图中全部曲目并生成歌单，无法提供个性化的选择，导致用户很多时候还需要再对生成的歌单进行编辑，操作繁琐，用户体验较差。

发明内容

本公开提供一种歌单生成方法、介质、装置和计算设备，以解决相关技术中基于外部歌单截图导入的歌单需要用户进行再编辑，操作繁琐的问题。

在本公开实施方式的第一方面中，提供了一种歌单生成方法，包括：

响应于接收到的歌单截图，提取歌单截图中歌曲的歌曲信息；

基于歌曲信息，确定歌曲对应的风格信息；

基于歌单截图中歌曲的数量和歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。

在本公开实施方式的第二方面中，提供了一种计算机可读存储介质，包括：

计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如本公开第一方面中的歌单生成方法。

在本公开实施方式的第三方面中，提供了一种歌单生成装置，包括：

提取模块，用于响应于接收到的歌单截图，提取歌单截图中歌曲的歌曲信息；

确定模块，用于基于歌曲信息，确定歌曲对应的风格信息；

生成模块，用于基于风格信息，生成歌曲对应的推荐歌单。

在本公开实施方式的第四方面中，提供了一种计算设备，包括：至少一个处理器；

以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算设备执行如本公开第一方面中的歌单生成方法。

根据本公开实施方式的歌单生成方法、介质、装置和计算设备，通过在接收到的歌单截图时，提取歌单截图中歌曲的歌曲信息，然后基于歌曲信息，确定歌曲对应的风格信息，并基于歌单截图中歌曲的数量和歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。由此，能够根据接收到的外部歌单截图，自动根据歌曲风格等特征，生成不同的推荐歌单，实现歌单截图中的自动分类和识别，而无需用户再进行繁琐的编辑，方便操作，提高用户体验。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1a示意性地示出了根据本公开实施方式的应用场景图；

图1b示意性地示出了图1a所示应用场景中歌单截图的结构示意图；

图2示意性地示出了根据本公开另一实施例的歌单生成方法的流程图；

图3a示意性地示出了根据本公开又一实施例的歌单生成方法的流程图；

图3b示意性地示出了图3a所示实施例中的文本检测模型的训练方法流程图；

图3c示意性地示出了图3a所示实施例中的文本识别模型的训练方法流程图；

图4a示意性地示出了根据本公开再一实施例的歌单生成方法的流程图；

图4b示意性地示出了图4a所示实施例中的确定歌词数据语义向量的流程图；

图4c示意性地示出了图4a所示实施例中的识别歌曲和弦风格和歌曲风格的流程图；

图4d示意性地示出了图4a所示实施例中的第二分类网络的训练方法流程图；

图5示意性地示出了根据本公开再一实施例的存储介质的结构示意图；

图6示意性地示出了根据本公开再一实施例的歌单生成装置的结构示意图；

图7示意性地示出了根据本公开再一实施例的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种歌单生成方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语仅用于方便理解，并未表示对含义的限制。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

另外，本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据，对数据的采集、传播、使用等，均符合国家相关法律法规要求，本公开实施方式/实施例可以互相组合。

发明概述

本发明人发现，现有网络音乐平台和音乐软件，很多都提供了基于外部歌单的截图，自动识别歌单中的歌曲，并导入到平台或音乐软件的现有歌单或新建歌单中，由此，可以不需要为了收听外部歌单中的歌曲，在不同平台或软件之间，重复进行一首一首歌曲的匹配和添加，进而显著减少了用户的使用成本。但现有基于外部歌单截图添加歌曲的方法，都只能直接将歌单截图中全部曲目直接导入进来，然后再由用户对其中的歌曲进行进一步编辑，如删除缺乏版权的歌曲、删除匹配错误的歌曲(如版本匹配错误)、删除与其他歌曲差别明显的歌曲(如风格差异明显的歌曲)等，通过最后添加到现有歌单或新建歌单中的歌曲，只是原歌单截图中的一小部分，整体上操作繁琐，无法直接得到用户需要的部分歌曲，用户体验较差。

在本方案中，通过在接收到的歌单截图中，提取对应歌曲信息，并根据歌曲的风格分布的情况，将其生成为一个或多个不同风格的推荐歌单，从而方便用户选择和使用推荐歌单，减少对原歌单曲目中歌曲的进一步分类处理所需要的操作量，提高歌单迁移过程中的操作效率，进而提升观众满意度。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1a所示，在歌单生成过程中，服务器100接收到客户端110(可以是网页客户端，也可以是应用客户端)传输的歌单截图，基于歌单截图和数据库120中的歌曲相关数据，生成多个推荐歌单，从而完成歌单生成过程。

其次，参考图1b所示，其为歌单截图的结构示意图，歌单截图中通常包括歌单名(可省略)、歌曲名、歌手名、专辑名、时长(可省略)、备注说明等信息。

需说明的是，图1a所示场景中服务器、客户端和数据库仅以一个为例进行示例说明，但本公开不以此为限制，也就是说，服务器、客户端和数据库的个数可以是任意的。

示例性方法

下面结合图1a和图1b中的应用场景，参考图2至图4d来描述根据本公开示例性实施方式的用于歌单生成方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2为本公开一个实施例提供的歌单生成方法的流程图。如图2所示，本实施例提供的歌单生成方法包括以下步骤：

步骤S201、响应于接收到的歌单截图，提取歌单截图中歌曲的歌曲信息。

具体的，歌单截图可以是基于智能手机应用的截图，也可以是通过电脑端应用(如专门的截图软件或具有截图功能的非专门截图软件)提供的截图功能得到的包含歌单中歌曲信息的截图。

其中，歌曲信息为歌单截图中包含的与歌曲直接相关的信息，如歌曲名、表演者名、专辑名等，通过歌曲信息，能够从服务器的曲库中匹配对应的歌曲数据。

歌单截图中可以只包含歌曲信息，也可以包含与歌曲信息无关的非歌曲信息，如歌单名、背景图片、与歌曲信息无关的图标等。只要歌单截图中包含歌曲信息，服务器或处理器就能从中提取出歌曲信息，并从曲库中匹配对应的歌曲数据，而不会受非歌曲信息的干扰。

歌单截图中的歌曲信息可以是完整歌曲信息，也可以是非完整歌曲信息，如由于字数过长导致省略部分内容的歌曲信息，如专辑名为《年度十大歌曲》，但实际只显示了“《年度十大……”。

当歌曲信息完整时，服务器或处理器可以直接基于歌曲信息匹配对应的歌曲数据，若歌曲信息不完整，服务器或处理器也可以基于不完整的歌曲信息，从曲库中搜索最相近的歌曲数据，作为与该歌曲信息匹配的歌曲数据。如前述示例中，曲库中有《年度十大歌曲》和《年度十大金曲》两个专辑名可以与该歌曲信息匹配，但《年度十大金曲》中不包含该歌曲名歌曲，则服务器会确定《年度十大歌曲》中的该歌曲名对应歌曲为匹配的歌曲数据(若多个专辑中均包含同表演者、同歌曲名的歌曲数据，则可以根据这些歌曲数据的热度或播放量，自动选择热度或播放量最高的歌曲数据为匹配的歌曲数据)。

步骤S202、基于歌曲信息，确定歌曲对应的风格信息。

具体的，匹配到对应歌曲数据之后，服务器并不会立即将这些歌曲数据返回给用户，而是会通过对歌曲数据进行分析(如通过专门提取歌曲特征或和弦特征的神经网络提取其歌曲内容特征信息，或通过其配置属性提取其风格标签信息等)，得到其风格信息，并基于风格信息，建立不同风格对应的多个推荐歌单。

风格信息指歌曲对应的情绪特征(如欢快、悲伤、无特定情绪等特征)、歌曲类别(如流行、古典、蓝调等类别)等特征信息，还可以包括歌曲主要和弦(如主要用大三和弦、小七和弦等)等内容信息，通过风格信息，能够确定歌曲数据对应的风格特征标签，如具有流行、欢快、主要用大三和弦等风格特征标签的歌曲，和具有蓝调、悲伤、主要用小七和弦等风格特征标签的歌曲，通常就不适合放在同一个推荐歌单中。

由此，通过歌曲信息，匹配到对应歌曲数据后，能够得到歌曲对应的风格信息，以便更好地将歌曲分配到对应的推荐歌单中。

步骤S203、基于歌单截图中歌曲的数量和歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。

具体的，在生成推荐歌单时，需要同时考虑歌单截图中歌曲的风格分布情况和歌曲的数量，其中歌曲分布情况，主要是歌曲的风格信息的分布情况(分布情况可以通过对各个歌曲数据的风格特征标签进行聚类分析得到)；歌曲数量，主要是通过歌单截图能够识别确定的歌曲的数量。

当歌曲数量较多，且歌曲风格分布较为分散时，可能会生成多个推荐歌单，以最大限度将风格信息相同或相近的歌曲划分在同一推荐歌单中，同时避免同一推荐歌单中出现风格信息差别较大的歌曲，提升用户在播放生成的推荐歌单时的满意度(一般同一歌单的歌曲风格较为接近时，用户体验会更好)。

当歌曲数量较少，或歌曲风格分布较为集中时，可能生成的推荐歌单数量较少，如歌单截图中歌曲的风格信息相同的情况，比如来自同一张专辑，可能只有一个推荐歌单，此时，不需要生成过多的推荐歌单，以避免过度拆分，降低用户使用体验(因为用户通常不会倾向于让一个歌单中歌曲数量过少，如只有两三首)。

在本公开的在本公开的一种示例性实施例中，不同推荐歌单中可能包含相同的歌单截图中的歌曲，即，歌单截图中的歌曲，可以同时被添加进不同推荐歌单中，如某歌曲的风格信息与两个推荐歌单的歌曲信息都存在相似，则该歌曲可以同时被添加进这两个推荐歌单，而不限于只属于一个推荐歌单。从而在增加各个推荐歌单的歌曲数量的同时，最大限度保证推荐歌单内歌曲的风格信息统一，进而提高用户的使用体验。

根据本公开实施方式的歌单生成方法，通过在接收到的歌单截图时，提取歌单截图中歌曲的歌曲信息，然后基于歌曲信息，确定歌曲对应的风格信息，并基于歌单截图中歌曲的数量和歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。由此，能够根据接收到的外部歌单截图，自动根据歌曲风格等特征，生成不同的推荐歌单，实现歌单截图中的自动分类和识别，而无需用户再进行繁琐的编辑，方便操作，提高用户体验。

图3a为本公开一个实施例提供的歌单生成方法的流程图。如图3a所示，本实施例提供的歌单生成方法包括以下步骤：

步骤S301、将歌单截图输入到预先训练的文本检测模型中，输出歌单截图中的文字位置。

具体的，本实施例将对获取歌曲信息的步骤作具体说明。

在获得歌单截图时，服务器会或处理器会将歌单截图输入到文本检测模型中，以定位歌单截图中的文字在歌单截图中的位置，以便后续通过文本识别模型识别对应文字(因为文本识别模型通常只能识别文字，若直接将歌单截图输入到文本识别模型中，由于歌单截图中包含的图片、非文字的符号等造成的干扰，会严重降低识别准确性，因此，通过文字检测模型预先定位，能够显著提高识别准确性)。

文本检测模型用于对歌单截图中的每一段文本(或文本框，如歌单名对应的文本框、歌曲名对应的文本框)进行单独定位，在输入歌单截图后，能够输入文本或文本框在歌单截图中的位置信息(如文本框的对角坐标)，从而方便文本检测模块据此，确定每个文本框的内容。

在本公开的一种示例性实施例中，在将歌单截图输入到文字检测模型之前，可以使用自适应二值化算法，对歌单截图进行预处理，以强化文字部分的特征，提高文本检测模块的检测效果。具体二值化算法可以采取现有任意自适应二值化算法，此处不做限定。

在本公开的一种示例性实施例中，在将歌单截图输入到文字检测模块之前，还可以使用行分割算法，以对歌单截图中的文本部分进行拆分，提高文件检测模块的识别准确性。因为歌单截图中的歌名、作者名、专辑名等信息，通常只会以单行形式显示，而不会换行显示或多行显示，因此，通过行分割算法(任意行分割算法均可，此处不做限定)，将歌单截图中的文字拆分为若干单行文字，缩小文本检测模块检测时确定的文本的区域大小(通过减少检测得到的文本框中空白实现，由此能减少文本框中无效信息或冗余信息)，提高后续文本识别的准确性。

进一步地，如图3b所示，其为文本检测模型的训练方法流程图，该模型通过如下方式训练得到：

步骤S3011、采集歌单截图图片作为图片样本。

其中，歌单截图图片包含实际文本位置信息，实际文本位置信息包括文本对应文本框的位置坐标和文本框的尺寸。

具体的，预先训练的样本即为采集的歌单截图图片，其中，每个歌单截图图片需要标注出其中的实际文本位置信息，即文本或文本框在歌单截图图片中的位置坐标(如对角坐标、中心点坐标、左上角坐标等)和文本框的尺寸(可以用长度和宽度表示，单位可以是毫米、像素等)。

步骤S3012、将图片样本输入到文本检测模型中，输出图片样本中的预测文本位置信息。

具体的，文本检测模型可以使用现有文本检测的卷积神经网络模型实现，如yolov5模型，文本检测模型会输出预测的图片样本中文本框的文本位置信息，输出的预测文本位置信息的格式与实际文本位置信息的格式相同，包括相对应的位置坐标和文本框尺寸。

步骤S3013、基于实际文本位置信息和预测文本位置信息，对文本检测模型进行回归训练。

具体的，通过预测文本位置信息与实际文本位置信息的差值，以对应损失函数优化为目标，对文本检测模型中的参数进行修正，从而实现对文本检测模型的回归训练，以得到可用于文本位置检测的文本检测模型。

步骤S302、将文字位置和歌单截图输入到预先训练的文本识别模型中，输出歌单截图中的文字信息。

具体的，在通过文本检测模型获取歌单截图中文本所在的文本框的位置信息(即文本位置)后，就可以通过文本识别模型依次识别每个文本框中的文字信息，进而得到整个歌单截图中的文字信息。

进一步地，如图3c所示，其为文本识别模型的训练方法流程图，该模型通过如下方式训练得到：

步骤S3021、基于歌单截图中的文字格式，生成包含随机文字的图片。

具体的，此处所指的文字格式，是指文本框在歌单截图中的分布方式，而非单个文字的字体等格式。如同一行文本框中包含歌名、专辑名和时长，或歌名、专辑名、歌手名分布于不同行的文本框中。由此，能够提升训练得到的文本识别模型的识别准确性。

步骤S3022、基于预设的文字字典，对随机文字添加数字标签。

具体的，在文本识别中，文本识别模型是通过将包含文字的图片与字库中文字进行匹配，将与包含文字的图片中文字匹配度最高的字库中文字，作为识别结果输出。而文本识别模型通常不会直接输出识别出来的文字本身，而是输出文字对应的数字标签(如数字112对应文字“好”)，因此，在训练文本识别模型时，需要先准备用于匹配文字和数字标签的文字字典。

文字字典基于现有文字库的常用文字生成，通过将文字字典中的每个文字添加一个数字标签(如为“你”添加数字标签001)，实现文字与数字标签的匹配。

基于文字字典中文字与数字标签的对应关系，对生成的图片中的随机文字分别添加对应的数字标签，以便对文本识别模型训练。

步骤S3023、将包含随机文字的图片和包含数字标签的随机文字作为训练样本，输入到文本识别模型中进行训练，得到训练完毕的文本识别模型。

具体的，文本识别模型可以采用包含时序类分类CTC(英文全名为ConnectionistTemporal Classification)的卷积循环神经网络，相对于常规的卷积神经网络，在文本识别准确性和稳健性上表现更好。

通过将包含随机文字的图片和图片中随机文字与数字标签的组合输入到文本识别模型中，对文本识别模型进行训练。

由于歌单截图中涉及的文字通常只包含歌名、歌手名、专辑名等信息，不涉及复杂语句和逻辑分析，因此，文本识别模型输出的文本结果的向量模型，可以采用单热模型(onehot模型)，只输出用去确定文字分类结果(即结果只需要确定识别得到的文字所属分类，而不需要考虑文字间的逻辑关系，文字所属分类即识别得到的文字与文字字典中的文字对应关系)。由此，可以提高文本识别模型的处理效率。

步骤S303、基于降噪模型，对文字信息进行降噪处理。

具体的，通过文字识别模型识别后，能够得到歌单截图中所有文本框中识别得到的文字，即文字信息。此时，文字信息中通常会包含一些与歌曲信息关联性较小的干扰信息，如歌名中的省略号、歌曲序号等，为保证后续确定的歌曲信息的准确性，需要对这些文字信息进行降噪处理，以去掉干扰信息。

此时，可以采用降噪算法，去掉文字信息中的干扰信息。具体使用的降噪算法，可以使用正则式编写对应规则(如根据文字所在位置顺序，只保留歌名、专辑名、歌手名对应位置的文字，去掉其他文字)，此处不做限定。

步骤S304、将文字信息与音乐库中的歌曲信息进行匹配处理，并将匹配结果作为歌单截图中歌曲的歌曲信息。

具体的，匹配歌单截图中歌曲的歌曲信息的方法，可以采用降噪模型TF-IDF算法(英文全名为term frequency–inverse document frequency，词频-逆向文件频率)，对文字信息与音乐库中的歌曲信息进行匹配，将音乐库中与文字信息匹配度最高的歌曲信息，确定为与文字信息匹配的歌曲信息。

在本公开的一种示例性实施例中，在降噪处理后得到的文字信息，即为以歌曲名、专辑名、歌手名相结合的形式表示(如表示为数组或向量的形式)，因此，每个用于进行匹配的文字信息均至少包含歌曲名、专辑名、歌手名中的一个(通常至少包含歌曲名，专辑名和歌手名则可以省略)，以保证匹配的准确性。

步骤S305、基于歌曲信息，确定歌曲对应的风格信息。

步骤S306、基于歌单截图中歌曲的数量和歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。

具体的，步骤S305至步骤S306与图2所示实施例中的步骤S202至S203内容相同，此处不再赘述。

根据本公开实施方式的歌单生成方法，通过将歌单截图输入到预先训练的文本检测模型中，输出歌单截图中的文字位置，再将文字位置和歌单截图输入到预先训练的文本识别模型中，输出歌单截图中的文字信息，再基于降噪模型，对文字信息进行降噪处理，并将文字信息与音乐库中的歌曲信息进行匹配处理，并将匹配结果作为歌单截图中歌曲的歌曲信息，然后基于歌曲信息，确定对应风格信息，生成推荐歌单。由此，能够保证对歌单截图中歌曲信息识别的准确性，避免生成的推荐歌单中的歌曲与歌单截图中歌曲不匹配，从而有效提高用户满意度。

图4a为本公开一个实施例提供的歌单生成方法的流程图。如图4a所示，本实施例提供的歌单生成方法包括以下步骤：

步骤S401、响应于接收到的歌单截图，提取歌单截图中歌曲的歌曲信息。

具体的，步骤S401与图2所示实施例中的步骤S201内容相同，此处不再赘述。

步骤S402、基于歌曲信息，提取音乐库中对应歌曲的音频数据和歌词数据。

具体的，在确定歌单截图匹配到的全部歌曲的歌曲信息后，服务器会直接提取的音乐库中保存的这些歌曲信息的相关数据，即音频数据和歌词数据，以识别歌曲的风格特征。

步骤S403、提取音频数据中的梅尔频谱信息，得到音频数据对应的音频向量。

具体的，梅尔频谱信息能够反映音频数据在沿不同时刻的频率分布情况，据此可以通过采样等处理方式提取得到音频数据的特征向量，即音频向量，以便通过音频向量，确定歌曲对应的和弦特征，并依据和弦特征对歌曲的风格进行分类。

步骤S404、基于分词工具和词向量转换模型，确定歌词数据对应的语义向量。

具体的，对歌词数据，需要提取其语义，以根据其语义对齐进行分类，因为不同风格的歌曲通常有较为固定的用词，如“同学们”一词通常属于校园歌曲类。

歌词数据中的语义以语义向量的形式表示。提取语义向量的方法，可以通过分词工具和词向量转换模型实现。

在本公开的一种示例性实施例中，如图4b所示，其为确定歌词数据语义向量的流程图。其包括如下步骤：

步骤S4041、基于分词工具，对歌词数据进行分词处理。

具体的，向歌词数据转化为语义向量前，先要对其进行分词处理，将歌词数据拆分为多个词语的组合，以便从拆分的词语中获取语义，并转化为语义向量。

分词处理所使用的分词工具可以采用现有任意分词处理工具，如基于jieba库的分词处理、基于THULAC工具的分词处理等，此处不做限定。

步骤S4042、将分词处理后的歌词数据分别输入到词向量转换模型中，得到分词处理后的歌词数据对应的词义向量。

具体的，分词完毕之后，需要将拆分得到的词语转化为词义向量，以基于词义向量处理得到语义向量。

将拆分后的词语转化为词义向量的工具可以通过词向量转换模型实现，具体的词向量转换模型可以选用word2vec模型，保证词向量转换过程的处理效率。

步骤S4043、对歌词数据对应的所有词义向量进行加权平均处理，得到歌词数据对应的语义向量。

具体的，由于不同歌曲的歌词长度不同，其歌词数据拆分出来的词语和词义向量的数量也不同，因此，不能直接基于词义向量评估歌曲的风格(因为词义向量不同，导致用于评估的数据量不同，结果的准确性和一致性较差)。因此，需要对词义向量进行进一步整合处理，以保证基于歌词数据的特征确定的风格特征的准确性和一致性。

对词义向量的整合处理可以采用对所有词义向量进行求平均处理的方式，也可以通过加权平均处理(如根据相同词语出现次数不同，设置不同的权重)的方式对其进行整合，得到与歌词数据一一对应的向量，即语义向量。

步骤S405、将音频向量和语义向量分别输入到分类网络中，识别歌曲对应的和弦风格和歌曲风格。

具体的，歌曲的风格信息包括和弦风格和歌曲风格，其中，和弦风格是指歌曲中出现次数较多的和弦和和弦的种类，歌曲风格指歌曲所属的风格类别或流派，如爵士乐、古典、蓝调、摇滚等。

在通过音频向量和语义向量识别歌曲风格信息时，需要分别识别歌曲的和弦风格和歌曲风格。其中，和弦风格由于只与音频特征有关，因此，和弦风格可以基于音频向量识别得到，而歌曲风格同时涉及音频、歌词等方面(如布鲁斯音乐所使用的和弦较为固定，而民谣音乐所使用的歌词、用语的通用性较高)，因此，可以结合音频向量和语义向量共同识别歌曲的歌曲风格。

在本公开的一种示例性实施例中，如图4c所示，其为识别歌曲和弦风格和歌曲风格的流程图。若分类网络包括用于对和弦类别分类的第一分类网络和用于对歌曲风格分类的第二分类网络，此时，具体包括如下步骤：

步骤S4051、将音频向量输入到和弦特征提取网络中，得到音频向量的和弦特征。

具体的，由于音频向量中除了和弦特征，还包括非和弦特征，如主旋律部分对应的特征，因此，在识别和弦风格时，需要首先提取音频向量中的和弦特征。

提取和弦特征的方法属于现有技术中的成熟方案，本领域技术人员可以任意选择和弦特征提取网络(或提取算法)完成和弦特征提取步骤，此处不做限定。

步骤S4052、将和弦特征输入到第一分类网络，输出歌曲对应的和弦风格。

具体的，第一分类网络主要用于基于和弦特征中不同和弦的出现频率，对和弦特征进行分类，以将出现频率最高的设定数量的和弦(如四个和弦)作为和弦特征对应的和弦风格，也即是歌曲对应的和弦风格。

因此，第一分类网络在训练时，会使用大量包含不同和弦(且和弦出现频率不同)的和弦特征数据作为训练样本，并将和弦特征数据中出现频率最高的设定数量的和弦标注出来作为其和弦风格；然后将这一训练样本输入到第一分类网络中进行训练。

根据第一分类网络输出的结果，可以确定歌曲中出现频率最高的和弦，进而确定其和弦风格。

步骤S4053、将音频向量和语义向量输入到歌曲风格特征提取网络，输出歌曲对应的歌曲风格特征。

具体的，歌曲风格特征提取网络即用于歌曲风格流派识别的神经网络，现有技术中基于歌曲的音频数据识别歌曲风格的神经网络的建立方法较为成熟，而基于音频向量和语义向量的歌曲风格特征提取网络的建立方法与其类似。

通过采集预先确定了歌曲风格的歌曲，并预先提取其对应的音频向量和语义向量作为训练样本，(将音频向量和语义向量相互拼接后)输入到神经网络(如卷积神经网络或循环卷积神经网络)中进行训练，进而得到用于通过音频向量和语义向量识别歌曲风格特征的神经网络。

由于音频向量和语义向量是从音频数据和歌词数据中提取的特征信息，相对于直接使用原始的音频数据和歌词数据进行训练和判断，能够减少数据干扰，提高识别的准确性。相对于现有技术中的歌曲风格流派识别的神经网络只使用音频数据进行识别，将音频数据与歌词数据结合(即音频向量和语义向量)，也能进一步提高歌曲风格识别的准确性。

步骤S4054、对歌曲风格特征和和弦特征进行融合处理。

具体的，将歌曲风格特征提取网络输出的歌曲风格特征和和弦特征提取网络输出的和弦特征结合(如相加、错位相加、相乘或相互拼接等结合方式)，得到融合后的特征，以便根据融合后的特征，综合确定歌曲的风格。

步骤S4055、将融合处理后的歌曲风格特征和和弦特征输入到第二分类网络，输出歌曲对应的歌曲风格。

具体的，由于现有常规的歌曲风格流派识别的神经网络的准确率通常有限(一般准确率都低于90％)，即使将音频向量和语义向量结合进行识别，其得到的神经网络的识别准确率也无法保证足够高，因此，可以在识别的歌曲风格特征的基础上，再与和弦特征结合，通过第二分类网络再次识别，进一步提高识别的准确性。

进一步地，如图4d所示，其为第二分类网络的训练方法流程图，第二分类网络通过如下方式训练得到：

步骤A1、获取用于训练的音频样本数据，并标注出音频样本数据对应的风格和出现频率超过设定数量或出现数量占比超过设定比例的和弦。

具体的，第二分类网络的输入数据同时包含和弦特征和歌曲风格特征，因此，用于训练第二分类网络的训练样本数据需要预先标注其风格和和弦特征(即出现频率最高的多个和弦、出现频率超过设定数量的和弦或出现数量占比超过设定比例的和弦)。

步骤二A2、将音频样本数据输入到第二分类网络中，输出音频样本数据中的预测风格。

具体的，将标注了和弦特征和风格的样本数据输入到第二分类网络中，输出其预测的风格特征，并与标注风格对比，可以判断预测结果的准确性。

步骤三A3、基于音频样本数据对应的标注出的风格和预测风格，对第二分类网络进行回归训练。

具体的，对第二分类网络进行回归训练的过程，与对歌曲风格特征提取网络、和弦特征提取网络的训练过程类似，此处不再赘述。

在本公开的一种示例性实施例中，也可以将步骤S403至步骤S405中所使用的神经网络整合为一个模块，通过输入步骤S402中提取的歌词数据和音频数据，就能直接输出得到对应的和弦风格和歌曲风格。

步骤S406、基于歌单截图中歌曲的数量，确定待生成歌单的数量。

具体的，得到歌曲的和弦风格和歌曲风格之后，就可以据此，结合歌曲数量建立推荐歌单。

由于歌单截图中歌曲数量不同时，适宜生成的歌单数量不同(如歌曲数量只有3首歌，此时就没必要生成多个歌单，而如果歌曲数量有20首，此时生成2到5个歌单都是可以的)。具体歌曲数量与待生成歌单数量的对应关系可通过对用户使用中的习惯数量关系调研或统计得到，此处不做具体限定。

步骤S407、将风格信息中的和弦风格和歌曲风格组合后，编码为风格向量。

具体的，根据确定的和弦风格和歌曲风格，可以将其编码为风格向量，如根据和弦风格中确定的出现频率最高的和弦名，分别选择对应的编码(如C和弦可以编码为0001、Am和弦可以编码为0010)，并将所有出现频率最高的和弦结合起来(根据和弦数量不同，编码长度可能存在差别，如出现频率最高的和弦是C和Am，就可以编码为00010010)。歌曲风格也可通过类似方式编码(如蓝调编码为0000100000)。

将和弦风格和歌曲风格的编码相拼接，就可以得到风格向量(如前述例子，将C和弦、Am和弦与蓝调拼接，得到000100100000100000)，代表歌曲对应的风格、和弦等信息。

步骤S408、确定风格向量的聚类分布情况，得到待生成歌单的数量对应的歌曲聚类。

具体的，在确定风格向量后，就可以通过聚类分析，对这些风格向量进行聚类处理，从而实现对歌单截图中歌曲的聚类，以将歌曲划分至不同歌单。

在本公开的一种示例性实施例中，聚类分析的算法可以选择kmeans聚类，基于预先确定的歌单数目，将风格向量聚成对应数量的类别，并将每个类别分别作为一个歌单，以推荐给用户。

其中，不同聚类中的歌曲数量可能互不相同，不同聚类中可能包含相同的歌曲(如某歌曲既属于摇滚风格的歌单、又属于以C和弦为主的歌单)，因此，所有类别的歌曲的数目总和可以大于歌单截图中的歌曲数目(因为有的歌曲在多个类别中重复出现)。

步骤S409、基于每个歌曲聚类分别生成一个对应的推荐歌单，并将歌曲聚类的对应的风格信息作为推荐歌单的特征信息。

具体的，对每个聚类的歌曲，可以生成对应的推荐歌单，并将该聚类对应的风格向量对应的信息，或者该类别中歌曲共有的标签信息(如对应相同歌手、相同年代、相同厂牌等通过风格向量无法表达的信息)作为推荐歌单的特征信息。从而方便用户直观了解不同推荐歌单的特点。

在本公开的一种示例性实施例中，生成的推荐歌单包含是否保留的选项，以便用户根据需要，选择保留全部或部分推荐歌单，以提高用户使用体验。

在本公开的一种示例性实施例中，除了生成基于不同聚类的推荐歌单，还会生成包含全部歌单截图中歌曲的单独推荐歌单，以最大限度满足用户需求(如用户可能就是需要建立一个风格混杂的歌单)。

根据本公开实施方式的歌单生成方法，通过提取歌单截图中的歌曲信息，并基于歌曲信息确定音乐库中对应歌曲的音频数据和歌词数据，然后提取音频数据对应的音频向量、歌词数据对应的语义向量，并输入到分类网络中，得到歌曲对应的和弦风格和歌曲风格，然后根据和弦风格、歌曲风格和歌单截图中的歌曲数量，基于歌单截图中的歌曲生成多个推荐歌单。由此，能够使得生成的推荐歌单可以分别针对歌单截图中不同歌曲的特点，减少用户手动拆分推荐歌单的繁琐操作，提高处理效率，进而提高用户的使用体验。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图5对本公开示例性实施方式的存储介质进行说明。

参考图5所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品50，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图6对本公开示例性实施方式的歌单生成装置进行说明，用于实现上述任一方法实施例中的歌单生成方法，其实现原理和技术效果与前述对应方法的实施例类似，在此不再赘述。

本公开提供的歌单生成装置600，包括：

提取模块610，用于响应于接收到的歌单截图，提取歌单截图中歌曲的歌曲信息；

确定模块620，用于基于歌曲信息，确定歌曲对应的风格信息；

生成模块630，用于基于风格信息，生成歌曲对应的推荐歌单。

在本公开的一种示例性实施例中，提取模块610具体用于：将歌单截图输入到预先训练的文本检测模型中，输出歌单截图中的文字位置；将文字位置和歌单截图输入到预先训练的文本识别模型中，输出歌单截图中的文字信息；将文字信息与音乐库中的歌曲信息进行匹配处理，并将匹配结果作为歌单截图中歌曲的歌曲信息。

在本公开的一种示例性实施例中，提取模块610包括：通过如下方式训练得到文本检测模型：采集歌单截图图片作为图片样本，歌单截图图片包含实际文本位置信息，实际文本位置信息包括文本对应文本框的位置坐标和文本框的尺寸；将图片样本输入到文本检测模型中，输出图片样本中的预测文本位置信息；基于实际文本位置信息和预测文本位置信息，对文本检测模型进行回归训练。

在本公开的一种示例性实施例中，提取模块610包括：通过如下方式训练得到文本识别模型：基于歌单截图中的文字格式，生成包含随机文字的图片；基于预设的文字字典，对随机文字添加数字标签；将包含随机文字的图片和包含数字标签的随机文字作为训练样本，输入到文本识别模型中进行训练，得到训练完毕的文本识别模型。

在本公开的一种示例性实施例中，提取模块610还用于：在将文字信息与音乐库中的歌曲信息进行匹配处理，并将匹配结果作为歌单截图中歌曲的歌曲信息之前，基于降噪模型，对文字信息进行降噪处理。

在本公开的一种示例性实施例中，确定模块620具体用于：若风格信息包括和弦风格和歌曲风格，基于歌曲信息，提取音乐库中对应歌曲的音频数据和歌词数据；提取音频数据中的梅尔频谱信息，得到音频数据对应的音频向量；基于分词工具和词向量转换模型，确定歌词数据对应的语义向量；将音频向量和语义向量分别输入到分类网络中，识别歌曲对应的和弦风格和歌曲风格。

在本公开的一种示例性实施例中，确定模块620具体用于：基于分词工具，对歌词数据进行分词处理；将分词处理后的歌词数据分别输入到词向量转换模型中，得到分词处理后的歌词数据对应的词义向量；对歌词数据对应的所有词义向量进行加权平均处理，得到歌词数据对应的语义向量。

在本公开的一种示例性实施例中，确定模块620具体用于：若分类网络包括用于对和弦类别分类的第一分类网络和用于对歌曲风格分类的第二分类网络，将音频向量输入到和弦特征提取网络中，得到音频向量的和弦特征；将和弦特征输入到第一分类网络，输出歌曲对应的和弦风格；将音频向量和语义向量输入到歌曲风格特征提取网络，输出歌曲对应的歌曲风格特征；对歌曲风格特征和和弦特征进行融合处理；将融合处理后的歌曲风格特征和和弦特征输入到第二分类网络，输出歌曲对应的歌曲风格。

在本公开的一种示例性实施例中，确定模块620包括：通过如下方式训练得到第二分类网络：获取用于训练的音频样本数据，并标注出音频样本数据对应的风格和出现频率超过设定数量或出现数量占比超过设定比例的和弦；将音频样本数据输入到第二分类网络中，输出音频样本数据中的预测风格；基于音频样本数据对应的标注出的风格和预测风格，对第二分类网络进行回归训练。

在本公开的一种示例性实施例中，生成模块630具体用于：基于歌单截图中歌曲的数量，确定待生成歌单的数量；将风格信息中的和弦风格和歌曲风格组合后，编码为风格向量；对风格向量进行聚类处理，并得到待生成歌单的数量对应的歌曲聚类；基于每个歌曲聚类分别生成一个对应的推荐歌单，并将歌曲聚类的对应的风格信息作为推荐歌单的特征信息。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图7对本公开示例性实施方式的计算设备进行说明。

图7显示的计算设备70仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算设备70以通用计算设备的形式表现。计算设备70的组件可以包括但不限于：上述至少一个处理单元701、上述至少一个存储单元702，连接不同系统组件(包括处理单元701和存储单元702)的总线703。

总线703包括数据总线、控制总线和地址总线。

存储单元702可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)7023。

存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025，这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备70也可以与一个或多个外部设备704(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且，计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器706通过总线703与计算设备70的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了供应链策略确定装置和对象评分模型训练装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种歌单生成方法，其特征在于，所述方法包括：

响应于接收到的歌单截图，提取所述歌单截图中歌曲的歌曲信息；

基于所述歌曲信息，确定所述歌曲对应的风格信息；

基于所述歌单截图中歌曲的数量和所述歌曲的风格分布情况，生成包含至少一个风格的推荐歌单。

2.根据权利要求1所述的歌单生成方法，其特征在于，所述响应于接收到的歌单截图，提取所述歌单截图中歌曲的歌曲信息，包括：

将所述歌单截图输入到预先训练的文本检测模型中，输出所述歌单截图中的文字位置；

将所述文字位置和所述歌单截图输入到预先训练的文本识别模型中，输出所述歌单截图中的文字信息；

将所述文字信息与音乐库中的歌曲信息进行匹配处理，并将匹配结果作为所述歌单截图中歌曲的歌曲信息。

3.根据权利要求2所述的歌单生成方法，其特征在于，所述文本检测模型通过如下方式训练得到：

采集歌单截图图片作为图片样本，所述歌单截图图片包含实际文本位置信息，所述实际文本位置信息包括所述文本对应文本框的位置坐标和文本框的尺寸；

将所述图片样本输入到文本检测模型中，输出所述图片样本中的预测文本位置信息；

基于所述实际文本位置信息和所述预测文本位置信息，对所述文本检测模型进行回归训练。

4.根据权利要求2所述的歌单生成方法，其特征在于，所述文本识别模型通过如下方式训练得到：

基于歌单截图中的文字格式，生成包含随机文字的图片；

基于预设的文字字典，对所述随机文字添加数字标签；

将包含随机文字的图片和包含数字标签的随机文字作为训练样本，输入到所述文本识别模型中进行训练，得到训练完毕的文本识别模型。

5.根据权利要求2所述的歌单生成方法，其特征在于，所述将所述文字信息与音乐库中的歌曲信息进行匹配处理，并将匹配结果作为所述歌单截图中歌曲的歌曲信息之前，还包括：

基于降噪模型，对所述文字信息进行降噪处理。

6.根据权利要求1至5中任一项所述的歌单生成方法，其特征在于，所述风格信息包括和弦风格和歌曲风格，

所述基于所述歌曲信息，确定所述歌曲对应的风格信息，包括：

基于所述歌曲信息，提取音乐库中对应歌曲的音频数据和歌词数据；

提取所述音频数据中的梅尔频谱信息，得到所述音频数据对应的音频向量；

基于分词工具和词向量转换模型，确定所述歌词数据对应的语义向量；

将所述音频向量和所述语义向量分别输入到分类网络中，识别所述歌曲对应的和弦风格和歌曲风格。

7.根据权利要求6所述的歌单生成方法，其特征在于，所述基于分词工具和词向量转换模型，确定所述歌词数据对应的语义向量，包括：

基于分词工具，对所述歌词数据进行分词处理；

将所述分词处理后的所述歌词数据分别输入到所述词向量转换模型中，得到所述分词处理后的所述歌词数据对应的词义向量；

对所述歌词数据对应的所有词义向量进行加权平均处理，得到所述歌词数据对应的语义向量。

8.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的歌单生成方法。

9.一种歌单生成装置，其特征在于，所述装置包括：

提取模块，用于响应于接收到的歌单截图，提取所述歌单截图中歌曲的歌曲信息；

确定模块，用于基于所述歌曲信息，确定所述歌曲对应的风格信息；

生成模块，用于基于所述风格信息，生成所述歌曲对应的推荐歌单。

10.一种计算设备，其特征在于，包括：至少一个处理器；

以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算设备执行如权利要求1至7中任一项所述的歌单生成方法。