CN113159203A

CN113159203A - 歌曲标记模型训练、歌曲标记方法、电子设备及存储介质

Info

Publication number: CN113159203A
Application number: CN202110466450.XA
Authority: CN
Inventors: 万鑫瑞
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-23
Anticipated expiration: 2041-04-28
Also published as: CN113159203B

Abstract

本申请公开了一种歌曲标记模型训练方法、装置、设备及计算机可读存储介质，该方法包括：从原始数据集中提取训练数据集和测试数据集；利用训练数据集训练初始模型，得到初始标记模型；基于训练数据集中的负样本生成负样本词汇表，并利用负样本词汇表构建过滤器；利用初始标记模型和过滤器组合得到中间模型；将测试数据集中的测试数据输入中间模型，利用初始标记模型对测试数据进行标记，得到初始标记结果；利用过滤器检测测试数据与负样本词汇表的匹配结果，并基于匹配结果对初始标记结果进行修正，得到测试结果；若测试结果满足测试要求，则将中间模型确定为歌曲标记模型；利用过滤器处理分类边界问题使得歌曲标记模型可以准确地进行歌曲标记。

Description

歌曲标记模型训练、歌曲标记方法、电子设备及存储介质

技术领域

本申请涉及歌曲标记技术领域，特别涉及歌曲标记模型训练方法、歌曲标记方法、电子设备及计算机可读存储介质。

背景技术

在音乐领域中，一首歌曲能表示多个情感及主题，因此通常可以为歌曲标记对应的标签，标签体系的构建对于歌曲的搜索、推荐等具有很大的帮助。相关技术通常采用人工标记的方式为歌曲设置标签，然而歌曲数量众多，利用人工标记的方式效率较低，歌曲覆盖面较小。且不同人对标签的理解和判断不同，因此人工标记的标签无法确信，可靠性较低。

发明内容

有鉴于此，本申请的目的在于提供歌曲标记模型训练方法、歌曲标记方法、电子设备及计算机可读存储介质，利用训练数据得到初始标记模型，并基于负样本词汇表构建过滤器，可以利用过滤器处理模型难以处理的分类边界问题，使得最终得到的歌曲标记模型的准确率较高，可以准确地判断是否为歌曲添加该歌曲标记模型对应的模型标签。

为解决上述技术问题，第一方面，本申请提供了一种歌曲标记模型训练方法，包括：

从原始数据集中提取训练数据集和测试数据集；所述训练数据集和所述测试数据集不具有交集；

利用所述训练数据集训练初始模型，得到初始标记模型；

基于所述训练数据集中的负样本生成负样本词汇表，并利用所述负样本词汇表构建过滤器；

利用所述初始标记模型和所述过滤器组合得到中间模型；

将所述测试数据集中的测试数据输入所述中间模型，利用所述初始标记模型对所述测试数据进行标记，得到初始标记结果；

利用所述过滤器检测所述测试数据与所述负样本词汇表的匹配结果，并基于所述匹配结果对所述初始标记结果进行修正，得到测试结果；

若所述测试结果满足测试要求，则将所述中间模型确定为歌曲标记模型。

在一种可行的实施方式中，所述从原始数据集中提取训练数据集，包括：

从所述原始数据集中获取初始训练数据，并根据模型标签类型对所述初始训练数据进行内容筛选，得到中间训练数据；

对所述中间训练数据进行K折交叉检验，得到交叉检验结果，并基于所述交叉检验结果计算检验置信度；

若所述检验置信度大于置信度阈值，则利用所述中间训练数据组成所述训练数据集；

若所述检验置信度不大于置信度阈值，则基于所述交叉检验结果对所述中间训练数据进行定向增强，并重新进行K折交叉检验。

在一种可行的实施方式中，所述基于所述交叉检验结果对所述中间训练数据进行定向增强，包括：

基于所述交叉检验结果确定错误训练数据；

获取第一人工校验信息，并根据所述第一人工校验信息调整所述错误训练数据，得到校验训练数据；

增大所述校验训练数据对应的权重，并将所述校验训练数据确定为中间训练数据。

在一种可行的实施方式中，所述从所述原始数据集中获取初始训练数据，包括：

从所述原始数据集中获取人工标注正样本、人工标注负样本、反义标签负样本、随机样本作为所述初始训练数据；其中，所述人工标注正样本具有所述初始模型的模型标签，所述反义标签负样本的样本标签为所述模型标签的反义词，所述随机样本不包括任意一个所述人工标注正样本、所述人工标注负样本或所述反义标签负样本。

在一种可行的实施方式中，所述根据模型标签类型对所述初始训练数据进行内容筛选，得到中间训练数据，包括：

确定所述初始模型的模型标签所属的所述模型标签类型；所述模型标签类型为歌词类型、核心歌词类型、歌曲名类型或专辑名类型；

利用所述模型标签类型和所述初始训练数据中各个数据内容的内容标签进行匹配；

将未通过匹配的所述内容标签对应的所述数据内容滤除，得到所述中间训练数据。

在一种可行的实施方式中，所述基于所述匹配结果对所述初始标记结果进行修正，得到测试结果，包括：

若所述匹配结果为命中，且所述初始标记结果为命中，则将所述初始标记结果修正为非命中，得到所述测试结果；

若所述匹配结果为非命中，或者若所述匹配结果为命中且所述初始标记结果为非命中，则将所述初始标记结果确定为所述测试结果。

在一种可行的实施方式中，所述基于所述训练数据集中的负样本生成负样本词汇表，并利用所述负样本词汇表构建过滤器，包括：

对所述训练数据集中的各个反义标签负样本进行分词，得到多个负样本词；

统计各个所述负样本词对应的词频，并基于所述词频筛选所述负样本词，得到负样本种子词；

基于所述负样本种子词得到所述负样本词汇表，并利用所述负样本词汇表构建所述过滤器。

在一种可行的实施方式中，所述基于所述负样本种子词得到所述负样本词汇表，包括：

对所述负样本种子词进行向量映射，得到种子词向量；

分别计算所述种子词向量与各个候选词向量之间的余弦相似度，并将所述余弦相似度处于相似度区间的候选词向量确定为目标候选词向量；

将目标候选词向量对应的目标候选词确定为相似词，并利用所述相似词和所述负样本种子词组成所述负样本词汇表。

在一种可行的实施方式中，若所述测试结果不满足测试要求，包括：

基于所述测试结果确定错误测试数据；

获取第二人工校验信息，并根据所述第二人工校验信息调整所述错误测试数据，得到新增训练数据；

增大所述新增训练数据对应的权重，并将所述新增训练数据添加到所述训练数据集中，以便利用所述训练数据集重新生成所述初始标记模型和所述过滤器。

第二方面，本申请还提供了一种歌曲标记方法，包括：

获取待测歌曲对应的待测文本；

将所述待测文本输入所述歌曲标记模型，得到标记判断结果，其中，所述歌曲标记模型为上述的歌曲标记模型；

若所述标记判断结果为命中，则对所述待测歌曲增加所述歌曲标记模型对应的模型标签。

第三方面，本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的歌曲标记模型训练方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的歌曲标记模型训练方法。

本申请提供的歌曲标记模型训练方法，从原始数据集中提取训练数据集和测试数据集；训练数据集和测试数据集不具有交集；利用训练数据集训练初始模型，得到初始标记模型；基于训练数据集中的负样本生成负样本词汇表，并利用负样本词汇表构建过滤器；利用初始标记模型和过滤器组合得到中间模型；将测试数据集中的测试数据输入中间模型，利用初始标记模型对测试数据进行标记，得到初始标记结果；利用过滤器检测测试数据与负样本词汇表的匹配结果，并基于匹配结果对初始标记结果进行修正，得到测试结果；若测试结果满足测试要求，则将中间模型确定为歌曲标记模型。

可见，该方法在从原始数据集中获取训练数据集后利用其对初始模型进行训练，得到对应的初始标记模型，初始标记模型为二分类模型，其可以对是否为输入数据赋予对应的模型标签进行检测。由于分类边界难以界定会导致模型准确率下降，因此为了提高模型准确率，可以基于训练数据集中的负样本构建负样本词汇表，进而利用负样本词汇表构建过滤器，过滤器可以将因分类边界不清导致的明显分类错误修正，因此利用初始标记模型和过滤器组合得到中间模型相比于初始标记模型具有更高的准确率。在得到中间模型后，为了保证模型性能，利用测试数据对其进行测试，得到对应的测试结果。具体的，首先利用中间模型中的初始标记模型对测试数据进行标记，得到标记结果。为了避免出现分类边界问题导致标记结果不准，利用过滤器判断测试数据是否与负样本词汇表相匹配，得到对应的匹配结果。根据匹配结果的不同，选择不同的方式对初始标记结果进行修正，得到测试结果。通过匹配和修正，可以避免因分类边界难以界定导致测试结果错误。在测试结果满足测试要求时时说明中间模型的性能较好，因此可以将其确定为歌曲标记模型。利用训练数据得到初始标记模型，并基于负样本词汇表构建过滤器，可以利用过滤器处理模型难以处理的分类边界问题，使得最终得到的歌曲标记模型的准确率较高，可以准确地判断是否为歌曲添加该歌曲标记模型对应的模型标签，解决了相关技术效率较低和可靠性较低的问题。

此外，本申请还提供了一种电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种歌曲标记模型训练方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种歌曲标记模型训练方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种歌曲标记模型训练方法的流程示意图；

图4为本申请实施例提供的一种具体的歌曲标记模型训练方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在音乐领域中，一首歌曲能表示多个情感及主题，因此通常可以为歌曲标记对应的标签，标签体系的构建对于歌曲的搜索、推荐等具有很大的帮助。相关技术通常采用人工标记的方式为歌曲设置标签，然而歌曲数量众多，每天还有大量的新歌曲出现，因此利用人工标记的方式效率较低，歌曲覆盖面较小。同时，不同人对标签的理解和判断不同，因此人工标记的标签无法确信，可靠性较低。随着标签体系的建立，可能需要对某个标签重新定义，例如拆分为更加细致的多个标签，因此可能需要对这一类别的歌曲重新进行标记。为了解决这个问题，本申请提供了一种歌曲标记模型训练方法，可以用于训练歌曲标记模型。歌曲标记模型用于识别是否对某一首歌曲打上该模型对应的标签，由于歌曲标记模型具有基于负样本词汇表生成的过滤器，因此其可以解决原本模型难以处理的边界分类问题，使得模型的准确率较高，在模型训练完毕后，可以利用其准确地对各个模型进行分类和处理，解决了歌曲标记效率较低且准确率较低的问题。

为了便于理解，先对本申请实施例提供的歌曲标记模型训练方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种歌曲标记模型训练方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成歌曲标记模型训练方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-OnlyMemory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

从原始数据集中提取训练数据集和测试数据集；训练数据集和测试数据集不具有交集；

利用训练数据集训练初始模型，得到初始标记模型；

基于训练数据集中的负样本生成负样本词汇表，并利用负样本词汇表构建过滤器；

利用初始标记模型和过滤器组合得到中间模型；

将测试数据集中的测试数据输入中间模型，利用初始标记模型对测试数据进行标记，得到初始标记结果；

利用过滤器检测测试数据与负样本词汇表的匹配结果，并基于匹配结果对初始标记结果进行修正，得到测试结果；

若测试结果满足测试要求，则将中间模型确定为歌曲标记模型。

或，

获取待测歌曲对应的待测文本；

将待测文本输入歌曲标记模型，得到标记判断结果，其中，歌曲标记模型为上述的歌曲标记模型；

若标记判断结果为命中，则对待测歌曲增加歌曲标记模型对应的模型标签。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行歌曲标记模型训练方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成歌曲标记模型训练方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种歌曲标记模型训练方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是计算机，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高歌曲标记模型训练的处理效率。同时利用成本低，应用范围广的计算机作为第一电子设备11，用于实现第二电子设备12与用户之间的交互。可以理解的是，该交互过程可以为：计算机获取训练数据集，或者还可以进一步根据训练数据集确定对应的负样本词汇表。计算机将训练数据集，或者将训练数据集和负样本词汇表发送给服务器，由服务器执行歌曲标记模型训练方法的具体步骤，最终得到歌曲标记模型。

基于上述说明，请参考图3，图3为本申请实施例提供的一种歌曲标记模型训练方法的一种流程示意图。该实施例中的方法包括：

S101：从原始数据集中提取训练数据集和测试数据集。

需要说明的是，为了保证测试效果，训练数据集和测试数据集不具有交集。训练数据集用于对初始模型进行训练进而得到对应的初始标记模型，其中包括正样本和负样本。训练数据集具有对应的标签，该标签即为利用该训练数据集训练得到的歌曲标记模型的模型标签，歌曲标记模型可以对输入的数据进行判断，判断是否能够为输入的数据赋予自身的模型标签。模型标签的内容不做限定，其可以为字、词、句等形式。训练数据集中的正样本为符合模型标签的样本，负样本为不符合模型标签的样本。不符合模型标签的情况较多，因此为了使得歌曲标记模型的性能较好，在构建训练数据集时，可以采用多种不同的方式选择负样本。例如在一种实施方式中，可以由人工标注部分样本作为负样本；在另一种实施方式中，可以选择模型标签的反义标签，将符合该反义标签的样本作为负样本。进一步的，还可以在上述两种方案的基础上，再随机抽取部分非正样本的样本作为负样本。正样本通常由人工标注得到。训练数据集的构建过程不做限定，例如可以在获取到正样本和负样本后直接利用其组成训练数据集；或者可以利用正样本和负样本组成初始数据集，并对初始数据集的质量进行验证，在符合质量要求时将其确定为初始数据集，在不符合质量要求时，可以由人工进行校验；或者可以利用正样本和负样本组成初始数据集，并对该初始数据集进行数据定向增强处理，得到训练数据集，进一步提高训练数据集的质量和可靠性。

本实施例并不限定训练数据集中样本的数据内容，其具体歌词、核心歌词、歌曲名、专辑名等一种或多种。根据训练数据集的标签的不同，样本的数据内容也可以不同，例如当标签为“胎教”时，其通常可以从歌曲名、专辑名等处区分，因此样本内容可以为歌曲名或专辑名；当标签为“爱情”时，其通常可以从歌词或核心歌词处区分，因此样本内容可以为歌词或核心歌词。本实施例并不限定获取训练数据集的具体方式，在一种实施方式中，训练数据集可以存储于云端等外部存储路径，在需要训练歌曲标记模型时从云端获取；在另一种实施方式中，可以在本地存储，在需要训练歌曲标记模型时直接在本地读取即可。

测试数据集与训练数据集的获取方式可以相同也可以不同，二者的区别在于数据集的内容不同，即二者之间没有交集。

S102：利用训练数据集训练初始模型，得到初始标记模型。

初始模型即为没有经过训练的模型，其模型类型和架构不做限定，例如可以为卷积神经网络模型。在得到训练数据集后，利用其对初始模型进行训练，模型训练的过程不做限定，根据模型类型的不同，具体的训练过程可以不同。

S103：基于训练数据集中的负样本生成负样本词汇表，并利用负样本词汇表构建过滤器。

负样本词汇表用于记录训练数据集中各个负样本对应的高频词汇，在另一种实施方式中，还可以记录该高频词汇的近义词。由于模型难以处理分类边界问题，因此通过训练数据集训练的道德初始标记模型可能会错误识别某些明显不应当标记的数据，造成明显的错误，使得模型准确率较低。为了解决这个问题，提高模型的准确率，可以基于训练数据集中的负样本生成对应的负样本词汇表，进而构建过滤器，过滤器用于对这些明显的错误进行修正，在初始标记模型输出明显错误结果时将结果修改，得到正确的结果。在一种实施方式中，负样本词汇表可以由人工编写生成，在获取训练数据集时同时获取负样本词汇表；在另一种实施方式中，还可以在获取到训练数据集后在本地生成负样本词汇表，具体的生成方式不做限定，例如可以遍历训练数据集中的各个负样本中的各个词，将词频超过预设词频的词加入负样本词汇表。过滤器用于对初始标记模型的输出结果进行过滤，利用负样本词汇表构建过滤器的具体方式本实施例不做限定，可以参考相关技术。

S104：利用初始标记模型和过滤器组合得到中间模型。

在得到过滤器后，将其与初始标记模型进行组合，进而得到中间模型。

S105：将测试数据集中的测试数据输入中间模型，利用初始标记模型对测试数据进行标记，得到初始标记结果。

在得到中间模型后，为了保证模型性能满足要求，可以利用测试数据对中间模型进行测试，得到测试结果。测试结果可以表征模型对测试数据的识别能力，即是否能够准确识别测试数据。测试数据与训练数据集中的样本并不重合，在一种实施方式中，可以随机获取任意不属于训练数据集中的数据作为测试数据。测试时，依次将各个测试数据输入中间模型，得到对应的输出结果，并将该输出结果与测试数据的标签相匹配，得到测试结果，在这种情况跟下，测试结果可以为正确或错误，或者可以为命中或未命中。

整个测试过程包括两步，即标记步骤(S105)和修正步骤(S106)。初始标记模型经过训练得到，其具有判断是否对数据进行标记的能力。因此在进行测试时，在将测试数据输入中间模型后，首先利用初始标记模型对测试数据进行标记，具体标记过程与初始标记模型的结构相关，具体可以参考相关技术。

S106：利用过滤器检测测试数据与负样本词汇表的匹配结果，并基于匹配结果对初始标记结果进行修正，得到测试结果。

在得到初始标记结果后，由于初始标记模型可能出现分类边界问题，导致出事标记结果不准确，因此本实施例中的测试过程还包括修正步骤。具体的，过滤器基于负样本词汇表构建，而负样本词汇表记录了训练数据集中各个负样本对应的高频词汇，其同样为初始标记模型可能错误标记的词汇。将测试数据输入中间模型时，同样将其输入过滤器，以便利用过滤器检测测试数据与负样本词汇表是否相匹配。本实施例并不限定二者相匹配的条件，例如可以为测试数据原文处于负样本词汇表，或者可以为测试数据中的部分内容被负样本词汇表收录。在检测结束后，得到对应的匹配结果，过滤器可以进一步根据匹配结果以及初始标记结果的具体内容对其进行修正，得到对应的测试结果。

本实施例并不限定修正的具体方式，在一种实施方式中，若匹配结果为命中，且初始标记结果为命中，在这种情况下，说明模型出现了分类边界问题，进行了错误的分类，得到了错误的初始标记结果。在这种情况下，则将初始标记结果修正为非命中，得到准确地测试结果。在另一种实施方式中，若匹配结果为非命中，或者若匹配结果为命中且初始标记结果为非命中，则说明模型没有出现分类边界问题，进行了正确的分类，得到了准确的初始标记结果。在这种情况下，则直接将初始标记结果确定为测试结果，即这种情况下的修正过程为初始标记结果身份转变为测试结果的过程。

S107：若测试结果满足测试要求，则将中间模型确定为歌曲标记模型。

在得到测试结果后，可以判断其是否满足测试要求，测试要求的具体内容不做限定，例如可以为准确率要求，即当测试准确率大于准确率阈值时确定满足测试要求；或者可以进一步划分正向准确率、负向准确率等，在各个准确率均大于对应的准确率阈值时确定满足测试要求。当中间模型满足测试要求后将其确定为歌曲标记模型。

应用本申请实施例提供的歌曲标记模型训练方法，在从原始数据集中获取训练数据集后利用其对初始模型进行训练，得到对应的初始标记模型，初始标记模型为二分类模型，其可以对是否为输入数据赋予对应的模型标签进行检测。由于分类边界难以界定会导致模型准确率下降，因此为了提高模型准确率，可以基于训练数据集中的负样本构建负样本词汇表，进而利用负样本词汇表构建过滤器，过滤器可以将因分类边界不清导致的明显分类错误修正，因此利用初始标记模型和过滤器组合得到中间模型相比于初始标记模型具有更高的准确率。在得到中间模型后，为了保证模型性能，利用测试数据对其进行测试，得到对应的测试结果。具体的，首先利用中间模型中的初始标记模型对测试数据进行标记，得到标记结果。为了避免出现分类边界问题导致标记结果不准，利用过滤器判断测试数据是否与负样本词汇表相匹配，得到对应的匹配结果。根据匹配结果的不同，选择不同的方式对初始标记结果进行修正，得到测试结果。通过匹配和修正，可以避免因分类边界难以界定导致测试结果错误。在测试结果满足测试要求时时说明中间模型的性能较好，因此可以将其确定为歌曲标记模型。利用训练数据得到初始标记模型，并基于负样本词汇表构建过滤器，可以利用过滤器处理模型难以处理的分类边界问题，使得最终得到的歌曲标记模型的准确率较高，可以准确地判断是否为歌曲添加该歌曲标记模型对应的模型标签，解决了相关技术效率较低和可靠性较低的问题。

基于上述实施例，本实施例对上述实施例中的部分步骤进行具体说明。在一种具体的实施方式中，为了提高训练数据集的指令，进而提高歌曲标记模型的性能，可以在构建训练数据集时对其中的数据增强。具体的，获取训练数据集的过程具体可以包括：

步骤11：从原始数据集中获取初始训练数据，并根据模型标签类型对初始训练数据进行内容筛选，得到中间训练数据。

原始数据集用于提供最基本的训练数据和测试数据。初始训练数据具体可以为正样本或者负样本。由于根据音乐领域的文本特性，模型标签不同时可以采用不同内容的训练数据进行训练，因此为了避免其他无效训练数据对模型训练造成干扰，可以根据模型标签类型对初始训练模型进行内容筛选，得到中间训练数据。中间训练数据的具体内容与模型标签类型相关，模型标签类型可以由人工设定，例如可以将“胎教”、“基督教”等容易从歌曲名、专辑名进行区分的标签设置为一类，该类标签对应的中间训练数据即为歌曲名或专辑名；将“爱情”、“校园”等容易从歌词进行区分的标签设置为一类，该类标签对应的中间训练数据即为歌词；将演唱者、演奏者、编曲者、作词者等容易从歌曲属性信息进行区分的标签设置为一类，该类标签对应的中间训练数据即为歌曲属性信息。

在一种具体的实施方式中，获取初始训练数据的过程可以包括如下步骤：

步骤111：从原始数据集中获取人工标注正样本、人工标注负样本、反义标签负样本、随机样本作为初始训练数据；其中，人工标注正样本具有初始模型的模型标签，反义标签负样本的样本标签为模型标签的反义词，随机样本不包括任意一个人工标注正样本、人工标注负样本或反义标签负样本。

本实施例中，在获取初始训练数据时，可以获取人工标注的正样本集合P₁，人工标注的负样本结合N₁，符合模型标签的反义标签的样本集合N₂，随机抽取的数据N₃共同作为初始训练数据，即将人工标注正样本P₁、人工标注负样本N₁、反义标签负样本N₂、随机样本作为初始训练数据N₃。为了避免数据重复，随机样本不包括任意一个人工标注正样本、人工标注负样本或反义标签负样本，即上述集中数据应当满足如下条件：

进一步的，根据模型标签类型对所述初始训练数据进行内容筛选，得到中间训练数据的过程具体可以包括如下步骤：

步骤112：确定初始模型的模型标签所属的模型标签类型。

步骤113：利用模型标签类型和初始训练数据中各个数据内容的内容标签进行匹配。

步骤114：将未通过匹配的内容标签对应的数据内容滤除，得到中间训练数据。

其中，模型标签类型为歌词类型、核心歌词类型、歌曲名类型或专辑名类型。具体的，在得到初始训练数据后即可对其进行过滤，得到中间训练数据O₁。在本实施例中，初始训练数据的数据内容仅包括歌词、核心歌词、歌曲名和专辑名四个部分，且每个部分均具有对应的内容标签。在得到模型标签类型后，可以利用其与数据内容的内容标签进行匹配，并将通过匹配的内容标签对应的数据内容保留，将未通过匹配的内容标签对应的数据内容滤除，得到中间数据，此时中间训练数据为：

O₁＝trainDataChoose(歌词，核心歌词，歌曲名，专辑名)

其中，trainDataChoose()为过滤函数。

步骤12：对中间训练数据进行K折交叉检验，得到交叉检验结果，并基于交叉检验结果计算检验置信度。

交叉检验结果可以表明哪一个中间训练数据在K折交叉检验过程中没有被正确识别。交叉验证主要用于防止模型过于复杂而引起的过拟合，是一种评价训练数据的数据集泛化能力的统计方法。其基本思想是将原始数据进行划分，分成训练集和测试集，训练集用来对模型进行训练，测试集用来测试训练得到的模型，并利用测试结果作为模型的评价指标。K折交叉验证就是将原始数据D随机分成K份，每次选择其中的K-1份作为训练集，剩余的1份作为测试集。交叉验证重复K次，取K次的准确率的平均值作为最终模型的评价指标。在本实施例中，原始数据D即为中间训练数据O₁，检验置信度即为准确率的平均值，整个K折交叉检验的过程为：

{KO₁,KO₂…,KO_k}＝kFoldCrossVaildation(O₁)

model_k＝Train(KO₁,KO₂…,KO_k-1)

Result_k＝Predict(model_k,KO_k)

其中，kFoldCrossValidation()用于将中间训练数据划分为k份，分为为KO₁至KO_k，然后利用其中的k-1份按照Train()函数对初始模型进行训练，并利用另外一份数据对训练得到的模型进行测试，得到对应的初始置信度Result_i，其中i为正整数，取值范围为1至k。通过取平均值Result，即可得到检验置信度。

步骤13：若检验置信度大于置信度阈值，则利用中间训练数据组成训练数据集。

若检验置信度大于置信度阈值，则说明中间训练数据的质量较好，可以直接利用其组成训练数据集。

步骤14：若检验置信度不大于置信度阈值，则基于交叉检验结果对中间训练数据进行定向增强，并重新进行K折交叉检验。

若检验置信度不大于置信度阈值，说明基于当前的中间数据无法训练得到性能较好的歌曲标记模型，因此可以基于交叉检验结果确定没有被识别的中间训练数据，并将其对应的权重增加得到新的中间训练数据，并利用新的中间训练数据和原有的中间训练数据共同重新进行K折交叉检验。通过增加新的中间训练数据，可以使得模型能够更加注意对新的中间训练数据的学习，进而提升模型的性能。需要说明的是，对中间训练数据进行定向增强会增加中间训练数据的数量，因此可以利用有限的样本数据得到准确地歌曲标记模型。

在一种具体的实施方式中，由于中间训练数据的标签可能存在错误，为了避免标签错误造成训练数据集质量差进而导致模型性能差，基于交叉检验结果对中间训练数据进行定向增强的过程可以包括：

步骤21：基于交叉检验结果确定错误训练数据。

交叉检验结果可以表明K折交叉检验过程中哪些中间训练数据被错误识别，这些训练数据即为错误训练数据。在确地错误训练数据后可以对其输出或展示，以便对其进行人工校验。

步骤22：获取第一人工校验信息，并根据第一人工校验信息调整错误训练数据，得到校验训练数据。

第一人工校验信息为人工对错误训练数据进行校验后得到的校验结果，根据第一人工校验信息，可以对错误训练数据进行调整，例如进行标签的修改，得到校验训练数据。

步骤23：增大校验训练数据对应的权重，并将校验训练数据确定为中间训练数据。

通过增大校验训练数据对应的权重，可以使得其比普通的中间训练数据具有更大的权重，使得模型训练过程中更关注对校验训练数据的学习，提高模型性能。将校验训练数据确定为中间训练数据，以便重新进行K折交叉校验。

基于上述实施例，在一种可行的实施方式中，为了保证歌曲标记模型的准确率，可以基于训练数据集中的反义标签负样本生成负样本词汇表。基于训练数据集中的负样本生成负样本词汇表，并利用负样本词汇表构建过滤器的过程可以包括如下步骤：

步骤31：对训练数据集中的各个反义标签负样本进行分词，得到多个负样本词。

其中，反义标签负样本为符合模型标签的反义标签的负样本，在本实施例中，反义标签负样本即为N₂中的样本，其为绝对不符合模型标签的负样本，因此基于其生成的负样本词汇表可以保证过滤器的准确性，避免将正确的识别结果修改为错误的结果。通过对分宜标签负样本进行分词，可以得到组成该负样本的负样本词。

具体的，负样本词可以用seg表示，则分词的过程为：

(seg₁,seg₂,…seg_n)＝Segmentor(N₂)

其中，Segmentor()为分词函数。

步骤32：统计各个负样本词对应的词频，并基于词频筛选负样本词，得到负样本种子词。

统计各个负样本词对应的词频，并基于词频对其负样本词进行筛选，得到负样本种子词。本实施例并不限定负样本种子词的具体确定方式，例如在一种实施方式中，可以将词频大于词频阈值的负样本词确定为负样本种子词；在另一种实施方式中，可以将各个词频进行排序，将词频排序前若干位的若干个负样本词确定为负样本种子词。

具体的，负样本种子词可以用seed表示，则负样本种子词的确定过程为：

seed＝SeedChoose(seg₁,seg₂,…seg_n)

其中，SeedChoose()即为基于词频确定负样本种子词的函数。

步骤33：基于负样本种子词得到负样本词汇表，并利用负样本词汇表构建过滤器。

在确定负样本种子词后，可以直接利用其组成负样本词汇表，或者可以对负样本种子词进行扩充得到负样本词汇表，在得到负样本词汇表后构建过滤器。

进一步，在一种具体的实施方式中，为了提高过滤器的过滤能力，可以对负样本种子词进行相似词扩充，得到负样本词汇表，进而提高格式标记模型的准确率。基于负样本种子词得到负样本词汇表的过程可以包括如下步骤：

步骤41：对负样本种子词进行向量映射，得到种子词向量。

在本实施例中，可以利用余弦相似度的方式进行相似词扩充，余弦相似度基于向量计算，因此在计算余弦相似度之前，先对负样本种子词进行向量映射，得到对应的种子词向量。本实施例并不限定向量映射的具体方式，例如可以采用wordembedding映射方式得到种子词向量。

步骤42：分别计算种子词向量与各个候选词向量之间的余弦相似度，并将余弦相似度处于相似度区间的候选词向量确定为目标候选词向量。

候选词向量为候选词经过向量映射后得到的向量，其映射方式与种子词向量的映射方式相同。通过计算种子词向量与候选词向量之间的余弦相似度，可以确定二者之间的相似程度，并当余弦相似度处于相似度区间时确定二者相似，将候选词向量确定为目标候选词向量。

步骤43：将目标候选词向量对应的目标候选词确定为相似词，并利用相似词和负样本种子词组成负样本词汇表。

具体的，可以利用seedlist表示负样本词汇表，利用CosineSimilarity函数计算余弦相似度并将处于相似度区间的候选词向量确定为目标候选词向量，则：

seedlist＝CosineSimilarity(seedEmb₁,seedEmb₂…seedEmb_m,候选词向量₁...候选词向量_n)

其中，seedEmb为种子词向量。

基于上述实施例，得到中间模型后，利用测试数据对其进行测试，并基于测试准确率判断是否满足测试要求。具体的，可以利用

Result_final＝Predict(model_final,testdata,seedlist)

得到测试准确率Result_final，其中model_final为中间模型，testdata为测试数据。若测试准确率大于准确率阈值，则可以将中间模型确定为歌曲标记模型。在另一种情况下，若测试准确率不大于准确率阈值，即测试结果不满足测试要求，可以对训练数据集进行数据增强，并进行重复训练。具体的，可以执行如下步骤：

步骤51：基于测试结果确定错误测试数据。

其中，测试结果与交叉检验结果类似，可以表明哪些测试数据没有被正确识别，因此可以利用其确定错误测试数据，既没有被中间模型正确识别的测试数据。

步骤52：获取第二人工校验信息，并根据第二人工校验信息调整错误测试数据，得到新增训练数据。

与第一人工校验信息类似，第二人工校验信息用于对错误测试数据进行调整，以便得到准确的新增训练数据。

步骤53：增大新增训练数据对应的权重，并将新增训练数据添加到训练数据集中，以便利用训练数据集重新生成初始标记模型和过滤器。

通过增大新增训练数据对应的权重，可以使得其比普通的训练数据具有更大的权重，使得模型训练过程中更关注对新增训练数据的学习，提高模型性能。在将新增训练数据添加到训练数据集中后，可以重新利用训练数据集生成初始标记模型和过滤器，进而重新生成中间模型并重新测试。

进一步的，在得到歌曲标记模型之后，可以利用其对待测歌曲进行标记。具体的，歌曲标记模型的应用过程可以包括如下步骤：

步骤61：获取待测歌曲对应的待测文本。

需要说明的是，所述待测文本可以为待测歌曲对应的全部文本，例如歌词、歌曲名、专辑名和歌曲属性信息，或者可以为与歌曲标记模型对应的部分文本，例如仅为歌词或仅为歌曲属性信息。

步骤62：将待测文本输入歌曲标记模型，得到标记判断结果。

步骤63：若标记判断结果为命中，则对待测歌曲增加歌曲标记模型对应的模型标签。

若标记判断结果为命中，则说明待测文本符合该歌曲标记模型，因此可以为待测歌曲增加该歌曲标记模型对应的模型标签。

请参考图3，图3为本申请实施例提供的一种歌曲标记模型训练方法的流程示意图。首先执行训练数据的构建，即获取初始训练数据，通过抽离有用的训练数据得到中间训练数据，并进行K折交叉检验。若未通过，则对中间训练数据进行定向增强。若通过交叉检验，则利用其训练得到初始标记模型，并进行管检测扩展得到负样本词汇表，进而构建过滤器。在得到中间模型后，进行测试，若通过测试，则将中间模型确定为歌曲标记模型，输出该模型；若未通过测试，则对训练数据集进行定向增强，重新进行训练。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的歌曲标记模型训练方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的歌曲标记模型训练方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种歌曲标记模型训练方法，其特征在于，包括：

利用所述训练数据集训练初始模型，得到初始标记模型；

利用所述初始标记模型和所述过滤器组合得到中间模型；

2.根据权利要求1所述的歌曲标记模型训练方法，其特征在于，所述从原始数据集中提取训练数据集，包括：

3.根据权利要求2所述的歌曲标记模型训练方法，其特征在于，所述基于所述交叉检验结果对所述中间训练数据进行定向增强，包括：

基于所述交叉检验结果确定错误训练数据；

4.根据权利要求2所述的歌曲标记模型训练方法，其特征在于，所述从所述原始数据集中获取初始训练数据，包括：

5.根据权利要求2所述的歌曲标记模型训练方法，其特征在于，所述根据模型标签类型对所述初始训练数据进行内容筛选，得到中间训练数据，包括：

6.根据权利要求1所述的歌曲标记模型训练方法，其特征在于，所述基于所述匹配结果对所述初始标记结果进行修正，得到测试结果，包括：

7.根据权利要求1所述的歌曲标记模型训练方法，其特征在于，所述基于所述训练数据集中的负样本生成负样本词汇表，并利用所述负样本词汇表构建过滤器，包括：

8.根据权利要求7所述的歌曲标记模型训练方法，其特征在于，所述基于所述负样本种子词得到所述负样本词汇表，包括：

对所述负样本种子词进行向量映射，得到种子词向量；

9.根据权利要求1所述的歌曲标记模型训练方法，其特征在于，若所述测试结果不满足测试要求，包括：

基于所述测试结果确定错误测试数据；

10.一种歌曲标记方法，其特征在于，包括：

获取待测歌曲对应的待测文本；

将所述待测文本输入所述歌曲标记模型，得到标记判断结果，其中，所述歌曲标记模型为权利要求1-9任意一项所述的歌曲标记模型；

11.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至9任一项所述的歌曲标记模型训练方法，和/或，如权利要求10所述的歌曲标记方法。

12.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的歌曲标记模型训练方法，和/或，如权利要求10所述的歌曲标记方法。