CN113468366A - 一种音乐自动标签方法 - Google Patents
一种音乐自动标签方法 Download PDFInfo
- Publication number
- CN113468366A CN113468366A CN202110786039.0A CN202110786039A CN113468366A CN 113468366 A CN113468366 A CN 113468366A CN 202110786039 A CN202110786039 A CN 202110786039A CN 113468366 A CN113468366 A CN 113468366A
- Authority
- CN
- China
- Prior art keywords
- music
- layer
- label
- model
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音乐自动标签方法,涉及音乐智能分类处理领域,具体方案为:包括以下步骤:S1:获取若干首音乐样本,音乐样本中至少包括“音乐主题”、“情感状态”和“场景”标签;S2:设置初始模型,对音乐样本进行机器学习训练,得到自动标签模型;S3:通过自动标签模型对未知音乐进行标签;S2过程中,初始模型包括Embedding层、Transformer层、TextCNN层和sigmoid层。本发明提供的一种音乐自动标签方法根据不同的标签构建相应的标签词典,同样在标注文本标签时,计算待标注文本对各个标签词典的相似度,将相似度与Albert模型结果的概率加权计算得出最终的标签。
Description
技术领域
本发明涉及音乐智能分类处理领域,更具体地说,它涉及一种音乐自动标签方法。
背景技术
就音乐的主题而言,有表达男女之间爱情的情歌,有歌颂祖国和描述祖国发展的红歌,或者包含宗教信仰的佛乐等,歌词中的一些关键词能够直接揭示歌曲的主题,比如:“红军”一定程度上就可能是“红歌”,而带有“分手”这一关键字很大可能是“情歌”。2020年歌曲《我和我的祖国》广受传唱,他就有歌词“我和我的祖国一刻也不能分割”,从歌词就能直观感受到它是一首爱国红歌。
再说情感方面,音乐有跌宕起伏的特性,在歌曲创作时往往会将情感与乐曲的推进进行结合。语序中的转折,递进之后表达的情绪更能表达整首歌的情感趋向。举个例子,情歌《分手快乐》的歌词从一开始的“可是我多么不舍,朋友爱得那么苦痛。”其中的“不舍”和“苦痛”都代表该音乐的情感状态是“伤感”,但是后面歌词又有“你发誓你会活得有笑容,你自信时候真的美多了”,歌词中的“自信”和“笑容”都能说明音乐表达感情是释怀后的“放松”。
而现有技术中,传统文本分类方法侧重于数据的处理工作属于浅层学习,无法有效挖掘文本深度信息。深层学习更注重于挖掘深层语义信息,因此很多研究用预训练的词向量搭配卷积神经网络构建文本分类模型,但是卷积神经网络传统结构感受范围不广泛,如果要通过拓宽卷积窗口来加大感受野则会大大增加参数量。
发明内容
为解决上述技术问题,本发明提供一种音乐自动标签方法,通过语序中的转折,递进之后表达的情绪更能表达整首歌的情感趋向,而Albert能接收位置编码,让歌词顺序参与到歌词的情感分类。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种音乐自动标签方法,包括以下步骤:
S1:获取若干首音乐样本,音乐样本中至少包括“音乐主题”、“情感状态”和“场景”标签;
S2:设置初始模型,对音乐样本进行机器学习训练,得到自动标签模型;
S3:通过自动标签模型对未知音乐进行标签;
S2过程中,初始模型包括Embedding层、Transformer层、TextCNN层和sigmoid层,其中,
Embedding层用于获取音乐样本,并对音乐样本进行处理,处理过程包括以下步骤:
S2101:将音乐样本中所有句子的长度补充到相同大小,文字信息标为1,填充部分标为0;
S2102:使用Token Embeddings获得原来的字向量,position Embeddings获取位置信息,Segment Embeddings获取句子上下文信息;
S2103:输出结果;
Transformer层得到S2103的输出结果,并进行处理,处理过程包括以下步骤:
S2201:让每个向量表示获取全句的特征信息;
S2202:将Embeddings_size=128做矩阵进行维度变换为hidden size=384;
S2203:将层进行分组,再将组内第一层的参数共享到组内后面的encoder结构中,使得一组结构只学习第一层encoder的参数;
S2204:开始训练self-attention和全连接层;
S2205:得到训练结果;
TextCNN层得到S2205的训练结果并进行处理,处理过程包括以下步骤:
S2301:设置卷积核大小为[2,3,4,5,6];
S2302:五种大小不同的卷积核在Transformer层输出的语句向量矩阵中自上而下滑动,将矩阵从(max_seq_length,Embeddings_size)卷积成(max_seq_length-fws+1,1);
S2303:获得每个fws下的特征向量,再将5个fws特征向量拼接输入到sigmoid层中;
sigmoid层得到S2303结果后进行处理,处理过程包括以下步骤:
S2401:将TextCNN向量结果输入到全连接层映射到最后的结果层,结果向量固定为21个维度,21个维度分别对应歌词文本的21种不同的标签;
S2402:使用sigmoid函数作为输出层的激活函数;
S2403:将每个单独的标签的输出在[0,1]之间,并设置阈值大小对比判断进行二分算计。
作为一种优选方案,S1过程中,包括“音乐主题”、“情感状态”和“场景”标签的音乐样本的获取方法步骤以下步骤:
S101:获取原始歌曲若干首;
S102:通过现有标签,对原始歌曲进行人为标签填充;
S103:将原始歌曲进行歌词文本拆分,使得歌词对应“情感状态”的对应标签;
S104:对情感表达不明确的内容进行清洗。
作为一种优选方案,S104过程中,情感表达不明确的内容至少包括外语、梵文、不便于识别的符号和纯音乐。
作为一种优选方案,S2过程中,抽取80%的数据作为训练集,剩下的数据作为测试集和验证集。
综上所述,本发明具有以下有益效果:
本发明提供的一种音乐自动标签方法根据不同的标签构建相应的标签词典,同样在标注文本标签时,计算待标注文本对各个标签词典的相似度,将相似度与Albert模型结果的概率加权计算得出最终的标签;
Albert模型使用参数因式分解和跨层参数共享,将Bert模型参数缩减数倍以上,降低了模型运行压力,更有利于实际应用场景。模型添加的TextCNN和词典加权在Albert准确率本就高的基础上又提升了3%。展开的对比试验也反映了自建的歌词数据集在对音乐分类上有着不错的相关度,比在中文事件抽取数据集的效果要好。
附图说明
图1为本发明实施例中的音乐歌词对应的情感场景标签图;
图2为本发明实施例中的音乐自动标签的模型图。
具体实施方式
本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
以下结合附图对本发明作进一步详细说明,但不作为对本申请的限定。
歌词文本数据集的来源和处理
本申请以音乐歌词作为研究对象,首要任务是构建歌词文本多标签数据集。主要从歌词入手收集数据,而目之前多数音乐标注算法都是以英文歌曲进行标注,因此网上多数都是英文歌曲数据集。且其中音乐的标签太过单一,往往只标注了积极或消极两种情绪。而本申请要研究的内容主要是中文歌词领域的音乐标签标注,集中研究主题、适宜场景和情感类别的标注,所以需要通过网络搜集有歌词和音频的音乐,再通过人工标注对其进行校对和丰富,最终得到YMLD(Music lyrics dataset)。
首先确定要收集歌单的标签名。音乐标签体系可以分为风格流派、情感状态、适宜场景、演奏乐器、音乐主题等经常被使用的五大类,其中本申请认为音乐主题、适宜场景和情感状态这三类与歌词联系较为密切,使用深度学习文本分类算法可以对音乐主题、场景和情感进行预测。在实际的歌词收集过程中,将比较常用且模型能够有效区分的音乐主题分为“情歌”、“佛乐”、“红歌”、“游戏”、“励志”、“古风”和“怀旧”这七类音乐,音乐情感有“思恋”、“寂寞”、“治愈”、“开心”、“兴奋”、“安静”、“放松”、“伤感”八种类型。适宜场景也搜集了“学习”、“运动”、“校园”、“旅行”、“工作”、“广场”六种类型的歌曲。
通过对目前市场上几家音乐网站的研究,多数音乐平台都是以用户或者平台官方建立歌单的方式推荐音乐,而歌单都是带有一定量的标签。在收集歌词对应标签时,将同属于一个歌单下的歌曲视为有该歌单的所有标签。
本申请模型需要带有“音乐主题”、“情感状态”、“适宜场景”这三类标签的歌词。在不同客户端上对需要采集的音乐类型进行搜索,对歌单中包含的歌曲名称和歌词进行收集,得到的大量歌曲文本可以暂时标注上搜索时各区所在歌单的标签词。因为单一歌单下歌曲对应的标签较少,比较稀疏。因此本文搜集音乐时,通过音乐软件的“包含这首歌的歌单”模块,可以从这首歌在其他所在歌单的标签补充每首歌标签的种类与数量,通过音乐软件补充标签。具体步骤为先从音乐软件网站上通过歌单形式采集一定数量的音乐资源(歌词和所在歌单标签),这些歌曲会存在标签不齐全的情况,接下来通过音乐软件查找每首音乐的流派,通过音乐软件音乐查找歌曲主题,最后通过音乐软件和网页查找以填补音乐的标签信息。做好预处理后,每个歌曲歌词最终会有“情感状态”、“音乐主题”、“适宜场景”这三类标签,保证每个标签分类都找到足够的音乐。
收集完成后,将收集的数据统计为音乐的主题情感场景标签数据集。收集得到只是音乐名称关于主题情感场景标签数据集,需通过读取文件的方式转换成歌词文本关于主题情感场景标签数据集。歌词收集时都是以原编码格式收集,对每个歌词文件.lrc文件查看其编码格式,剔除编码格式为NONE的数据,对其他格式如“ISO-8859-1”、“gb2312”的音乐用相应的解码格式将关于音乐名称的主题情感场景标签数据集替换为关于音乐歌词的主题情感场景标签数据集。数据集如图1所示。
数据集第一列为替换后的歌词,后面则是三大分类中的各个标签。剔除歌词中的日语,佛乐歌词中的梵文,和一些不便于识别的符号,对其清洗后的数据进行统计。数据集共收集了6364条歌词数据,根据标签数量统计的数量统计表如下
表1各类标签的数据统计
对音乐歌词的长度做清理。因为部分纯音乐的几十字说明在读取文件时会被认为是歌词,同时有的佛乐是对经文的歌唱,歌词多达8000字,对这些过长过短的数据进行剔除,根据音乐歌词文本长度的统计分布表如下
表2歌词长度统计
歌词长度范围 | 数量占比 |
(0,200) | 9.3% |
[200,400) | 35.1% |
[400,600) | 41.5% |
[600,800) | 8.5% |
[800,1000) | 5.6% |
除了本文搜集的音乐标签数据集外,还用百度发布的中文事件抽取数据集辅助验证本申请模型的有效性和在其他类似文本分类场景下的可用性。中文事件抽取数据集包含了17000个具有事件信息的语句,共分为65个事件类型。事件类型根据百度风云榜的热点榜单确定,具有较强的代表性。但数据集中的语句来自百度信息流资讯文本,相比传统的新闻资讯,文本表达自由度更高,事件抽取的难度也更大。因为这数据集标签太多太杂,所以从中抽取15种标签作为本申请模型的对比数据集。两种数据集经过乱序之后,抽取80%的数据作为训练集,剩下作为测试集和验证集,用于测试和验证基于歌词自动生成标签模型的准确性。
Albert+TextCNN的模型结构
本小节将详细介绍Albert+TextCNN多标签分类模型,下图是模型结构图,模型主要包含Embedding层、Transformer层、TextCNN层和sigmoid层。
第一层Embedding层,获得输入的向量表示。和Bert模型的处理类似,先利用padding mask将所有句子的长度补充到相同大小,文字信息标为1,填充部分标为0。接着使用Token Embeddings获得原来的字向量,position embeddings获得位置信息,SegmentEmbeddings获得句子上下文信息。Embeddings的结果仍为Token Embeddings+positionembeddings+Segment Embeddings。但是因为Albert减少了大量参数,所以本申请模型中Albert部分的Embeddings_size改为低维嵌入。
第二层Transformer层,让每个向量表示获得全句的特征信息。Albert在这里第一步是将Embeddings_size=128转为hidden size=384。在Bert模型中Embeddings_size始终等于hidden size,所以整个模型参数太多,训练时间过长,Albert采用了embedding层参数因式分解,将Embeddings_size和hidden size解绑,Embeddings_size在进入Transformer做一个矩阵进行维度变换为hidden size。本申请模型的Vocab Size=21128,如果采用Bert模型这一块就会有(21128*384)=8113152个参数,使用Albert则是会有(21128*128+128*384)=2753536个参数,缩减了三分之二的参数,并且减少的参数量随着hidden size的增大会更加明显。
Albert在Transformer层还做了一个减少参数的优化,跨层参数共享。模型有多个Encoder顺序相连,其中每一层参数各不相同,都是接受上一层的输入后再开始训练self-attention和全连接层。所以增加层数时,就会多一层的参数量。Albert将层分组,再将组内第一层的参数共享到组内后面的encoder结构中,相当于一组结构只学习第一层encoder的参数,而不是所有层都去学习。本申请模型设置的参数hidden_groups=1,num_hidden_layers=12,说明总有12个Transformer_block,但只分为1组,即12个Transformer只用学习一次就行了。这层后续self-attention的处理同Bert模型一致,并将得到Self-attention的句子向量矩阵传输到下一层的TextCNN。
第三层TextCNN层,加入对中文短语的考虑。因为中文里面会存在多个字组成的短语,所以本申请将模型中TextCNN的卷积核大小(filter_window_size)设置为[2,3,4,5,6],即卷积核的维度为(fws,Embeddings_size),每种卷积核的个数设置为128。TextCNN部分字向量维度等于Transformer层输出的维度,本申请这部分的Embeddings_size为384。这五种大小的卷积核在Transformer层输出的语句向量矩阵中自上至下滑动,将矩阵从(max_seq_length,Embeddings_size)卷积成(max_seq_length-fws+1,1)。一个卷积核经过卷积操作只能得到一个特征向量,先获得每个fws下的特征向量,之后再将5个fws特征向量拼接输入到sigmoid中。
最后是sigmoid层,标签结果输出层。因为本申请是一个多标签分类任务,将TextCNN向量结果输入到全连接层映射到最后的结果层,结果向量固定为21个维度,分别对应歌词文本的21种不同的标签。在二分类模型中使用的是softmax,但是在多分类的情况下sigmoid能处理softmax不能处理的非独占标签。因此使用sigmoid函数作为输出层的激活函数。一首歌可以标注多个不同的标签,可以将每个单独的标签预测问题视为二分类问题,每个标签的输出在[0,1]之间,通过与设置阈值的大小进行对比判断该数据是否属于某个标签。
标签词典相似度计算
计算待标注文本与标签的相似度,即计算待标注文本的分词与标签高频词的相似度。需要对每个标签构建一个高频词汇词典,通过两个文本之间的相似度,可以知道待标注文本更倾向于哪些标签。在本申请构建好歌词文本数据集之后,每个标签下都有大量的歌词文本,这些文本中出现的高频词汇能反映文本与标签的显式联系。以下表为例,对“红歌”标签下的文本做词频统计并去除一些常用词,这其中词频较高的词语从感官中都能联想到“红歌”这一主题标签。
表3词频统计结果
单词 | 词频 | 词性 | 占比(%) |
祖国 | 174 | 名词 | 2.32 |
红军 | 56 | 名词 | 0.75 |
母亲 | 55 | 名词 | 0.73 |
歌唱 | 45 | 名词 | 0.60 |
时代 | 42 | 名词 | 0.56 |
歌声 | 32 | 名词 | 0.43 |
大地 | 31 | 名词 | 0.41 |
毛主席 | 28 | 名词 | 0.37 |
救星 | 26 | 名词 | 0.35 |
春风 | 26 | 名词 | 0.35 |
对21个标签下的文本同样先词频统计和去除常用词,每个标签将各自的高频词汇组合成相应的标签词典,利用word2vec实现词嵌入表示,把待标注文本和标签词典表示为矩阵结构的数据。分别计算待标注文本和21个标签之间的相似度,相似度结果与Albert+TextCNN计算的结果加权计算,通过调整阈值得到最终的标签组。
实验设置和评价标准
实验的参数设置
本申请模型所处实验环境和第三章的一样,Albert+TextCNN的模型参数如下
表4本申请模型参数
和Bert模型不同的是,Albert去除了dropout防止过拟合,而且在预训练过程中,用SOP(Sentence-Order Prediciton)代替了原先使用的NSP。NSP是下一句预测,使用的正样本是有上下文关系的一组语句,负样本是数据集中随机的没有上下文关系的一组语句。SOP是对句子顺序预测,使用的正样本不变,但是负样本是颠倒上下文顺序的一组语句。因为NSP样本中随机两个语句,他们的主题信息也大概率不同,模型很容易通过主题的相似性来判断两个语句之间是否有连续关系。但是如果使用颠倒的语句作为反例,则主题一致,就能去除主题对语句顺序学习的影响,仅学习语句间的顺序信息。
实验的评价指标
本申请处理的是多标签分类任务,AUC便不再适用评价,因此本申请所提出的模型采用准确率ACC对模型做出评价。根据本文3.5.1小节的表3-1计算ACC,ACC为对歌词文本计算所有预测正确标签占所有标签的百分比,计算公式如下
实验结果对比
表5本申请实验数据
在中文事件抽取数据集上可以看到Albert在参数减少之后,Bert和Albert的效果差不多,但是Albert比Bert训练负担小,相同的训练时间下,ALBERT更优秀。Albert在YMLD数据集上比百度中文事件抽取数据集中的效果更好,应该是事件抽取数据集抽取的新闻自由度太高,没有音乐歌词和音乐之间的关联度高导致的。观察Albert在YMLD数据集的结果,模型准确率最终收敛在90.2%左右,而Albert+TextCNN的结果收敛于91.1%左右,而本申请模型词典加权+Albert+TextCNN在YMLD数据集上有着更高的准确率,原因可能是Albert和Bert都是以字为单位,但是歌词中有时会有多个字组成的短语,所以[2,3,4,5,6]大小的TextCNN卷积核能将这些联系映射到歌词分类的结果上,同时高频词汇构建的词典在分类音乐主题上能更好的反映文本的局部特征。
本申请主要介绍Albert相关模型对文本的多标签分类。首先从音乐歌词的特点出发,表明了基于歌词文本对主题、场景、情感标签分类的理论可行性。再对音乐歌词数据集的建立和预处理介绍,详细说明本申请结构中文本输入在Albert内部如何转化为向量表示,embedding如何加上位置编码,Albert层中怎么让字的向量表示获得整个句子的加权信息,再到TextCNN获得多个字组合的短语特征,最后到歌词进行多标签分类的每一步过程。之后又是如何建立每个标签的标签词典,并用词典与待标注文本的相似度作为最后输出结果的加权获得歌词文本标签。
本申请Albert模型使用参数因式分解和跨层参数共享,将Bert模型参数缩减数倍以上,降低了模型运行压力,更有利于实际应用场景。模型添加的TextCNN和词典加权在Albert准确率本就高的基础上又提升了3%。展开的对比试验也反映了自建的歌词数据集在对音乐分类上有着不错的相关度,比在中文事件抽取数据集的效果要好。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (4)
1.一种音乐自动标签方法,其特征在于,包括以下步骤:
S1:获取若干首音乐样本,音乐样本中至少包括“音乐主题”、“情感状态”和“场景”标签;
S2:设置初始模型,对音乐样本进行机器学习训练,得到自动标签模型;
S3:通过自动标签模型对未知音乐进行标签;
S2过程中,初始模型包括Embedding层、Transformer层、TextCNN层和sigmoid层,其中,
Embedding层用于获取音乐样本,并对音乐样本进行处理,处理过程包括以下步骤:
S2101:将音乐样本中所有句子的长度补充到相同大小,文字信息标为1,填充部分标为0;
S2102:使用Token Embeddings获得原来的字向量,position Embeddings获取位置信息,Segment Embeddings获取句子上下文信息;
S2103:输出结果;
Transformer层得到S2103的输出结果,并进行处理,处理过程包括以下步骤:
S2201:让每个向量表示获取全句的特征信息;
S2202:将Embeddings_size=128做矩阵进行维度变换为hidden size=384;
S2203:将层进行分组,再将组内第一层的参数共享到组内后面的encoder结构中,使得一组结构只学习第一层encoder的参数;
S2204:开始训练self-attention和全连接层;
S2205:得到训练结果;
TextCNN层得到S2205的训练结果并进行处理,处理过程包括以下步骤:
S2301:设置卷积核大小为[2,3,4,5,6];
S2302:五种大小不同的卷积核在Transformer层输出的语句向量矩阵中自上而下滑动,将矩阵从(max_seq_length,Embeddings_size)卷积成(max_seq_length-fws+1,1);
S2303:获得每个fws下的特征向量,再将5个fws特征向量拼接输入到sigmoid层中;
sigmoid层得到S2303结果后进行处理,处理过程包括以下步骤:
S2401:将TextCNN向量结果输入到全连接层映射到最后的结果层,结果向量固定为21个维度,21个维度分别对应歌词文本的21种不同的标签;
S2402:使用sigmoid函数作为输出层的激活函数;
S2403:将每个单独的标签的输出在[0,1]之间,并设置阈值大小对比判断进行二分算计。
2.根据权利要求1所述的音乐自动标签方法,其特征在于,所述S1过程中,包括“音乐主题”、“情感状态”和“场景”标签的音乐样本的获取方法步骤以下步骤:
S101:获取原始歌曲若干首;
S102:通过现有标签,对原始歌曲进行人为标签填充;
S103:将原始歌曲进行歌词文本拆分,使得歌词对应“情感状态”的对应标签;
S104:对情感表达不明确的内容进行清洗。
3.根据权利要求2所述的音乐自动标签方法,其特征在于,所述S104过程中,情感表达不明确的内容至少包括外语、梵文、不便于识别的符号和纯音乐。
4.根据权利要求1所述的音乐自动标签方法,其特征在于,所述S2过程中,抽取80%的数据作为训练集,剩下的数据作为测试集和验证集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786039.0A CN113468366A (zh) | 2021-07-12 | 2021-07-12 | 一种音乐自动标签方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786039.0A CN113468366A (zh) | 2021-07-12 | 2021-07-12 | 一种音乐自动标签方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468366A true CN113468366A (zh) | 2021-10-01 |
Family
ID=77879837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786039.0A Withdrawn CN113468366A (zh) | 2021-07-12 | 2021-07-12 | 一种音乐自动标签方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468366A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896357A (zh) * | 2022-03-02 | 2022-08-12 | 东南大学 | 一种自动采集并处理生成音乐情感数据库的方法 |
CN116208702A (zh) * | 2022-09-09 | 2023-06-02 | 维沃移动通信有限公司 | 多媒体文件播放方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-07-12 CN CN202110786039.0A patent/CN113468366A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896357A (zh) * | 2022-03-02 | 2022-08-12 | 东南大学 | 一种自动采集并处理生成音乐情感数据库的方法 |
CN116208702A (zh) * | 2022-09-09 | 2023-06-02 | 维沃移动通信有限公司 | 多媒体文件播放方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN107315737B (zh) | 一种语义逻辑处理方法及系统 | |
CN106328147B (zh) | 语音识别方法和装置 | |
CN112560503A (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN113468366A (zh) | 一种音乐自动标签方法 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN113609289A (zh) | 一种基于多模态对话文本的情感识别方法 | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN111382567B (zh) | 一种中文分词和汉字多音字识别的方法及装置 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN109543036A (zh) | 基于语义相似度的文本聚类方法 | |
Szűcs et al. | Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder | |
CN115017279A (zh) | 基于文本语义匹配的Stack Overflow相关问答检索方法 | |
CN114548116A (zh) | 一种基于语序与语义联合分析的中文文本检错方法及系统 | |
CN114548093A (zh) | 自然语言处理方法、装置、设备、介质及程序产品 | |
Labbé et al. | Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates | |
CN117910466A (zh) | 一种基于主题增强的中文社交媒体少样本立场检测方法 | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN108763198A (zh) | 一种生成式的学术论文中相关工作的自动产生方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211001 |