CN114756734B - 基于机器学习的乐曲分段情感标注系统及方法 - Google Patents
基于机器学习的乐曲分段情感标注系统及方法 Download PDFInfo
- Publication number
- CN114756734B CN114756734B CN202210220859.8A CN202210220859A CN114756734B CN 114756734 B CN114756734 B CN 114756734B CN 202210220859 A CN202210220859 A CN 202210220859A CN 114756734 B CN114756734 B CN 114756734B
- Authority
- CN
- China
- Prior art keywords
- music
- emotion
- music piece
- marking
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 263
- 238000010801 machine learning Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000012407 engineering method Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 description 15
- 230000037007 arousal Effects 0.000 description 8
- 230000008909 emotion recognition Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- YJCCSLGGODRWKK-NSCUHMNNSA-N 4-Acetamido-4'-isothiocyanostilbene-2,2'-disulphonic acid Chemical compound OS(=O)(=O)C1=CC(NC(=O)C)=CC=C1\C=C\C1=CC=C(N=C=S)C=C1S(O)(=O)=O YJCCSLGGODRWKK-NSCUHMNNSA-N 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010027951 Mood swings Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Hospice & Palliative Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供一种基于机器学习的乐曲分段情感标注系统,包括:音乐情感标注模块,其提供一个音乐情感标注模型,用于对输入的音频特征进行情感标注;重复旋律边界识别模块,其识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段的乐段列表;乐曲分段情感标注模块,其对乐段列表中的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注。本发明还提供相应的乐曲分段情感标注方法。本发明基于音乐情感标注模型,首次提出了情感空间中的距离的这个概念,从而根据情感空间中的距离实现基于情感比对的乐曲分段算法,并通过自动搜索产生分界点,从而实现了基于音乐情感标注模型的自动分段和分段式的情感标注。
Description
技术领域
本发明属于音乐搜索、音乐推荐、音乐治疗等领域,具体涉及一种乐曲分段情感标注方法。
背景技术
网络音乐以其使用率一直位居中国互联网应用前前列,音乐已经成为用户通过搜索引擎搜索的主要内容之一,用户比例高,大部分综合搜索引擎都已经提供针对音乐的垂直搜索功能。互联网上日益庞大的用户规模以及海量的数字音乐要求高效的音乐检索手段和令用户满意的检索体验。
现有技术方案可以分成三种分别是:对乐曲整体进行情感标注、根据重复旋律进行分段、以及通过歌词分段再把音频分段。
根据上述第一种现有技术,现有的音乐情感识别或/和标注方法很多都是对整首乐曲进行标注,对乐曲整体进行情感标注,具体可参见如下文献:1)北京大学网站,http://kjkfb.pku.edu.cn/info/1061/2293.htm,其中公开了音乐情感自动识别及自动标注系统,并申请了部分专利。2)DEAM及其应用,其网站为:https://cvml.unige.ch/databases/DEAM/,数据库为:DEAMdataset-Database for Emotional Analysis of Music(unige.ch),相应的论文为:Developing a benchmark for emotional analysis ofmusic,Anna Aljanaki,https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0173392。
对整首乐曲进行标注的方法往往使得音乐检索、音乐推荐等工作的准确性不高,是一种整体标注方法,没有分段情感功能,自然也没有自动分段功能。然而很多乐曲的不同乐段表达了不同的情感,例如,《赤伶》是一首种传统戏曲与流行音乐的融合的歌曲给观众带来耳目一新的感受,歌曲开始声音平稳进入后在旋律上以二度模进推动情绪发展,从“位卑未敢忘忧国,哪怕无人知我”歌曲的通俗部分开始演唱上平和自然又带悲伤凄凉之感,中段融入戏曲元素,以表达人物激情,整首歌曲以唯美的意境表达了爱国之情。《青花瓷》中使用了多种富含民族特色的乐器,使其旋律不再单调,乐曲开头以琴声渲染气氛,听起来淡淡,静静流淌的感觉,犹如一片烟雨,朦胧之美隐约在眼前。旋律比较稳定,中国风的词与曲完美结合,带有一贯的诗韵充满意象,歌曲表达上感情比较朦胧、含蓄。
第二种现有技术是根据重复旋律进行分段,具体参见如下文献:1)浙江大学申请的公开号为CN111785296A的专利文件“基于重复旋律的音乐分段边界识别方法”。2)期刊论文,一种分段式音乐情感识别方法,石祥滨等,小型微型计算机系统,2012,其中,这篇文章里面说的分段,是根据相似性进行分段,最终还是计算了整首乐曲的情感。然而,第二种现有技术由于没有提供合理的根据情感进行自动分段的功能,而仅仅是根据重复旋律来进行分段,因此实际上还是一种整体标注方法,并不能真正实现分段式的情感识别。
第三种现有技术是先基于歌词来分段,再将对应的乐段进行分段。具体参见如下文献:1)会议论文,基于歌词的中文流行歌曲音乐结构分析算法研究,中国人民大学,梁塽等,第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)。2)学位论文,基于歌词的音乐自动标注算法研究,北京邮电大学,李俊岑,2016年。然而,第三种现有技术,虽然也能实现自动分段,但是必须依赖歌词才能够实现,无法适用于没有歌词的乐曲。
因此,急需一种不需要歌词也能够实现乐曲分段情感标注的方法。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为先验经验。在进行数据标注之前,首先要对待学习的数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。
由于情绪本身具有非常高的复杂性和抽象性,导致诸多研究者在做情感计算相关工作时并不能达成统一的情绪分类标准。目前,研究者们通常将情绪模型分为离散型模型和连续型模型两种。
离散型情绪模型可以从范畴观的角度进行理解。中国古代文献《礼记》将情绪分为喜、怒、哀、乐、爱、恶、欲等7种类别。文献《白虎通》则将情绪划分为喜、怒、哀、乐、爱、恶等6种类别。中国著名心理学家林传鼎将《说文》中354个表示情绪状态的字划分为安静、愤怒、喜悦等18种情绪状态。1971年,美国心理学家Ekman等通过分析人类的面部表情,将人类的情绪划分为生气、讨厌、害怕、高兴、悲伤和惊讶等6种基本情绪类别。1993年,美国应激理论的现代代表人物之一Lazarus将情绪划分为生气、焦虑、幸福等15种类别,并且每一种情绪状态都有一个相应的核心相关主题。2003年,心理学家Plutchik将情绪划分为8种基本类别:生气、害怕、悲伤、讨厌、期待、惊讶、赞成、高兴。这些离散型情绪划分方法相对比较简单和容易理解,在许多情绪识别研究中得到了广泛应用。
连续型情绪模型可以从维度观的角度进行理解。情绪的维度空间模型又可以分为二维、三维等不同类型。情绪二维表示模型最早由心理学家Russell在1980年提出,如图1所示。该模型的横轴和纵轴分别表示愉悦度(Valence)和唤醒度(Arousal)。愉悦度表示情绪的愉悦程度,唤醒度表示情绪的强烈程度。模型的四个极点表示四种不同的离散情绪类别:高兴(高愉悦/高唤醒)、轻松(高愉悦/低唤醒)、厌烦(低愉悦/低唤醒)、惊恐(低愉悦/高唤醒)。在文献中,该二维表示模型经常被称为VA(Valence-arousal)模型。
由于情绪的二维空间表示无法有效区分某些基本情绪,如害怕和愤怒,Mehrabian提出了情绪的三维空间表示,在愉悦度和唤醒度的基础上又增加了支配度(Dominance):愤怒的支配度高,而害怕的支配度低。在文献中,该三维表示模型经常被称为VAD(Valence-arousal-dominance)模型。上述VA和VAD模型是目前受到较高认同并且得到广泛使用的两种维度型情绪模型。
发明内容
本发明的目的在于提供一种基于机器学习的乐曲分段情感标注系统及方法,以在不需要歌词的情况下自动进行基于情感模型的乐曲分段。
为了实现上述目的,本发明提供一种基于机器学习的乐曲分段情感标注系统,包括音乐情感标注模块、重复旋律边界识别算法模块和乐曲分段情感标注模块;音乐情感标注模块设置为提供一个音乐情感标注模型,该音乐标注预测模型用于对输入的音频特征进行情感标注;重复旋律边界识别模块设置为识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段的乐段列表;所述乐曲分段情感标注模块设置为对重复旋律边界识别模块划分的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注。
优选地,所述乐曲分段情感标注模块设置为执行:
B0:初始化情感空间区分距离D0、最小子乐段时间T0和动态分割位置S;
B1:对于乐段列表中的每一个乐段P(i),执行如下步骤:
B11:将乐段列表中的每一个完整的乐段P(i)作为当前乐段,并作为待划分乐段;
B12:取最小子乐段时间T0作为动态分割位置S;
B13:在动态分割位置S将待划分乐段分成两个子乐段;
B14:用音乐情感标注模块所提供的音乐情感标注模型,对第一个子乐段进行标注,得到第一情感坐标A,并用该音乐情感标注模型,对第二个子乐段进行标注,得到第二情感坐标B;计算第一情感坐标A和第二情感坐标B在情感空间中的距离D(A,B);
B15:如果D(A,B)大于情感空间区分距离D0,则将划分得到的后面的子乐段作为新的待划分乐段,并回到步骤B12;反之,则将动态分割位置S与最小子乐段时间T0之和作为更新的动态分割位置S,随后,回到步骤B13;直到动态分割位置S已经达到最大值,此时当前乐段分段完成,等待乐段列表中的所有乐段P(i)划分完成。
优选地,所述音乐情感标注模块由初始乐段库、音乐特征提取模块和音乐情感坐标值计算模块组成;所述初始乐段库通过获取一个或多个能够公开使用的已经由专家标注好情感的乐段库,去除其中乐段时间大于30秒的乐段,来得到;所述音乐特征提取模块设置为提取初始乐段库中所有乐段的音频特征,并用特征工程方法,从中筛选出重要音频特征;所述音乐情感坐标值计算模块设置为根据所有乐段的重要音频特征采用机器学习中的回归算法来预测对应的乐段在情感空间中的坐标,并训练得到多种回归算法所对应的回归模型,从中选取性能最优的回归模型作为最终提供的音乐情感标注模型。
优选地,所述音频特征包括:过零率、短时能量、短时自相关系数、短时平均幅度差、语谱图、短时功率谱密度、谱熵、基频、共振峰和梅尔倒谱系数。
优选地,所述音乐情感坐标值计算模块采用的回归算法为支持多输出回归的算法,或者不支持多输出回归的算法;对于不支持多输出回归的回归算法,使用MultiOutputRegressor包装器为坐标中的每个值分别安装该回归算法,然后将该包装器直接用于对新数据进行预测。
优选地,所述音乐情感坐标值计算模块还设置为在训练得到多种回归算法所对应的回归模型时,去除初始乐段库中预测效果差的乐段,使得回归模型的性能更好;如果预测出来的乐段在情感空间中的坐标的值与原来人工标注的情感所对应的坐标的值之间的差值大于一个差值阈值,则认为是预测效果差。
另一方面,本发明提供一种基于机器学习的乐曲分段情感标注方法,包括:
S1:提供一个音乐情感标注模型,该音乐标注预测模型用于对输入的音频特征进行情感标注;
S2:识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段的乐段列表;
S3:对乐段列表中的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注;
所述步骤S3包括:
B0:初始化情感空间区分距离D0、最小子乐段时间T0和动态分割位置S;
B1:对于乐段列表中的每一个乐段P(i),执行如下步骤:
B11:将乐段列表中的每一个完整的乐段P(i)作为当前乐段,并作为待划分乐段;
B12:取最小子乐段时间T0作为动态分割位置S;
B13:在动态分割位置S将待划分乐段分成两个子乐段;
B14:用音乐情感标注模块所提供的音乐情感标注模型,对第一个子乐段进行标注,得到第一情感坐标A,并用该音乐情感标注模型,对第二个子乐段进行标注,得到第二情感坐标B;计算第一情感坐标A和第二情感坐标B在情感空间中的距离D(A,B);
B15:如果D(A,B)大于情感空间区分距离D0,则将划分得到的后面的子乐段作为新的待划分乐段,并回到步骤B12;
反之,则将动态分割位置S与最小子乐段时间T0之和作为更新的动态分割位置S;随后,回到步骤B13;直到动态分割位置S已经达到最大值,此时当前乐段分段完成,等待乐段列表中的所有乐段P(i)划分完成。
优选地,所述步骤S1具体包括:
S11:获取一个或多个能够公开使用的已经由专家标注好情感的乐段库,去除其中乐段时间大于30秒的乐段,得到初始乐段库;
S12:利用音乐特征提取模块,提取初始乐段库中所有乐段的音频特征,并用特征工程方法,从中筛选出重要音频特征;
步骤S13:利用音乐情感坐标值计算模块,根据所有乐段的重要音频特征采用机器学习中的回归算法来预测对应的乐段在情感空间中的坐标,并训练得到多种回归算法所对应的回归模型,从中选取性能最优的回归模型作为最终提供的音乐情感标注模型。
本发明的基于机器学习的乐曲分段情感标注系统基于音乐情感标注模型,首次提出了情感空间中的距离的这个概念,从而根据情感空间中的距离实现基于情感比对的乐曲分段算法,并通过自动搜索产生分界点,从而实现了基于音乐情感标注模型的自动分段和分段式的情感标注。此外,本发明的自动分段不再需要歌词,使得乐曲分段的使用范围扩大到没有歌词的音乐。
附图说明
图1是情绪二维表示模型的模型结构图。
图2是本发明的基于机器学习的乐曲分段情感标注系统的整体结构示意图。
具体实施方式
以下结合具体实施例,对本发明做进一步说明。应理解,以下实施例仅用于说明本发明而非用于限制本发明的范围。
如图2所示为本发明的基于机器学习的乐曲分段情感标注系统。如图2所示,本发明的基于机器学习的乐曲分段情感标注系统由以下三个部分组成:音乐情感标注模块10、重复旋律边界识别算法模块20和乐曲分段情感标注模块30。其中,音乐情感标注程序、乐曲分段情感标注模块是本发明所独创的,重复旋律边界识别算法参考和采用其他人提出的方法,即采用了现有技术。
音乐情感标注模块10设置为提供一个音乐情感标注模型,该音乐标注预测模型用于对输入的音频特征进行情感标注。其中,音乐情感预测模型对音频特征进行情感标注的准确率比较高,比如准确率在90%以上,且预测对象包括但不限于中文歌曲和音乐,可以是所有纯音乐、其他任何语言的歌曲。
音乐情感标注模块10由初始乐段库、音乐特征提取模块和音乐情感坐标值计算模块组成。
其中,初始乐段库通过获取一个或多个能够公开使用的已经由专家标注好情感的乐段库,去除其中乐段时间大于30秒的乐段,来得到。
其中,乐段库(即原始标注数据)包括但不限于Amg1608、DEAM、emoMusic、Emotify、GMD、IADS、MOODDetector、Modal、moodswings、SoundTracks、openmiir等。
音乐特征提取模块设置为提取初始乐段库中所有乐段的音频特征,并用特征工程方法,从中筛选出重要音频特征;音乐特征提取模块采用公开的软件或程序,比如librosa、openSMILE等。
其中,常见的音频特征包括:过零率、短时能量、短时自相关系数、短时平均幅度差、语谱图、短时功率谱密度、谱熵、基频、共振峰和梅尔倒谱系数(MFCC)等。
特征工程是机器学习技术中的一部分,其具体内容参考特征工程简介-知乎。
音乐情感坐标值计算模块设置为根据所有乐段的重要音频特征采用机器学习中的回归算法来预测对应的乐段在情感空间中的坐标,并训练得到多种回归算法所对应的回归模型,从中选取性能最优的回归模型(回归模型包括回归算法与参数)作为最终提供的音乐情感标注模型。
其中,其中,本发明的音乐情感坐标值计算模块可以适用于任何类型的情感模型,如果坐标采用的是二维情感空间模型,则乐段在情感空间中的坐标表示为两个坐标值;如果坐标采用的是三维情感空间模型,则乐段在情感空间中的坐标表示为三个坐标值;以此类推。因此,乐段在情感空间中的坐标为回归算法的多个输出。
理论上,音乐情感坐标值计算模块可以采用任意的回归算法(见下文分类)。以scikit-learn库为例,固有的多输出回归算法有:线性回归、K邻近回归、决策树回归、随机森林回归等,这些回归算法可以直接使用。考虑到并非所有回归算法都支持多输出回归,对于不支持多输出回归的回归算法,可以使用MultiOutputRegressor包装器为坐标中的每个输出(即坐标中的每个值)分别安装这类回归算法,比如SVR(支持向量回归),然后可以将该包装器直接用于对新数据进行预测,从而确认使得原本不支持多输出回归的回归算法也能够支持多个坐标输出。
具体来说,常用的回归算法包括线性回归算法和非线性回归算法。其中,线性回归算法包括:1)基于最小二乘(OLS)的简单回归算法、多变量回归算法等等;2)基于特征子集的最优子集法,向前选择法,逐步回归算法,最小角回归等等;3)基于特征成分分析的偏最小二乘算法,主成分回归算法;4)基于特征缩减的lasso,岭回归算法。常用的非线性回归算法包括:1)对非线性模型的线性化(转换原始特征空间,得到新的特征空间);2)kernel平滑方法(对局部的平滑性约束,类似最近邻类方法);3)可加模型,树模型;4)神经网络模型。
对于回归模型而言,回归模型的性能好坏主要体现在拟合的曲线与真实曲线的误差。主要的评价指标包括:拟合优度/R-Squared,校正决定系数(Adjusted R-square),均方误差(MSE),均方根误差(RMSE),误差平方和(SSE),平均绝对误差(MAE),平均绝对百分比误差(MAPE),通过这些指标中的至少一个来选取性能最优的回归模型。
音乐情感坐标值计算模块还设置为在训练得到多种回归算法所对应的回归模型时,去除初始乐段库中预测效果差的乐段,使得回归模型的性能更好。具体来说,如果预测出来的乐段在情感空间中的坐标的值与原来人工标注的情感所对应的坐标的值之间的差值大于一个差值阈值,则认为是预测效果差。这个差值阈值可以人为设定。
重复旋律边界识别模块20设置为识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段P(i)的乐段列表。多个乐段P(i)被存储于同一个乐段列表中。此处,去除重复旋律后的至少一个乐段P(i),是通过去除重复旋律来得到的,去除的重复旋律将乐曲分为间隔开的多个乐段,即去除重复旋律后的至少一个乐段P(i)。其中,i的取值范围为1~N,N为乐段列表中的乐段总数目。
有很多乐曲,后面的乐段会重复前面的乐段,比如对于ABA结构,AB和A之间的位置就是重复旋律的边界。因此,重复旋律边界识别模块20设置为执行如下步骤:步骤A1:预先设定一个最小时间作为当前时间T;步骤A2:根据当前时间T将乐曲分成前后两段音频信号,比较两段音频信号之间的相似性;步骤A3:若相似性高于一相似度阈值,则乐曲的前后两段音频信号之间为重复旋律边界,此时得到去除重复旋律A后的至少一个乐段,在本实施例中,得到的是一个乐段AB;反之,则当前时间T的数值递增,并重复上述步骤A2。
其中,比较两段音频信号之间的相似性参考和采用其他人提出的方法,不在本发明的保护点中。在本实施例中,比较两段音频信号之间的相似性所采用的方法参见申请号为201810445754.6的专利文件“一种音频信号相似程度的自动检测方法及其系统”。即,比较两段音频信号之间的相似性,具体包括:获取两段音频信号;对其进行频域分析并找出所有频域能量局部峰值位置;连接频域能量局部峰值,组成音高轨迹;根据频域能量局部峰值位置,计算每个音频帧的显著值,得到显著平均值;根据显著平均值计算音高轨迹的有声部分判断的阈值;去除显著平均值超出所述阈值的部分,得到两段音频信号的主旋律序列;求出两段主旋律的相似性矩阵;并应用动态规划局部规整算法做二值化处理,得到二值矩阵;进而判断两段输入音频信号的相似程度。
乐曲分段情感标注模块30主要针对没有标注过情感的乐曲。乐曲分段情感标注模块30设置为对重复旋律边界识别模块20划分的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注。
具体来说,乐曲分段情感标注模块30设置为执行:
步骤B0:初始化情感空间区分距离D0、最小子乐段时间T0和动态分割位置S;
其中,情感区分距离D0、最小乐段时间T0的值是是任意设置的,例如最小子乐段时间T0可以是20秒。
步骤B1:对于乐段列表中的每一个乐段P(i),执行如下步骤:
步骤B11:将乐段列表中的每一个完整的乐段P(i)作为当前乐段,并作为待划分乐段;
步骤B12:取最小子乐段时间T0作为动态分割位置S;即,令S=T0;
步骤B13:在动态分割位置S将待划分乐段分成两个子乐段;
由此,作为待划分乐段的当前乐段P(i)被划分为(乐段P(i)的起点,S),(S,乐段P(i)的结尾)两个子乐段。
步骤B14:用音乐情感标注模块10所提供的音乐情感标注模型(即音乐情感坐标值计算模块所选取的性能最优的回归模型),对第一个子乐段进行标注,得到第一情感坐标A,并用该音乐情感标注模型,对第二个子乐段进行标注,得到第二情感坐标B;计算第一情感坐标A和第二情感坐标B在情感空间中的距离D(A,B);
步骤B15:如果D(A,B)大于情感空间区分距离D0,则将划分得到的后面的子乐段作为新的待划分乐段,并回到步骤B12;
反之,说明D(A,B)不大于D0,则将动态分割位置S与最小子乐段时间T0之和作为更新的动态分割位置S(即S=S+T0),随后,回到步骤B13(即重新计算D(A,B));直到动态分割位置S已经达到最大值(S已经无法继续增加了,也就是说,无法找到D(A,B)大于情感空间区分距离D0的分割点),此时当前乐段分段完成,等待乐段列表中的所有乐段P(i)划分完成。
也就是说,一个乐段ABCDE,我们按照上面的步骤切割成A和BCDE,如果D(A,BCDE)大于情感空间区分距离D0,则将BCDE继续进行分段,直到最后情感空间中的距离D<情感空间区分距离D0,则停止分段。
也就是说,一个乐段ABCDE,我们按照上面的步骤切割成A和BCDE,如果D(A,BCDE)大于情感空间区分距离D0,则将BCDE继续进行分段,直到最后情感空间中的距离D<情感空间区分距离D0,则停止分段。
另外,乐曲分段情感标注模块30的自动搜索可以是连续的和离散的。其中,连续的自动搜索是指将T0设置为无限小,但是随之会计算速度慢,实现操作中可以根据需要去设置T0的数值。
基于上文所述的基于机器学习的乐曲分段情感标注系统,所实现的基于机器学习的乐曲分段情感标注方法,包括:
步骤S1:提供一个音乐情感标注模型,该音乐标注预测模型用于对输入的音频特征进行情感标注;
所述步骤S1具体包括:
步骤S11:获取一个或多个能够公开使用的已经由专家标注好情感的乐段库,去除其中乐段时间大于30秒的乐段,得到初始乐段库;
步骤S12:利用音乐特征提取模块,提取初始乐段库中所有乐段的音频特征,并用特征工程方法,从中筛选出重要音频特征;
音乐特征提取模块采用公开的软件或程序,比如librosa、openSMILE等。
其中,常见的音频特征有:过零率、短时能量、短时自相关系数、短时平均幅度差、语谱图、短时功率谱密度、谱熵、基频、共振峰、梅尔倒谱系数(MFCC)等。
步骤S13:利用音乐情感坐标值计算模块,根据所有乐段的重要音频特征采用机器学习中的回归算法来预测对应的乐段在情感空间中的坐标,并训练得到多种回归算法所对应的回归模型,从中选取性能最优的回归模型(回归模型包括回归算法与参数)作为最终提供的音乐情感标注模型。
音乐情感坐标值计算模块可以采用任意的回归算法(见下文分类)。
此外,所述步骤S13还包括:在训练得到多种回归算法所对应的回归模型时,去除初始乐段库中预测效果差的乐段,使得回归模型的性能更好。体来说,如果预测出来的乐段在情感空间中的坐标的值与原来人工标注的情感所对应的坐标的值之间的差值大于一个差值阈值,则认为是预测效果差。这个差值阈值可以人为设定。
步骤S2:识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段的乐段列表;
所述步骤S2包括:
步骤A1:预先设定一个最小时间作为当前时间T;
步骤A2:根据当前时间T将乐曲分成前后两段音频信号,比较两段音频信号之间的相似性;
步骤A3:若相似性高于一相似度阈值,则乐曲的前后两段音频信号之间为重复旋律边界;反之,则当前时间T的数值递增,并重复上述步骤A2。
步骤S3:对重复旋律边界识别模块20划分的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注。
所述步骤S3具体包括:
步骤B0:初始化情感空间区分距离D0、最小子乐段时间T0和动态分割位置S;
其中,情感区分距离D0、最小乐段时间T0的值是是任意设置的,例如最小子乐段时间T0可以是20秒。
步骤B1:对于乐段列表中的每一个乐段P(i),执行如下步骤:
步骤B11:将乐段列表中的每一个完整的乐段P(i)作为当前乐段,并作为待划分乐段;
其中,在第一次执行步骤B11时,待划分乐段P(i)为整个乐段。
步骤B12:取最小子乐段时间T0作为动态分割位置S;即,令S=T0;
步骤B13:在动态分割位置S将待划分乐段分成两个子乐段;
由此,作为待划分乐段的当前乐段P(i)被划分为(乐段P(i)的起点,S),(S,乐段P(i)的结尾)两个子乐段。
步骤B14:用音乐情感标注模块10所提供的音乐情感标注模型(即音乐情感坐标值计算模块所选取的性能最优的回归模型),对第一个子乐段进行标注,得到第一情感坐标A,并用该音乐情感标注模型,对第二个子乐段进行标注,得到第二情感坐标B;计算第一情感坐标A和第二情感坐标B在情感空间中的距离D(A,B);
步骤B15:如果D(A,B)大于情感空间区分距离D0,则将划分得到的后面的子乐段作为新的待划分乐段,并回到步骤B12;
反之,说明D(A,B)不大于D0,则将动态分割位置S与最小子乐段时间T0之和作为更新的动态分割位置S(即S=S+T0),随后,回到步骤B13(即重新计算D(A,B));直到动态分割位置S已经达到最大值,此时当前乐段分段完成,等待乐段列表中的所有乐段P(i)划分完成。
此外,在其他实施例中,也可以对同一个乐段中的子乐段继续进行划分,分成更小的两个子乐段,方法一样。即,在步骤B15中,在当前乐段P(i)分段完成之前,先将划分得到的子乐段作为新的待划分乐段回到步骤B12,直到乐段中划分得到的子乐段的总数量满足要求,此时当前乐段P(i)分段完成。
实验结果
本发明的基于机器学习的乐曲分段情感标注系统及方法与如前文所述的3种现有的音乐情感识别和标注方法,比较结果如下表所示。
表1四种方法比较结果
也就是说,现有的整体标注方法,没有分段情感功能,自然也没有自动分段功能;分段式情感识别,关键问题在于不是根据情感自动分段的,实际上得到的结果还是整体的情感;基于歌词的方法,虽然也能分段,但是必须依赖歌词才行。本发明的基于机器学习的乐曲分段情感标注系统及方法不需要歌词,就可以自动进行基于情感模型的乐曲分段。
本发明基于音乐情感标注模型,首次提出了情感空间中的距离的这个概念,从而根据情感空间中的距离实现基于情感比对的乐曲分段算法,并通过自动搜索产生分界点,从而实现了基于音乐情感标注模型的自动分段和分段式的情感标注。此外,本发明的自动分段不再需要歌词,使得乐曲分段的使用范围扩大到没有歌词的音乐。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。
Claims (7)
1.一种基于机器学习的乐曲分段情感标注系统,其特征在于,包括音乐情感标注模块(10)、重复旋律边界识别算法模块(20)和乐曲分段情感标注模块(30);音乐情感标注模块(10)设置为提供一个音乐情感标注模型,该音乐标注预测模型用于对输入的音频特征进行情感标注;重复旋律边界识别算法模块(20)设置为识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段的乐段列表;所述乐曲分段情感标注模块(30)设置为对乐段列表中的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注;
所述乐曲分段情感标注模块(30)设置为执行:
步骤B0:初始化情感空间区分距离D0、最小子乐段时间T0和动态分割位置S;
步骤B1:对于乐段列表中的每一个乐段P(i),执行如下步骤:
步骤B11:将乐段列表中的每一个完整的乐段P(i)作为当前乐段,并作为待划分乐段;
步骤B12:取最小子乐段时间T0作为动态分割位置S;
步骤B13:在动态分割位置S将待划分乐段分成两个子乐段;
步骤B14:用音乐情感标注模块(10)所提供的音乐情感标注模型,对第一个子乐段进行标注,得到第一情感坐标A,并用该音乐情感标注模型,对第二个子乐段进行标注,得到第二情感坐标B;计算第一情感坐标A和第二情感坐标B在情感空间中的距离D(A,B);
步骤B15:如果D(A,B)大于情感空间区分距离D0,则将划分得到的后面的子乐段作为新的待划分乐段,并回到步骤B12;
反之,则将动态分割位置S与最小子乐段时间T0之和作为更新的动态分割位置S,随后,回到步骤B13;直到动态分割位置S已经达到最大值,此时当前乐段分段完成,等待乐段列表中的所有乐段P(i)划分完成。
2.根据权利要求1所述的基于机器学习的乐曲分段情感标注系统,其特征在于,所述音乐情感标注模块(10)由初始乐段库、音乐特征提取模块和音乐情感坐标值计算模块组成;
所述初始乐段库通过获取一个或多个能够公开使用的已经由专家标注好情感的乐段库,去除其中乐段时间大于30秒的乐段,来得到;
所述音乐特征提取模块设置为提取初始乐段库中所有乐段的音频特征,并用特征工程方法,从中筛选出重要音频特征;
所述音乐情感坐标值计算模块设置为根据所有乐段的重要音频特征采用机器学习中的回归算法来预测对应的乐段在情感空间中的坐标,并训练得到多种回归算法所对应的回归模型,从中选取性能最优的回归模型作为最终提供的音乐情感标注模型。
3.根据权利要求2所述的基于机器学习的乐曲分段情感标注系统,其特征在于,所述音频特征包括:过零率、短时能量、短时自相关系数、短时平均幅度差、语谱图、短时功率谱密度、谱熵、基频、共振峰和梅尔倒谱系数。
4.根据权利要求2所述的基于机器学习的乐曲分段情感标注系统,其特征在于,所述音乐情感坐标值计算模块采用的回归算法为支持多输出回归的算法,或者不支持多输出回归的算法;对于不支持多输出回归的回归算法,使用MultiOutputRegressor包装器为坐标中的每个值分别安装该回归算法,然后将该包装器直接用于对新数据进行预测。
5.根据权利要求2所述的基于机器学习的乐曲分段情感标注系统,其特征在于,所述音乐情感坐标值计算模块还设置为在训练得到多种回归算法所对应的回归模型时,去除初始乐段库中预测效果差的乐段,使得回归模型的性能更好;如果预测出来的乐段在情感空间中的坐标的值与原来人工标注的情感所对应的坐标的值之间的差值大于一个差值阈值,则认为是预测效果差。
6.一种基于机器学习的乐曲分段情感标注方法,其特征在于,包括:
步骤S1:提供一个音乐情感标注模型,该音乐标注预测模型用于对输入的音频特征进行情感标注;
步骤S2:识别重复旋律的边界,以得到具有去除重复旋律后的至少一个乐段的乐段列表;
步骤S3:对乐段列表中的乐段利用音乐情感标注模型进行基于情感空间中的距离的自动分段和情感标注;
所述步骤S3包括:
步骤B0:初始化情感空间区分距离D0、最小子乐段时间T0和动态分割位置S;
步骤B1:对于乐段列表中的每一个乐段P(i),执行如下步骤:
步骤B11:将乐段列表中的每一个完整的乐段P(i)作为当前乐段,并作为待划分乐段;
步骤B12:取最小子乐段时间T0作为动态分割位置S;
步骤B13:在动态分割位置S将待划分乐段分成两个子乐段;
步骤B14:用音乐情感标注模块(10)所提供的音乐情感标注模型,对第一个子乐段进行标注,得到第一情感坐标A,并用该音乐情感标注模型,对第二个子乐段进行标注,得到第二情感坐标B;计算第一情感坐标A和第二情感坐标B在情感空间中的距离D(A,B);
步骤B15:如果D(A,B)大于情感空间区分距离D0,则将划分得到的后面的子乐段作为新的待划分乐段,并回到步骤B12;
反之,则将动态分割位置S与最小子乐段时间T0之和作为更新的动态分割位置S,随后,回到步骤B13;直到动态分割位置S已经达到最大值,此时当前乐段分段完成,等待乐段列表中的所有乐段P(i)划分完成。
7.根据权利要求6所述的基于机器学习的乐曲分段情感标注方法,其特征在于,所述步骤S1具体包括:
步骤S11:获取一个或多个能够公开使用的已经由专家标注好情感的乐段库,去除其中乐段时间大于30秒的乐段,得到初始乐段库;
步骤S12:利用音乐特征提取模块,提取初始乐段库中所有乐段的音频特征,并用特征工程方法,从中筛选出重要音频特征;
步骤S13:利用音乐情感坐标值计算模块,根据所有乐段的重要音频特征采用机器学习中的回归算法来预测对应的乐段在情感空间中的坐标,并训练得到多种回归算法所对应的回归模型,从中选取性能最优的回归模型作为最终提供的音乐情感标注模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210220859.8A CN114756734B (zh) | 2022-03-08 | 2022-03-08 | 基于机器学习的乐曲分段情感标注系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210220859.8A CN114756734B (zh) | 2022-03-08 | 2022-03-08 | 基于机器学习的乐曲分段情感标注系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114756734A CN114756734A (zh) | 2022-07-15 |
CN114756734B true CN114756734B (zh) | 2023-08-22 |
Family
ID=82325091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210220859.8A Active CN114756734B (zh) | 2022-03-08 | 2022-03-08 | 基于机器学习的乐曲分段情感标注系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756734B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101553831A (zh) * | 2006-09-18 | 2009-10-07 | 诺基亚公司 | 用于使用便携式设备查看虚拟数据库的方法、装置和计算机程序产品 |
CN101697278A (zh) * | 2009-10-16 | 2010-04-21 | 深圳市北科瑞声科技有限公司 | 音乐情感距离的度量方法 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
WO2012019827A1 (en) * | 2010-08-09 | 2012-02-16 | Shubhangi Mahadeo Jadhav | User interface for creating a playlist |
CN108877838A (zh) * | 2018-07-17 | 2018-11-23 | 黑盒子科技(北京)有限公司 | 音乐特效匹配方法及装置 |
CN111554256A (zh) * | 2020-04-21 | 2020-08-18 | 华南理工大学 | 一种基于强弱标准的钢琴视奏能力评价系统 |
CN113920969A (zh) * | 2021-10-09 | 2022-01-11 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-08 CN CN202210220859.8A patent/CN114756734B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101553831A (zh) * | 2006-09-18 | 2009-10-07 | 诺基亚公司 | 用于使用便携式设备查看虚拟数据库的方法、装置和计算机程序产品 |
CN101697278A (zh) * | 2009-10-16 | 2010-04-21 | 深圳市北科瑞声科技有限公司 | 音乐情感距离的度量方法 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
WO2012019827A1 (en) * | 2010-08-09 | 2012-02-16 | Shubhangi Mahadeo Jadhav | User interface for creating a playlist |
CN108877838A (zh) * | 2018-07-17 | 2018-11-23 | 黑盒子科技(北京)有限公司 | 音乐特效匹配方法及装置 |
CN111554256A (zh) * | 2020-04-21 | 2020-08-18 | 华南理工大学 | 一种基于强弱标准的钢琴视奏能力评价系统 |
CN113920969A (zh) * | 2021-10-09 | 2022-01-11 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114756734A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Murthy et al. | Content-based music information retrieval (cb-mir) and its applications toward the music industry: A review | |
Tingle et al. | Exploring automatic music annotation with" acoustically-objective" tags | |
Feng et al. | Popular music retrieval by detecting mood | |
Han et al. | A survey of music emotion recognition | |
Yang et al. | Toward multi-modal music emotion classification | |
Jamdar et al. | Emotion analysis of songs based on lyrical and audio features | |
Martín-Gutiérrez et al. | A multimodal end-to-end deep learning architecture for music popularity prediction | |
Zhang | Music style classification algorithm based on music feature extraction and deep neural network | |
CN110851650B (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
Lu et al. | Boosting for multi-modal music emotion | |
Sarno et al. | Classification of music mood using MPEG-7 audio features and SVM with confidence interval | |
Bai et al. | Music emotions recognition by cognitive classification methodologies | |
Ridoean et al. | Music mood classification using audio power and audio harmonicity based on MPEG-7 audio features and Support Vector Machine | |
Dixon et al. | Probabilistic and logic-based modelling of harmony | |
Wu | Research on automatic classification method of ethnic music emotion based on machine learning | |
Ujlambkar et al. | Mood based music categorization system for bollywood music | |
CN114756734B (zh) | 基于机器学习的乐曲分段情感标注系统及方法 | |
Sridharan et al. | Similarity estimation for classical indian music | |
Karydis et al. | Comparing content and context based similarity for musical data | |
Ashraf et al. | Integration of speech/music discrimination and mood classification with audio feature extraction | |
Rajan et al. | Multi-channel CNN-Based Rāga Recognition in Carnatic Music Using Sequential Aggregation Strategy | |
Yao et al. | [Retracted] Research on Segmentation Experience of Music Signal Improved Based on Maximization of Negative Entropy | |
Zhao et al. | Computational music: Analysis of music forms | |
Zhang et al. | Research on Music Emotional Expression Based on Reinforcement Learning and Multimodal Information | |
Velankar et al. | Evaluating deep learning models for music emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |