CN117591062A - 一种音乐自适应音效调整方法、系统、软件及设备 - Google Patents

一种音乐自适应音效调整方法、系统、软件及设备 Download PDF

Info

Publication number
CN117591062A
CN117591062A CN202311534302.2A CN202311534302A CN117591062A CN 117591062 A CN117591062 A CN 117591062A CN 202311534302 A CN202311534302 A CN 202311534302A CN 117591062 A CN117591062 A CN 117591062A
Authority
CN
China
Prior art keywords
music
genre
sound effect
training
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311534302.2A
Other languages
English (en)
Inventor
林永彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huizhou Desay SV Intelligent Transport Technology Research Institute Co Ltd
Original Assignee
Huizhou Desay SV Intelligent Transport Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhou Desay SV Intelligent Transport Technology Research Institute Co Ltd filed Critical Huizhou Desay SV Intelligent Transport Technology Research Institute Co Ltd
Priority to CN202311534302.2A priority Critical patent/CN117591062A/zh
Publication of CN117591062A publication Critical patent/CN117591062A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本申请提供一种音乐自适应音效调整方法、系统、软件及设备,建立流派分类模型;当开始播放任一首次播放的音乐,获取所述音乐的音乐标签中的流派信息,根据所述流派信息选择对应的音效;若所述音乐标签中没有流派信息,在所述音乐播放过程中,启动所述流派分类模型进行歌曲流派识别,得到最新的流派信息;生成新的音乐标签并进行存储;所述音乐标签包括最新的流派信息和对应的音效。本申请提供的技术方案实现了在播放音乐的过程中音效模式随着正在播放的音乐的风格和流派的改变而自动改变,为用户提供了良好的听歌体验;用户不需要主动切换音效,就可以聆听到在与音乐的风格流派适配的音效下播放的音乐。

Description

一种音乐自适应音效调整方法、系统、软件及设备
技术领域
本申请涉及深度学习技术领域,具体涉及一种音乐自适应音效调整方法、系统、软件及设备。
背景技术
现有技术中,音乐播放器在播放音乐的过程中,音效模式不会随着音乐类型改变而自动改变。通常情况下,用户设置好一种音效后,无论什么风格和流派的音乐都会固定地用这一种音效播放,这样会导致部分音乐与音效不匹配,影响用户听歌体验。如果用户在歌曲播放时手动切换音效,可能会带来安全隐患。例如,在车载音乐播放器的场景,驾驶员在驾驶时手动操作按键或显示屏以切换音效,这种行为具有一定的危险性。并且,很多用户并非音乐领域的专业人士,难以做到通过自定义调节到合适的音效,即使是音乐领域的专业人士,通常也需要通过多次尝试才能调至满意的音效。
发明内容
针对上述技术问题,本申请提出一种音乐自适应音效调整方法、系统、软件及设备。
具体地,本申请提供一种音乐自适应音效调整方法,其特征在于,包括:
S1:建立流派分类模型;
S2:当开始播放任一首次播放的音乐,获取所述音乐的音乐标签中的流派信息,根据所述流派信息选择对应的音效;若所述音乐标签中没有流派信息,转S3;
S3:在所述音乐播放过程中,启动所述流派分类模型进行歌曲流派识别,得到最新的流派信息;
S4:生成新的音乐标签并进行存储;所述音乐标签包括最新的流派信息和对应的音效。
本申请通过深度学习技术实现了在播放音乐的过程中音效模式随着正在播放的音乐的风格和流派的改变而自动改变;用户不需要主动切换音效,就可以聆听到在与音乐的风格流派适配的音效下播放的音乐,在车载场景中也提高了驾驶安全性和舒适性。
其中,所述步骤S1包括:
建立训练数据集和测试数据集;其中,所述训练数据集和所述测试数据集包含不同流派的多首不同音乐;
对所述训练数据集和所述测试数据集中的每一首音乐进行MFCC特征提取,得到多个对应的MFCC特征值;
建立深度学习模型;
利用所述训练数据集与对应的MFCC特征值对所述深度学习模型进行训练,得到训练后的深度学习模型;
利用所述测试数据集与对应的MFCC特征值对所述训练后的深度学习模型进行测试和调整,得到所述流派分类模型。
通过训练数据集对深度学习模型进行训练,通过测试数据集对训练后的深度学习模型进行测试和调整得到流派分类模型,从而使得到的流派分类模型可以精准识别音乐的流派。
其中,所述利用所述训练数据集与对应的MFCC特征值对所述深度学习模型进行训练,具体为:
所述深度学习模型包括输入层和输出层;
将输入特征矩阵输入所述输入层;
经所述输出层中多个神经元获得训练结果,根据所述训练结果得到概率最高的流派作为本次训练结果;
其中,所述输入特征矩阵的每一行代表一首音乐,每一列代表一个MFCC特征值。
将MFCC特征值形成的矩阵作为输入矩阵输入深度学习模型的输入层,对深度学习模型进行训练,使所述深度学习模型能够更加精准地根据音乐的MFCC特征判断所属的流派。
其中,所述步骤S2之前还包括:
当媒体播放器开始播放一首音乐,通过音乐的音乐标签判断是否为初次播放,当所述音乐不是初次播放,根据所述音乐标签在数据库中查找到对应的音效并应用于所述媒体播放器中。
对于不是初次播放的音乐,其音乐标签中已经包含流派信息,此时可以直接根据音乐标签中的流派信息切换到对应的音效
其中,所述步骤S3包括:
在所述音乐播放过程中,每间隔一预设时间获取一段所述音乐的PCM数据,提取所述PCM数据的MFCC特征值;
将所述MFCC特征值输入所述流派判断模型,得到一个流派值;
所述音乐播放完毕后,得到多个流派值,取出现次数最多的一个流派值为所述音乐的更新后的流派信息。
在音乐播放的过程中得到多个流派值,取出现次数最多的流派值作为更新后的流派信息,这样做有助于根据一首音乐的完整信息全面地评估流派值,增加流派分类的精准性。
具体地,本申请还提供一种根据所述的音乐自适应音效调整方法的音乐自适应音效调整系统,包括:
选择单元,用于当开始播放任一首次播放的音乐,根据所述音乐的音乐标签中的流派信息选择对应的音效;
流派分类模型,用于在音乐播放过程中,对所述音乐进行歌曲流派识别,得到最新的流派信息。
其中,所述音乐自适应音效调整系统还包括:
数据库,用于存储音乐的音乐标签,所述音乐标签包括流派信息和对应的音效。
其中,所述流派分类模型包括:
预处理模块,用于对训练数据集和测试数据集中的每一首音乐进行MFCC特征提取;
训练模块,用于利用所述训练数据集与对应的MFCC特征值对深度学习模型进行训练,得到训练后的深度学习模型;
测试模块,用于利用所述测试数据集与对应的MFCC特征值对所述训练后的深度学习模型进行测试和调整,得到所述流派分类模型。
具体地,本申请还提供一种音乐自适应音效调整软件,其特征在于,所述音乐自适应音效调整软件采用所述的音乐自适应音效调整方法以完成音乐自适应音效调整。
具体地,本申请还提供一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现所述音乐自适应音效调整方法。
与现有技术相比,本申请至少存在以下有益效果:
本申请提供的技术方案通过深度学习技术实现了在播放音乐的过程中音效模式随着正在播放的音乐的风格和流派的改变而自动改变,为用户提供了良好的听歌体验;用户不需要主动切换音效,就可以聆听到在与音乐的风格流派适配的音效下播放的音乐,在车载场景中也提高了驾驶安全性和舒适性。
附图说明
图1是本申请实施例示出的音乐自适应音效调整方法流程示意图。
图2是本申请实施例示出的系统整体软件架构示意图。
图3是本申请实施例示出的音乐自适应音效调整软件架构示意图。
图4是本申请实施例示出的计算机设备结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一:
参照图1,是本申请实施例示出的音乐自适应音效调整方法流程示意图。
具体地,本申请提供一种音乐自适应音效调整方法,其特征在于,包括:
S1:建立流派分类模型;
S2:当开始播放任一首次播放的音乐,获取所述音乐的音乐标签中的流派信息,根据所述流派信息选择对应的音效;若所述音乐标签中没有流派信息,转S3;
S3:在所述音乐播放过程中,启动所述流派分类模型进行歌曲流派识别,得到最新的流派信息;
S4:生成新的音乐标签并进行存储;所述音乐标签包括最新的流派信息和对应的音效。
进一步的,在一优选实施例中,所述音乐自适应音效调整方法具体步骤如下:
1)训练一个流派识别的深度学习模型。具体步骤如下:
准备训练数据集和测试数据集,训练数据集和测试数据集各包含1000首不同的歌曲,分布在10种不同流派(分别为blue=0、classical=1、country=2、disco=3、hiphop=4、jazz=5、pop=6、rock=7、metal=8、reggae=9),每个流派100首,每首歌曲大约30秒;
每首歌曲先通过MFCC进行特征提取,每首歌曲提取25000个MFCC值;
搭建深度学习模型,分三层:输入层、隐藏层、输出层,优化函数采用adam,损失函数采用categorical_crossentropy;
输入层是1000x 25000的矩阵;
隐藏层包含100个神经元,激活函数为relu;
输出层包含10个神经元,激活函数为softmax;
10个神经元中的得分最高或概率最高的作为输出结果;
训练后,得到一个基于深度学习的流派判断模型。
2)用户在Android系统上通过Mediaplayer(多媒体播放器)播放歌曲,系统根据ID3信息来判断这首歌曲是否为初次播放。
3)若歌曲是初次播放,则通过ID3的流派信息,根据不同的流派选择一个默认音效,并设置到DSP(Digital Signal Processor,数字信号处理器)中生效。音效包括blue、classical、country、disco、hiphop、jazz、pop、rock、metal、reggae、none,无流派信息则为none。由于很多歌曲没有流派信息,或者流派信息与歌曲风格不符,因此系统需要在歌曲播放过程中再次识别歌曲的流派,步骤如下:
Mediaplayer对歌曲进行解码后会生成PCM数据;
每30秒获取一段PCM数据,并将PCM数据通过MFCC提取特征值;
将MFCC特征值输入到基于深度学习的流派判断模型后,得到一个流派值;
整首歌播放完成后,会得到若干个流派值,取出现次数最多的为歌曲流派值;
通过流派值可以映射到对应的音效,并将音效和ID3信息一同存入数据库。
4)若歌曲不是初次播放,则通过ID3到数据库中找到音效信息,将音效设置到DSP中生效。
其中,通过提取到的歌曲的MFCC值对深度学习模型进行训练,MFCC(MelFrequency Cepstral Coefficients)特征是一种常用于语音和音频信号处理的特征表示方法,基于人耳的感知机制,将声音信号转换为在梅尔刻度上均匀分布的频率表示。它模拟了人耳的感知特性,将音频信号转换为一组具有较好区分能力的特征向量。
PCM数据(Pulse Code Modulation,脉冲编码调制),是一种用于数字音频表示的方法。它通过对音频信号进行采样并量化,将连续的模拟信号转换为数字化的离散数值。PCM数据是一系列数字样本的集合,每个样本表示音频在某个时间点上的振幅值。这些样本可以构成音频流,用于存储和传输音频信息。
ID3信息是一种用于嵌入音频文件中的元数据格式。ID3标签(IDentification,Tagging and Digitized Information)允许在音频文件中存储有关音频内容的描述信息,如歌曲标题、艺术家、专辑、年份等。ID3标签可以以文本形式存储,也可以包含图像、URL等其他类型的信息。它使得音频文件可以携带更多的附加信息,方便对音频进行管理、分类和展示。
本申请通过深度学习技术实现了在播放音乐的过程中音效模式随着正在播放的音乐的风格和流派的改变而自动改变;用户不需要主动切换音效,就可以聆听到在与音乐的风格流派适配的音效下播放的音乐,在车载场景中也提高了驾驶安全性和舒适性。
其中,所述步骤S1包括:
建立训练数据集和测试数据集;其中,所述训练数据集和所述测试数据集包含不同流派的多首不同音乐;
对所述训练数据集和所述测试数据集中的每一首音乐进行MFCC特征提取,得到多个对应的MFCC特征值;
建立深度学习模型;
利用所述训练数据集与对应的MFCC特征值对所述深度学习模型进行训练,得到训练后的深度学习模型;
利用所述测试数据集与对应的MFCC特征值对所述训练后的深度学习模型进行测试和调整,得到所述流派分类模型。
通过训练数据集对深度学习模型进行训练,通过测试数据集对训练后的深度学习模型进行测试和调整得到流派分类模型,从而使得到的流派分类模型可以精准识别音乐的流派。
其中,所述利用所述训练数据集与对应的MFCC特征值对所述深度学习模型进行训练,具体为:
所述深度学习模型包括输入层和输出层;
将输入特征矩阵输入所述输入层;
经所述输出层中多个神经元获得训练结果,根据所述训练结果得到概率最高的流派作为本次训练结果;
其中,所述输入特征矩阵的每一行代表一首音乐,每一列代表一个MFCC特征值。
将MFCC特征值形成的矩阵作为输入矩阵输入深度学习模型的输入层,对深度学习模型进行训练,使所述深度学习模型能够更加精准地根据音乐的MFCC特征判断所属的流派。
其中,所述步骤S2之前还包括:
当媒体播放器开始播放一首音乐,通过音乐的音乐标签判断是否为初次播放,当所述音乐不是初次播放,根据所述音乐标签在数据库中查找到对应的音效并应用于所述媒体播放器中。
对于不是初次播放的音乐,其音乐标签中已经包含流派信息,此时可以直接根据音乐标签中的流派信息切换到对应的音效
其中,所述步骤S3包括:
在所述音乐播放过程中,每间隔一预设时间获取一段所述音乐的PCM数据,提取所述PCM数据的MFCC特征值;
将所述MFCC特征值输入所述流派判断模型,得到一个流派值;
所述音乐播放完毕后,得到多个流派值,取出现次数最多的一个流派值为所述音乐的更新后的流派信息。
在音乐播放的过程中得到多个流派值,取出现次数最多的流派值作为更新后的流派信息,这样做有助于根据一首音乐的完整信息全面地评估流派值,增加流派分类的精准性。
参照图2,是本申请实施例示出的系统整体软件架构示意图。
本实施例中,整体软件架构按照从上到下的顺序分为App(应用程序层)、AndroidSDK Java(安卓软件开发工具包中的Java部分)、JNI Library(Java本地接口库。)、SystemServer(系统服务器)和HAL(Hardware Abstraction Layer,硬件抽象层)五个层次。
1)在App层,有Settings(设置)和Online Music(在线音乐)这两个功能模块。
Settings(设置):提供了对设备各种参数、选项和配置进行管理的界面。用户可以在该应用程序中进行诸如网络设置、音量控制、帐户管理、安全设置、应用程序管理等操作,为用户提供对设备和系统功能的个性化配置和控制,使用户能够根据自己的需求对设备进行定制。
Online Music(在线音乐):用于提供在线音乐播放和音乐资源搜索功能。这些应用程序允许用户通过互联网访问并播放各种音乐、歌曲和专辑,通常还包括歌单推荐、个性化音乐推荐、歌词显示等功能。
进一步的,在本实施例示出的软件架构中,Settings模块可以向HAL中的DspHal发送数据,也可以向System Server中的AdaptionEQService(音效调整服务)模块发送数据。其中,所述AdaptionEQService(音效调整服务)用于实现本申请提供的音乐自适应音效调整方法。Online Music模块可以向AdaptionEQService(音效调整服务)模块和MediaPlayer(媒体播放)模块发送数据。
2)在Android SDK Java中,有MediaPlayer(媒体播放)这一个模块。
在Android SDK中,MediaPlayer是一个用于播放音频和视频文件的类。它提供了一种方便的方式来管理和控制多媒体文件的播放,包括实现播放、暂停、停止、循环播放等功能。
具体地,MediaPlayer支持的功能包括:播放音频文件,具体为通过MediaPlayer可以播放本地存储或网络上的音频文件,如MP3、WAV等格式;播放视频文件,如MP4、AVI等格式;控制播放状态,包括开始播放、暂停播放、停止播放等操作;监听播放完成事件,具体为注册监听器,以便在媒体文件播放完成时执行相应的操作。
进一步的,在本实施例示出的软件架构中,Android SDK Java中的MediaPlayer模块可以接收Android SDK Java中的Online Music模块发送的数据,并向JNI Library中的MediaPlayer模块发送数据。
3)在JNI Library中,有MediaPlayer(多媒体播放)和AudioTrack(音频跟踪)两个模块。
MediaPlayer(多媒体播放)模块:用于封装底层的多媒体播放器功能,允许从JNI层启动、控制和管理音频或视频的播放。通过JNI接口,可以调用C/C++实现的多媒体框架,以实现音频或视频文件的播放功能。
AudioTrack(音频跟踪)模块:用于封装底层的音频数据播放功能,允许从JNI层直接控制音频数据的输入和输出。通过JNI接口,可以调用C/C++实现的音频处理库,以实现对音频数据的输入和输出控制,如实时音频处理、音频回放等功能。
进一步的,在本实施例示出的软件架构中,JNI Library中的MediaPlayer模块可以接收Android SDK Java中的MediaPlayer模块发送的数据,并可以向System Server层中的MediaPlayerService发送数据。
4)在System Server层中,有MediaPlayerService(多媒体播放服务)、AudioFlinger(音频引擎)和AdaptionEQService(音效调整)三个模块。
MediaPlayerService(多媒体播放服务):负责管理音频和视频的播放,处理媒体资源的读取、解码和播放控制等功能。
AudioFlinger(音频引擎):负责音频数据的采集、处理和输出。它管理着音频设备的输入和输出流,处理音频的混音、特效处理、音量控制等功能。
AdaptionEQService(音效调整):用于用于实现本申请提供的音乐自适应音效调整方法。
进一步的,在本实施例示出的软件架构中,MediaPlayerService可以接收MediaPlayer发送的数据,并可以向JNI Library层中的AudioTrack和System Server层中的AdaptionEQService发送数据;AudioFlinger可以接收JNI Library中的AudioTrack发送的数据,并向HAL层中的AudioHal发送数据;AdaptionEQService接收App层中的Settings和Online Music,以及System Server层中的MediaPlayerService发送的数据,并向HAL中的DspHal发送数据
5)在HAL层中,有DspHal和AudioHal两个模块。
DspHal:DSP(Digital Signal Processor,数字信号处理器)是一种专门用于处理数字信号的微处理器,DSPHal模块是指Android系统中用于管理和控制DSP硬件的抽象层接口。它提供了一系列接口函数,让上层的软件可以与DSP硬件进行通信。
AudioHal:Audio HAL(音频硬件抽象)是指Android系统中用于管理和控制音频硬件的抽象层接口。它为上层的音频服务提供了访问底层音频硬件的统一接口,包括音频输入输出流管理、音频设备控制、音频格式转换等功能。通过Audio HAL,上层的音频服务可以与不同厂商的音频硬件进行统一的交互,从而实现硬件的兼容性和可移植性。
进一步的,在本实施例示出的软件架构中,DspHal可以接收App层的Settings和System Server层中的AdaptionEQService发送的数据;AudioHal可以接收System Server层中的AudioFlinger发送的数据。
实施例二:
具体地,本申请还提供一种根据所述的音乐自适应音效调整方法的音乐自适应音效调整系统,包括:
选择单元,用于当开始播放任一首次播放的音乐,根据所述音乐的音乐标签中的流派信息选择对应的音效;
流派分类模型,用于在音乐播放过程中,对所述音乐进行歌曲流派识别,得到最新的流派信息。
其中,所述音乐自适应音效调整系统还包括:
数据库,用于存储音乐的音乐标签,所述音乐标签包括流派信息和对应的音效。
其中,所述流派分类模型包括:
预处理模块,用于对训练数据集和测试数据集中的每一首音乐进行MFCC特征提取;
训练模块,用于利用所述训练数据集与对应的MFCC特征值对深度学习模型进行训练,得到训练后的深度学习模型;
测试模块,用于利用所述测试数据集与对应的MFCC特征值对所述训练后的深度学习模型进行测试和调整,得到所述流派分类模型。
实施例三:
参照图3,是本申请实施例示出的音乐自适应音效调整软件架构示意图。
具体地,本申请还提供一种音乐自适应音效调整软件,其特征在于,所述音乐自适应音效调整软件采用所述的音乐自适应音效调整方法以完成音乐自适应音效调整。
本申请一优选申请实施例提供一种音乐自适应音效调整软件,即图3中的AdaptionEQService软件。
所述AdaptionEQService软件从上至下分为代理接口层,功能实现层和底层适配层三层。
代理接口层存储有自适应音效开关接口和回调接口,由功能实现层的自适应音效开关设置和通知模块实现所述自适应音效开关接口和回调接口定义的功能。
代理接口层存储有ID3信息输入接口,功能实现层中设计了判断音乐是否初次播放的逻辑以实现所述ID3信息输入接口定义的功能。当判断音乐是初次播放,生成默认音效;当判断音乐不是初次播放,加载存储音效。功能实现层的逻辑传输到底层适配层中的DSP适配器。
代理接口层存储有PCM音频流输入接口,在功能实现层进行MFCC特征提取(每隔30秒进行一次特征识别),接着进行深度学习模型处理,生成新音效,最后存储ID3和音效。
实施例四:
参照图4,是本申请实施例示出的计算机设备结构示意图。
具体地,本申请还提供一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现所述音乐自适应音效调整方法。
如图3所示,该实施例的计算机设备4包括:至少一个处理器40(图4中仅示出一个)、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述任意方法实施例中的步骤。
所述计算机设备4一般是车载信息娱乐系统,可以是基础娱乐系统、多媒体娱乐系统、导航娱乐一体机、后座娱乐系统、车载互联娱乐系统等。该计算机设备可包括但不仅限于处理器40、存储器41。本领域技术人员可以理解,图4仅仅是计算机设备4的举例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41在一些实施例中可以是所述计算机设备4的内部存储单元,例如计算机设备4的硬盘或内存。所述存储器41在另一些实施例中也可以是所述计算机设备4的外部存储设备,例如所述计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
综上所述,本申请提供一种音乐自适应音效调整方法、系统、软件及设备,建立流派分类模型;当开始播放任一首次播放的音乐,获取所述音乐的音乐标签中的流派信息,根据所述流派信息选择对应的音效;若所述音乐标签中没有流派信息,在所述音乐播放过程中,启动所述流派分类模型进行歌曲流派识别,得到最新的流派信息;生成新的音乐标签并进行存储;所述音乐标签包括最新的流派信息和对应的音效。本申请提供的技术方案实现了在播放音乐的过程中音效模式随着正在播放的音乐的风格和流派的改变而自动改变,为用户提供了良好的听歌体验;用户不需要主动切换音效,就可以聆听到在与音乐的风格流派适配的音效下播放的音乐。
在本申请所提供的几个实施例中,可以理解的是,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围。特别指出,对于本领域技术人员来说,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种音乐自适应音效调整方法,其特征在于,包括:
S1:建立流派分类模型;
S2:当开始播放任一首次播放的音乐,获取所述音乐的音乐标签中的流派信息,根据所述流派信息选择对应的音效;若所述音乐标签中没有流派信息,转S3;
S3:在所述音乐播放过程中,启动所述流派分类模型进行歌曲流派识别,得到最新的流派信息;
S4:生成新的音乐标签并进行存储;所述音乐标签包括最新的流派信息和对应的音效。
2.根据权利要求1所述的一种音乐自适应音效调整方法,其特征在于,所述步骤S1包括:建立训练数据集和测试数据集;其中,所述训练数据集和所述测试数据集包含不同流派的多首不同音乐;
对所述训练数据集和所述测试数据集中的每一首音乐进行MFCC特征提取,得到多个对应的MFCC特征值;
建立深度学习模型;
利用所述训练数据集与对应的MFCC特征值对所述深度学习模型进行训练,得到训练后的深度学习模型;
利用所述测试数据集与对应的MFCC特征值对所述训练后的深度学习模型进行测试和调整,得到所述流派分类模型。
3.根据权利要求2所述的一种音乐自适应音效调整方法,其特征在于,所述利用所述训练数据集与对应的MFCC特征值对所述深度学习模型进行训练,具体为:
所述深度学习模型包括输入层和输出层;
将输入特征矩阵输入所述输入层;
经所述输出层中多个神经元获得训练结果,根据所述训练结果得到概率最高的流派作为本次训练结果;
其中,所述输入特征矩阵的每一行代表一首音乐,每一列代表一个MFCC特征值。
4.根据权利要求3所述的一种音乐自适应音效调整方法,其特征在于,所述步骤S2之前还包括:
当媒体播放器开始播放一首音乐,通过音乐的音乐标签判断是否为初次播放,当所述音乐不是初次播放,根据所述音乐标签在数据库中查找到对应的音效并应用于所述媒体播放器中。
5.根据权利要求4所述的一种音乐自适应音效调整方法,其特征在于,所述步骤S3包括:在所述音乐播放过程中,每间隔一预设时间获取一段所述音乐的PCM数据,提取所述PCM数据的MFCC特征值;
将所述MFCC特征值输入所述流派判断模型,得到一个流派值;
所述音乐播放完毕后,得到多个流派值,取出现次数最多的一个流派值为所述音乐的更新后的流派信息。
6.一种根据权利要求1-5任一所述的音乐自适应音效调整方法的音乐自适应音效调整系统,其特征在于,包括:
选择单元,用于当开始播放任一首次播放的音乐,根据所述音乐的音乐标签中的流派信息选择对应的音效;
流派分类模型,用于在音乐播放过程中,对所述音乐进行歌曲流派识别,得到最新的流派信息。
7.根据权利要求6所述的音乐自适应音效系统,其特征在于,所述音乐自适应音效调整系统还包括:
数据库,用于存储音乐的音乐标签,所述音乐标签包括流派信息和对应的音效。
8.根据权利要求7所述的音乐自适应音效系统,其特征在于,所述流派分类模型包括:
预处理模块,用于对训练数据集和测试数据集中的每一首音乐进行MFCC特征提取;
训练模块,用于利用所述训练数据集与对应的MFCC特征值对深度学习模型进行训练,得到训练后的深度学习模型;
测试模块,用于利用所述测试数据集与对应的MFCC特征值对所述训练后的深度学习模型进行测试和调整,得到所述流派分类模型。
9.一种音乐自适应音效调整软件,其特征在于,所述音乐自适应音效调整软件采用如权利要求1-5任一项所述的音乐自适应音效调整方法以完成音乐自适应音效调整。
10.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5任一项所述的音乐自适应音效调整方法。
CN202311534302.2A 2023-11-17 2023-11-17 一种音乐自适应音效调整方法、系统、软件及设备 Pending CN117591062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311534302.2A CN117591062A (zh) 2023-11-17 2023-11-17 一种音乐自适应音效调整方法、系统、软件及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311534302.2A CN117591062A (zh) 2023-11-17 2023-11-17 一种音乐自适应音效调整方法、系统、软件及设备

Publications (1)

Publication Number Publication Date
CN117591062A true CN117591062A (zh) 2024-02-23

Family

ID=89914402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311534302.2A Pending CN117591062A (zh) 2023-11-17 2023-11-17 一种音乐自适应音效调整方法、系统、软件及设备

Country Status (1)

Country Link
CN (1) CN117591062A (zh)

Similar Documents

Publication Publication Date Title
JP7335062B2 (ja) 音声サービス提供方法および装置
CN107832434B (zh) 基于语音交互生成多媒体播放列表的方法和装置
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US7392477B2 (en) Resolving metadata matched to media content
US7349848B2 (en) Communication apparatus and system acting on speaker voices
US7650563B2 (en) Aggregating metadata for media content from multiple devices
US20050276570A1 (en) Systems, processes and apparatus for creating, processing and interacting with audiobooks and other media
JP5594532B2 (ja) 情報処理装置および方法、情報処理システム、並びに、プログラム
CN101160615A (zh) 音乐内容重放设备和音乐内容重放方法
CN104471512A (zh) 内容定制化
CN109074821A (zh) 言语至文本增强媒体编辑
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
CN111046226A (zh) 一种音乐的调音方法及装置
CN112086082A (zh) 电视k歌的语音交互方法、电视和存储介质
EP1652180A2 (fr) Procede de reproduction de documents audio a l'aide d'une interface presentant des groupes de documents, et appareil de reproduction associe
CN106775567B (zh) 一种音效匹配方法及系统
JP2003084783A (ja) 音楽データ再生装置、音楽データ再生方法、音楽データ再生プログラム、並びに音楽データ再生プログラムを記録した記録媒体
CN112784073A (zh) 车机的外部多媒体资源的整合方法和计算机存储介质
CN117591062A (zh) 一种音乐自适应音效调整方法、系统、软件及设备
US8595266B2 (en) Method of suggesting accompaniment tracks for synchronised rendering with a content data item
CN110532419B (zh) 一种音频的处理方法及装置
CN114281952A (zh) 一种用户意图分析方法及装置
KR20190009821A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
KR102598242B1 (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination