CN113793623B - 音效设置方法、装置、设备以及计算机可读存储介质 - Google Patents

音效设置方法、装置、设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN113793623B
CN113793623B CN202110945754.4A CN202110945754A CN113793623B CN 113793623 B CN113793623 B CN 113793623B CN 202110945754 A CN202110945754 A CN 202110945754A CN 113793623 B CN113793623 B CN 113793623B
Authority
CN
China
Prior art keywords
audio
target
sound effect
value
effect setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110945754.4A
Other languages
English (en)
Other versions
CN113793623A (zh
Inventor
包静
曾轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Music Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Music Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Music Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110945754.4A priority Critical patent/CN113793623B/zh
Publication of CN113793623A publication Critical patent/CN113793623A/zh
Application granted granted Critical
Publication of CN113793623B publication Critical patent/CN113793623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种音效设置方法、装置、设备以及计算机可读存储介质,所述方法包括:获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频;将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到;获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。本发明提高了用户的听歌体验。

Description

音效设置方法、装置、设备以及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种音效设置方法、装置、设备以及计算机可读存储介质。
背景技术
现在的音乐APP中几乎都有音效设置的功能,APP中会提供一些常用的音效,如“超重低音”等,也会提供方式让用户自己配置自己的均衡器。但大部分的用户不懂如何自己设置音效的,只能使用现有的APP提供的音效,但实际上,在不同的听歌场景听歌,用户对音效的需求不同,导致会出现如何选择适合当前听歌场景的音效的问题。
发明内容
本发明的主要目的在于提供一种音效设置方法、装置、设备以及计算机可读存储介质,旨在解决如何选择适合当前听歌场景的音效的问题。
为实现上述目的,本发明提供的一种音效设置方法,所述音效设置方法包括以下步骤:
获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频;
将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到;
获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
在一实施例中,所述提取所述目标音频的音频特征参数的步骤包括:
对所述目标音频进行采样得到多个音频片段;
分别提取各个所述音频片段的所述音频特征参数,所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个;
根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。
在一实施例中,所述根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数的步骤包括:
根据所述目标音频对应的各个所述音频片段的音频特征参数确定目标数值,并将所述目标数值作为所述目标音频的所述音频特征参数,所述目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。
在一实施例中,所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后,还包括:
保存所述目标音频对应的目标音效;
获取用户对目标音效的选择操作,则将所述目标音效应用于播放的音频数据或者视频数据中。
在一实施例中,所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后,还包括:
保存所述目标音频对应的目标音效;
确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度;
若所述相似度大于预设阈值,则将所述目标音效应用于当前播放的音频数据或者视频数据中。
在一实施例中,所述将所述音频特征参数输入预设的音效设置模型的步骤之前,还包括:
获取训练样本集,所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效;
根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型;
当训练后的所述神经网络模型收敛后,将训练后的所述神经网络模型作为所述音效设置模型并保存。
在一实施例中,所述根据多个所述音频特征参数以及所述音效训练预设的神经网络模型的步骤包括:
将所述训练样本集中的所述音频特征参数作为输入值依次输入所述神经网络模型的各个全连接层,其中,每个全连接层根据输入值以及所述全连接层的预设权重值以及预设激活函数得到所述全连接层的输出值,并将所述输出值输入至下一全连接层,直至最后一个全连接层;
获取最后一个全连接层的输出值;
根据预设的损失函数确定所述输出值与所述训练样本对应的真实值的损失值,根据所述损失值确定权重值;
根据所述权重值确定所述音效设置模型。
为实现上述目的,本发明还提供一种音效设置装置,所述音效设置装置包括:
获取模块,用于获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频;
输入模块,用于将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到;
设置模块,用于获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
为实现上述目的,本发明还提供一种音效设置设备,所述音效设置设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的音效设置程序,所述音效设置程序被所述处理器执行时实现如上所述的音效设置方法的各个步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有音效设置程序,所述音效设置程序被处理器执行时实现如上所述的音效设置方法的各个步骤。
本发明提供的一种音效设置方法、装置、设备以及计算机可读存储介质,获取用户的目标音频,提取目标音频的音频特征参数;将音频特征参数输入预设的音效设置模型;获取音效设置模型输出的各个预设音效的概率值,根据概率值在预设音效中选取目标音频对应的目标音效。通过目标音频确定贴合用户听的歌曲或者听歌环境的目标音效,提高用户的听歌体验。
附图说明
图1为本发明实施例涉及的音效设置设备的硬件结构示意图;
图2为本发明音效设置方法的第一实施例的流程示意图;
图3为本发明音效设置模型的结构示意图;
图4为本发明音效设置方法的第二实施例的步骤S10的细化流程示意图;
图5为本发明音效设置方法的第三实施例的流程示意图;
图6为本发明音效设置装置的逻辑结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取用户的目标音频,提取目标音频的音频特征参数;将音频特征参数输入预设的音效设置模型;获取音效设置模型输出的各个预设音效的概率值,根据概率值在预设音效中选取目标音频对应的目标音效。
通过目标音频确定贴合用户听的歌曲或者听歌环境的目标音效,提高用户的听歌体验。
作为一种实现方案,音效设置设备可以如图1所示。
本发明实施例方案涉及的是音效设置设备,音效设置设备包括:处理器101,例如CPU,存储器102,通信总线103。其中,通信总线103用于实现这些组件之间的连接通信。
存储器102可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1所示,作为一种计算机可读存储介质的存储器102中可以包括音效设置程序;而处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频;
将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到;
获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
在一实施例中,处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
对所述目标音频进行采样得到多个音频片段;
分别提取各个所述音频片段的所述音频特征参数,所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个;
根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。
在一实施例中,处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
根据所述目标音频对应的各个所述音频片段的音频特征参数确定目标数值,并将所述目标数值作为所述目标音频的所述音频特征参数,所述目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。
在一实施例中,处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
保存所述目标音频对应的目标音效;
获取用户对目标音效的选择操作,则将所述目标音效应用于播放的音频数据或者视频数据中。
在一实施例中,处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
保存所述目标音频对应的目标音效;
确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度;
若所述相似度大于预设阈值,则将所述目标音效应用于当前播放的音频数据或者视频数据中。
在一实施例中,处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
获取训练样本集,所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效;
根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型;
当训练后的所述神经网络模型收敛后,将训练后的所述神经网络模型作为所述音效设置模型并保存。
在一实施例中,处理器101可以用于调用存储器102中存储的音效设置程序,并执行以下操作:
将所述训练样本集中的所述音频特征参数作为输入值依次输入所述神经网络模型的各个全连接层,其中,每个全连接层根据输入值以及所述全连接层的预设权重值以及预设激活函数得到所述全连接层的输出值,并将所述输出值输入至下一全连接层,直至最后一个全连接层;
获取最后一个全连接层的输出值;
根据预设的损失函数确定所述输出值与所述训练样本对应的真实值的损失值,根据所述损失值确定权重值;
根据所述权重值确定所述音效设置模型。
基于上述音效设置设备的硬件构架,提出本发明音效设置方法的实施例。
参照图2,图2为本发明音效设置方法的第一实施例,所述音效设置方法包括以下步骤:
步骤S10,获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频。
具体的,目标音频包括歌曲音频或者现场的环境音频,歌曲音频可以是用户正在播放的歌曲;环境音频中至少包括歌曲,示例性的,当用户处于歌剧院观看音乐剧时,可以获取音乐剧的歌曲作为环境音频。
提取目标音频的音乐特征参数,其中,音乐特征参数包括MFCC(Mel-FrequencyCepstral Coefficients,梅尔倒谱系数)特征、色度频率值、频谱中心值、频谱带宽值、频谱滚降点、过零率以及均方根值等。
步骤S20,将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到。
具体的,将音频特征参数输入预设的音效设置模型。其中,音效设置模型用于确定目标音频对应的音效。如图3所示,音效设置模型可以包括五层全连接层,当音频特征参数为a个特征参数时,每层全连接层对应的神经元数量可以分别为a、256、128、64以及k,其中k是可以切换的音效的数量。
步骤S30,获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
具体的,获取音效设置模型输出的各个预设音效的概率值,概率值表示目标音频属于各个预设音效的可能性。根据概率值在预设音效中选取目标音频对应的目标音效,可以是选取大于预设阈值的概率值对应的预设音效并输出,用户在输出的预设音效中选取目标音效;也可以是选取最大概率值对应的预设音效作为目标音频对应的目标音效。
根据概率值在预设音效中选取目标音频对应的目标音效之后,可以保存目标音频对应的目标音效,在用户需要听歌或者看视频时,可以获取用户对目标音效的选择操作,则将目标音效应用于音频数据或者视频数据中。
根据概率值在预设音效中选取目标音频对应的目标音效之后,可以保存目标音频对应的目标音效;确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度;若相似度大于预设阈值,则将目标音效应用于当前播放的音频数据或者视频数据中,避免对相似度较大的音频参数进行多次计算,节省了计算资源。
在本实施例的技术方案中,获取用户的目标音频,提取目标音频的音频特征参数;将音频特征参数输入预设的音效设置模型;获取音效设置模型输出的各个预设音效的概率值,根据概率值在预设音效中选取目标音频对应的目标音效。通过目标音频确定目标音效,目标音效贴合用户听的歌曲或者听歌的环境,提高用户的听歌体验。
参照图4,图4为本发明音效设置方法的第二实施例,基于第一实施例,所述步骤S10包括:
步骤S11,对所述目标音频进行采样得到多个音频片段;
步骤S12,分别提取各个所述音频片段的所述音频特征参数,所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个;
步骤S13,根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。
具体的,对目标音频进行采样得到多个音频片段,示例性的,按照预设时长以及预设采样率对目标音频进行采样得到多个音频片段,其中,预设时长可以为30秒,采样率可以为22k,采样得到的音频片段不足30秒的可以删除。采样得到的音频片段为一维向量,一维向量中的数值代表音频片段的信息。
分别提取音频片段的音频特征参数,音频特征参数包括梅尔倒谱特征、色度频率值、频谱中心值、频谱带宽值、频谱滚降点、过零率或者均方根值等参数。其中,色度频率值为将目标音频频谱投影到12个区间,每个区间代表一帧音频12个音级的能量,将同一时间、同一音级、不同八度的音符能量进行累加的值。频率中心值用于度量频谱中心,值越大表示信号的高频成分越多。频谱带宽值反映音频信号频率的变化范围,带宽越大则信号频率的变化范围越大。频谱滚降点是信号形状的度量,频谱滚降点为一个频率值,比该频率低的频率的所有能量,占整个频谱的能量的85%。过零率是指信号符号变化的比率,即在每帧中语音信号从正变为负或从负变为正的次数。
目标音频的特征参数与音频片段的音频特征参数的维度相同,示例性的,当音频片段的音频特征参数包括梅尔倒谱特征、色度频率值以及频谱中心值三个维度,目标音频的特征参数也包括梅尔倒谱特征、色度频率值以及频谱中心值三个维度。
根据各个音频片段的音频特征参数确定目标音频的音频特征参数,可以是选取各个音频片段的音频特征参数的中间值,根据中间值确定音频片段的音频特征参数。
根据目标音频对应的各个音频片段的音频特征参数确定目标数值,并将目标数值作为目标音频的音频特征参数,目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。示例性的,当目标数值为平均值时,将目标音频对应的各个音频片段的音频特征参数取平均值,并将平均值作为目标音频的音频特征参数。示例性的,当音频特征参数分别为频谱中心值、频谱带宽值以及频谱滚降点时,将目标音频对应的各个音频片段的频谱中心值取平均值,将目标音频对应的各个音频片段的频谱带宽值取平均值,将目标音频对应的各个音频片段的频谱滚降点取平均值,将上述取得的平均值均作为目标音频的音频特征参数。
在本实施例的技术方案中,对目标音频进行采样得到多个音频片段;分别提取各个音频片段的音频特征参数,根据各个音频片段的音频特征参数确定目标音频的音频特征参数。通过各个音频片段的音频特征参数确定目标音频的音频特征参数,使得得到的目标音频的音频特征参数更加准确。
参照图5,图5为本发明音效设置方法的第三实施例,基于第一或第二实施例,所述步骤S20之前,还包括:
步骤S40,获取训练样本集,所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效;
步骤S50,根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型;
步骤S60,当训练后的所述神经网络模型收敛后,将训练后的所述神经网络模型作为所述音效设置模型并保存。
具体的,在将音频特征参数输入预设的音效设置模型之前,还可以需要训练神经网络模型得到音效设置模型,获取训练样本集,其中,训练样本集包括多个历史音频的音频特征参数以及音频特征参数对应的音效;其中,训练神经网络模型的音频特征参数可以用n×m的矩阵表示,其中,n表示用于训练的训练音频的数量,m表示每个训练音频的音频特征参数。根据多个音频特征参数以及音效训练预设的神经网络模型,可以通过批量梯度下降和/或随机梯度下降等方式计算出每个全连接层的神经元之间的权重值。当训练后的神经网络模型收敛后,将训练后的神经网络模型作为音效设置模型并保存。
将训练样本集中的音频特征参数作为输入值依次输入神经网络模型的各个全连接层,每个全连接层根据输入值以及全连接层的预设权重值以及预设激活函数得到当前全连接层的输出值,并将输出值输入至下一全连接层,直至最后一个全连接层,获取最后一个全连接层的输出值;根据预设的损失函数确定输出值与训练样本对应的真实值的损失值,根据损失值确定权重值;根据权重值确定音效设置模型。示例性的,如图3所示,全连接层的层数为5层,每层全连接层对应的神经元数量可以分别为a、256、128、64以及k,其中,a为音频特征参数的数量,k是可以切换的音效的数量。每层全连接层的神经元之间的每条边具有一个权重值,每个神经元的值的计算公式如下所示:
g(hj)=max(0,hj);
其中,aj表示当前全连接层的神经元的输出值,ωij表示上一层各神经元到当前神经元的权重值,xij表示第i层的第j个神经元的值,M表示第i层的神经元的总个数。g(hj)表示激活函数,示例性的,激活函数可采用Relu等函数。
在本实施例的技术方案中,获取训练样本集,根据训练样本集中的多个音频特征参数以及音效训练预设的神经网络模型;当训练后的神经网络模型收敛后,将训练后的所述神经网络模型作为音效设置模型并保存。进行模型训练得到音效设置模型,通过音效设置模型确定目标音频对应的目标音效,提高了对用户推荐的目标音效的准确性。
参照图6,本发明还提供一种音效设置装置,所述音效设置装置包括:
获取模块100,用于获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频;
输入模块200,用于将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到;
设置模块300,用于获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
在一实施例中,在提取所述目标音频的音频特征参数方面,所述获取模块100具体用于:
对所述目标音频进行采样得到多个音频片段;
分别提取各个所述音频片段的所述音频特征参数,所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个;
根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。
在一实施例中,在根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数方面,所述获取模块100具体用于:
根据所述目标音频对应的各个所述音频片段的音频特征参数确定目标数值,并将所述目标数值作为所述目标音频的所述音频特征参数,所述目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。
在一实施例中,在根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效方面,所述设置模块300具体用于:
将最大的所述概率值对应的所述预设音效作为所述目标音频对应的所述目标音效。
在一实施例中,在根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效方面,所述设置模块300具体用于:
保存所述目标音频对应的目标音效;
获取用户对目标音效的选择操作,则将所述目标音效应用于播放的音频数据或者视频数据中。
在一实施例中,将所述音频特征参数输入预设的音效设置模型方面,所述设置模块300具体用于:
在根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效方面,所述:
保存所述目标音频对应的目标音效;
确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度;
若所述相似度大于预设阈值,则将所述目标音效应用于当前播放的音频数据或者视频数据中。
在一实施例中,在将所述音频特征参数输入预设的音效设置模型方面,所述输入模块200具体用于:
获取训练样本集,所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效;
根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型;
当训练后的所述神经网络模型收敛后,将训练后的所述神经网络模型作为所述音效设置模型并保存。
在一实施例中,在根据多个所述音频特征参数以及所述音效训练预设的神经网络模型方面,所述输入模块200具体用于:
将所述训练样本集中的所述音频特征参数作为输入值依次输入所述神经网络模型的各个全连接层,其中,每个全连接层根据输入值以及所述全连接层的预设权重值以及预设激活函数得到所述全连接层的输出值,并将所述输出值输入至下一全连接层,直至最后一个全连接层;
获取最后一个全连接层的输出值;
根据预设的损失函数确定所述输出值与所述训练样本对应的真实值的损失值,根据所述损失值确定权重值;
根据所述权重值确定所述音效设置模型。
本发明还提供一种音效设置设备,所述音效设置设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的音效设置程序,所述音效设置程序被所述处理器执行时实现如上实施例所述的音效设置方法的各个步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有音效设置程序,所述音效设置程序被处理器执行时实现如上实施例所述的音效设置方法的各个步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、系统、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、系统、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、系统、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例系统可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,停车管理设备,空调器,或者网络设备等)执行本发明各个实施例所述的系统。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种音效设置方法,其特征在于,所述音效设置方法包括:
获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频,所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个;
将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到的神经网络模型;
获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
2.如权利要求1所述的音效设置方法,其特征在于,所述提取所述目标音频的音频特征参数的步骤包括:
对所述目标音频进行采样得到多个音频片段;
分别提取各个所述音频片段的所述音频特征参数;
根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。
3.如权利要求2所述的音效设置方法,其特征在于,所述根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数的步骤包括:
根据所述目标音频对应的各个所述音频片段的音频特征参数确定目标数值,并将所述目标数值作为所述目标音频的所述音频特征参数,所述目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。
4.如权利要求1所述的音效设置方法,其特征在于,所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后,还包括:
保存所述目标音频对应的目标音效;
获取用户对目标音效的选择操作,则将所述目标音效应用于播放的音频数据或者视频数据中。
5.如权利要求1所述的音效设置方法,其特征在于,所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后,还包括:
保存所述目标音频对应的目标音效;
确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度;
若所述相似度大于预设阈值,则将所述目标音效应用于当前播放的音频数据或者视频数据中。
6.如权利要求1所述的音效设置方法,其特征在于,所述将所述音频特征参数输入预设的音效设置模型的步骤之前,还包括:
获取训练样本集,所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效;
根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型;
当训练后的所述神经网络模型收敛后,将训练后的所述神经网络模型作为所述音效设置模型并保存。
7.如权利要求6所述的音效设置方法,其特征在于,所述根据多个所述音频特征参数以及所述音效训练预设的神经网络模型的步骤包括:
将所述训练样本集中的所述音频特征参数作为输入值依次输入所述神经网络模型的各个全连接层,其中,每个全连接层根据输入值以及所述全连接层的预设权重值以及预设激活函数得到所述全连接层的输出值,并将所述输出值输入至下一全连接层,直至最后一个全连接层;
获取最后一个全连接层的输出值;
根据预设的损失函数确定所述输出值与所述训练样本对应的真实值的损失值,根据所述损失值确定权重值;
根据所述权重值确定所述音效设置模型。
8.一种音效设置装置,其特征在于,所述音效设置装置包括:
获取模块,用于获取用户的目标音频,提取所述目标音频的音频特征参数,所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频,所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个;
输入模块,用于将所述音频特征参数输入预设的音效设置模型,所述音效设置模型由用户的历史音频训练得到的神经网络模型;
设置模块,用于获取所述音效设置模型输出的各个预设音效的概率值,根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效,以按照所述目标音效播放音频数据或者视频数据。
9.一种音效设置设备,其特征在于,所述音效设置设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的音效设置程序,所述音效设置程序被所述处理器执行时实现如权利要求1-7任一项所述的音效设置方法的各个步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有音效设置程序,所述音效设置程序被处理器执行时实现如权利要求1-7任一项所述的音效设置方法的各个步骤。
CN202110945754.4A 2021-08-17 2021-08-17 音效设置方法、装置、设备以及计算机可读存储介质 Active CN113793623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110945754.4A CN113793623B (zh) 2021-08-17 2021-08-17 音效设置方法、装置、设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110945754.4A CN113793623B (zh) 2021-08-17 2021-08-17 音效设置方法、装置、设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113793623A CN113793623A (zh) 2021-12-14
CN113793623B true CN113793623B (zh) 2023-08-18

Family

ID=78876161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110945754.4A Active CN113793623B (zh) 2021-08-17 2021-08-17 音效设置方法、装置、设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113793623B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023230782A1 (zh) * 2022-05-30 2023-12-07 北京小米移动软件有限公司 一种音效控制方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205754811U (zh) * 2016-05-12 2016-11-30 惠州Tcl移动通信有限公司 移动终端及其音频处理系统
CN107590152A (zh) * 2016-07-07 2018-01-16 乐视控股(北京)有限公司 一种调节音频的音效模式的方法及装置
CN109286862A (zh) * 2018-07-31 2019-01-29 咪咕音乐有限公司 信息处理方法及装置、电子设备及存储介质
CN111383619A (zh) * 2020-03-05 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种音效生成方法、装置、设备和计算机可读存储介质
CN111796790A (zh) * 2019-04-09 2020-10-20 深圳市冠旭电子股份有限公司 一种音效调节方法、装置、可读存储介质及终端设备
CN113127678A (zh) * 2021-04-23 2021-07-16 广州酷狗计算机科技有限公司 音频处理方法、装置、终端及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200236456A1 (en) * 2019-01-22 2020-07-23 Marc N. Gallo Headphones for processing microphone, musical instrument, and audio signals
US10847186B1 (en) * 2019-04-30 2020-11-24 Sony Interactive Entertainment Inc. Video tagging by correlating visual features to sound tags

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205754811U (zh) * 2016-05-12 2016-11-30 惠州Tcl移动通信有限公司 移动终端及其音频处理系统
CN107590152A (zh) * 2016-07-07 2018-01-16 乐视控股(北京)有限公司 一种调节音频的音效模式的方法及装置
CN109286862A (zh) * 2018-07-31 2019-01-29 咪咕音乐有限公司 信息处理方法及装置、电子设备及存储介质
CN111796790A (zh) * 2019-04-09 2020-10-20 深圳市冠旭电子股份有限公司 一种音效调节方法、装置、可读存储介质及终端设备
CN111383619A (zh) * 2020-03-05 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种音效生成方法、装置、设备和计算机可读存储介质
CN113127678A (zh) * 2021-04-23 2021-07-16 广州酷狗计算机科技有限公司 音频处理方法、装置、终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的影视音效识别分类研究;吴昊;《电声技术》;全文 *

Also Published As

Publication number Publication date
CN113793623A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
US10178228B2 (en) Method and apparatus for classifying telephone dialing test audio based on artificial intelligence
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
CN112017681B (zh) 定向语音的增强方法及系统
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN113327626B (zh) 语音降噪方法、装置、设备及存储介质
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
CN110797031A (zh) 语音变音检测方法、系统、移动终端及存储介质
CN111179915A (zh) 基于语音的年龄识别方法及装置
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
CN113793623B (zh) 音效设置方法、装置、设备以及计算机可读存储介质
CN112967738A (zh) 人声检测方法、装置及电子设备和计算机可读存储介质
CN110428835A (zh) 一种语音设备的调节方法、装置、存储介质及语音设备
CN111259189B (zh) 一种音乐分类方法及装置
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN111785302A (zh) 说话人分离方法、装置及电子设备
CN110136741A (zh) 一种基于多尺度上下文的单通道语音增强方法
CN113194210B (zh) 一种语音通话接入方法及装置
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN112712792A (zh) 一种方言识别模型的训练方法、可读存储介质及终端设备
CN113593604A (zh) 检测音频质量方法、装置及存储介质
WO2021051533A1 (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant