CN108766451B - 一种音频文件处理方法、装置和存储介质 - Google Patents

一种音频文件处理方法、装置和存储介质 Download PDF

Info

Publication number
CN108766451B
CN108766451B CN201810552045.8A CN201810552045A CN108766451B CN 108766451 B CN108766451 B CN 108766451B CN 201810552045 A CN201810552045 A CN 201810552045A CN 108766451 B CN108766451 B CN 108766451B
Authority
CN
China
Prior art keywords
audio
audio file
value corresponding
sorting
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810552045.8A
Other languages
English (en)
Other versions
CN108766451A (zh
Inventor
孔令城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201810552045.8A priority Critical patent/CN108766451B/zh
Publication of CN108766451A publication Critical patent/CN108766451A/zh
Application granted granted Critical
Publication of CN108766451B publication Critical patent/CN108766451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种音频文件处理方法,其中所述音频文件处理方法包括:获取音频集合,所述音频集合包括多个音频文件,所述音频集合根据音频属性进行划分;将每个所述音频文件分割为M个音频帧,其中M为大于等于2的正整数;分别提取每个所述音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;将每个所述音频帧的多个所述特征组合输入预设模型,以得到每个所述音频文件的排序值;根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件。对于一组内容相同、音质不同的音频文件,能够准确快速的识别音频文件的音质,有利于曲库的优化。

Description

一种音频文件处理方法、装置和存储介质
技术领域
本发明涉及多媒体技术领域,具体涉及一种音频文件处理方法、装置和存储介质。
背景技术
随着互联网的快速发展,多媒体领域也在日趋发展,用户不仅可以从多媒体领域获取信息,也可以从多媒体领域体验视听效果。其中多媒体包括视频和音乐。以音乐为例,音质的优劣会决定歌曲的听觉效果。优良的音质会使听觉效果更有真实感,没有其他外在因素的修饰,极具有在现场身临其境的感觉。而劣质的音质会使听觉效果没有真实感,也无法有在现场身临其境的感觉,所以用户往往会选择含有优良音质的歌曲去感受听觉效果。
在对现有技术的研究和实践过程中,本发明的发明人发现,在音乐曲库中,有大量歌曲的音频文件是同样的内容,即使保留一份同样的内容的音频文件,也不知道保留的音频文件是优是劣,这里相同内容可以指同一首歌曲或者同一首器乐歌曲所存在音质的不同。
目前,从多个同样内容的音频文件中选择优质的音质的方法,在实践中容易产生偏差,影响曲库的优化。
发明内容
本发明实施例提供一种音频文件处理方法、装置和存储介质,目的是对于一组内容相同、音质不同的音频文件,能够准确快速的识别音频文件的音质,有利于曲库的优化。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种音频文件处理方法、装置和存储介质,包括:
获取音频集合,所述音频集合包括多个音频文件,所述音频集合根据音频属性进行划分;
将每个所述音频文件分割为M个音频帧,其中M为大于等于2的正整数;
分别提取每个所述音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;
将每个所述音频帧的多个所述特征组合输入预设模型,以得到每个所述音频文件的排序值;
根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种音频文件处理装置,包括:
获取单元,用于获取音频集合,所述音频集合包括多个音频文件,所述音频文件集合根据音频属性进行划分;
分割单元,用于将所述每个音频文件分割为M个音频帧,其中M为大于等于2的正整数;
提取单元,用于分别提取每个所述音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;
输入单元,用于将每个所述音频帧的多个所述特征组合输入预设模型,以得到每个所述音频文件的排序值;
确定单元,用于根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件。
一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述所述的音频文件处理方法中的步骤。
相对于现有技术,本发明实施例,获取音频集合,所述音频集合包括第多个音频文件,所述音频集合根据音频属性进行划分。因为音频集合中包括的是有着相同内容的音频文件,将相同内容的音频文件放到一个音频集合中,方便了后面的标注或者特征提取等,节省计算成本。不用每次从大量音频文件去寻找有相同内容的音频文件,减少了查找时间。将每个所述音频文件分割为M个音频帧,其中M为大于等于2的正整数。将每个音频文件分割成M个音频帧节省计算率,可以更准确获取排序值。分别提取每个所述音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。选取的频谱明亮度、第一频谱滚降和第二频谱滚降可以更大化的等价用户的主观感觉。将每个所述音频文件的多个所述特征组合输入预设模型,以得到每个所述音频文件的排序值。利用排序值可以更准确快速的识别音频文件的音质。根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件。最后得到的目标音频文件,就想当与筛选得到了优良音质的音频文件,并且有利于曲库的优化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的音频文件处理方法的场景示意图;
图2是本发明实施例提供的音频文件处理方法的流程示意图;
图3是本发明实施例提供的音频文件处理方法的另一流程示意图;
图4是本发明实施例提供的音频文件处理方法的另一流程示意图;
图5是本发明实施例提供的音频文件处理方法的另一流程示意图;
图6是本发明实施例提供的音频文件处理方法的另一流程示意图;
图7是本发明实施例提供的音频文件处理装置的结构示意图;
图8是本发明实施例提供的音频文件处理装置的另一结构示意图;
图9是本发明实施例提供的音频文件处理装置的另一结构示意图;
图10是本发明实施例提供的音频文件处理装置的另一结构示意图;
图11是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语「单元」可看作为在该运算系统上执行的软件对象。本文所述的不同组件、单元、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本发明实施例提供一种音频文件处理方法、装置和存储介质,以下分别进行详细说明。
参见图1,该图为本发明实施例所提供的音频文件处理方法的场景示意图。
首先,服务器获取音频集合,该音频集合包括多个音频文件,该音频集合根据音频属性进行划分。在对音频集合进行处理之前,音频集合的多个音频文件已经在获取之前就建立完成。服务器只需接收指令后,调取早已经建立在服务器的音频集合,并且对音频集合进行处理。然后,服务器先对音频文件分割为M个音频帧,再将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。随后,根据每个音频文件的排序值从该音频集合中确定出音质最好的目标音频文件。
在获取音频集合之前,需要对多个样本音频文件进行训练,以生成训练模型。在模型训练场景中,对多个音频集合提取特征值和对每个样本音频文件的每个样本音频帧进行标注,然后将提取特征得到的特征组合和标注音频文件得到的分数不断的训练,得到最终的预设模型。而这个模型在后面的排序中直接输入特征组合,就可以得到排序值。服务器只需在获取音频集合之前就建立好模型,等待服务器接收指令时,应用模型就可以获得排序值。这样得到目标音频文件之后,服务器直接发送给终端,当用户点击播放按钮,目标文件就可以通过界面播放,其中界面包括网页、浏览器、音乐界面等等。
请参阅图2,图2是本发明实施例提供的音频文件处理方法的流程示意图,所述方法包括:
在步骤S101中,服务器获取音频集合,该音频集合包括多个音频文件,该音频集合根据音频属性进行划分。
首先,该音频集合里面含有相同内容的音频文件,并且音频集合中不光只有一个音频文件,所以音频集合里有多个音频文件。该音频集合根据音频属性进行划分,该音频属性是流派且流派分为古典、民谣、爵士、摇滚和轻音乐等。根据以上作出例子。比如,先以古典、民谣、爵士、摇滚和轻音乐这5个不同流派为例,找出5个流派中每个流派20组同歌,每组5首不同音质的歌曲,共500个歌曲,选取其中一组同歌作为多个的音频文件。对于相同的内容的音频文件,就比如器乐歌曲,歌曲使用的乐器相同,声调相同和节奏相同等等,但是主要是音质不同。因为音质优良的歌曲更具有现场感,而劣质音质的歌曲没有真实感和现场感,所以音质的优劣并不会影响这两首歌具有相同内容。再比如,一个音质优良的XX歌曲和一个劣质的XX歌曲,这两首歌的不同只是音质的不同,音质优良的XX歌曲更具有现场感,而劣质音质的XX歌曲没有真实感和现场感,还会有许多杂音,那么这里的相同内容可以是歌词相同、音调相同等,只是这两首歌存在着听觉效果的差异,所以音质的优劣并不会影响这两首歌具有相同内容。
在一些实施例中,步骤S101之后将每个音频文件分割为M个音频帧,其中M为大于等于2的正整数。将每个音频文件分割为M个音频帧,是为了方便步骤S102和S103的计算。
在步骤S102中,服务器分别提取每个音频帧的多个特征组合。在步骤S103中,服务器将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。
其中,将每个音频文件分割为M个音频帧,可以将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。
在步骤S104中,服务器根据每个音频文件的排序值从音频集合中确定出目标音频文件。
可以理解的是,从预设模型中得到排序值后,可以对这些排序值进行排序,也可以直接挑选排序值最大的作为目标文件,对这些排序值进行排序也可以分为升序或者降序等等。比如进行升序,服务器就执行根据每一音频文件的排序值对音频集合中的多个音频文件进行升序排列,选取排序队列中位于队尾的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。选取排序队列中位于队尾的第三预设数量个音频文件的原因,是因为排序值越大,则音频文件的音质越好,而降序排列是队首的值最大,然后依次往下减少,所以选取位于队尾的第三预设设数量个音频文件。
再比如,根据每一音频文件的排序值对音频集合中的多个音频文件进行降序排列,选取排序队列中位于队首的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。选取排序队列中位于队首的第三预设数量个音频文件的原因,是因为排序值越大,则音频文件的音质越好。而升序排列是队尾的值最大,然后依次往上减小,所以选取位于队首的第三预设设数量个音频文件。
由上述可知,本实施例,首先服务器获取音频集合,该音频集合包括多个音频文件,所述音频集合根据音频属性进行划分。因为音频集合中包括的是有着相同内容的音频文件,将相同内容的音频文件放到一个音频集合中,方便了后面的标注或者特征提取等,节省计算成本,不用每次从大量音频文件去寻找有相同内容的音频文件,减少了查找时间。接着将每个音频文件分割为M个音频帧,其中M为大于等于2的正整数,在这之中节省后面的计算成本。然后分别提取每个音频帧的多个特征组合,将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。根据每个音频文件的排序值从音频集合中确定出目标音频文件,得到排序值不仅可以进行排序也可以直接保留排序值最大的,不局限是如何得到目标音频文件。但是都是通过排序值去筛选得到包含排序值最大的音频文件,使方法更加没有局限性,能够准确快速的给出音频的音质优劣序列。
请参阅图3,图3是本发明实施例提供的音频文件处理方法的另一流程示意图,所述方法包括:
在步骤S201中,服务器根据多个样本音频文件确定每个样本音频文件的频谱所处的频谱区间,根据每个样本音频文件的频谱区间获取每个样本音频文件对应的特征值。
可以理解的是,服务器先确定多个样本音频文件中每个样本音频文件的频谱所处的频谱区间,而频谱区间可以通过以频谱高度为主,频谱密度和主观感觉为辅建立,其中频谱高度是指一个音频文件的整体高度,单位为KHz。也可以说,一个音频文件播放过程中会以频率KHz为单位的曲线运行,该曲线以时间为横坐标,高度为以频率为单位的纵坐标,在任一时间点上曲线所对应的纵坐标的值,为这一个音频文件在该时间点上的高度值。因为整个音频文件的曲线几乎在同一高度值运行,这时可以认为这一个音频文件的频率高度就为该高度值。比如CD品质的歌曲的运行曲线的高度值一般在22.05KHz,那么CD品质的歌曲的频谱高度就为22.05KHz。确定每个样本音频文件的频谱高度之后,根据频谱高度对每组每个样本音频文件从低到高给出1到10分的评价,这里每组的音频文件的建立包括:
(11)获取N个音频文件,其中N为大于等于2的正整数;
(12)根据每个所述音频文件的音频属性将N个音频文件划分为多个音频集合。
那么,根据步骤11和12可以建立多个组的音频文件。N可以为500,当然可以随意设置。比如,先以古典、民谣、爵士、摇滚和轻音乐这5个不同流派为例,找出5个流派中每个流派20组同歌,每组5首不同音质的歌曲,共500个歌曲。因为频谱区间可以通过以频谱高度为主,频谱密度和主观感觉为辅建立,而且每个样本的音频文件的频谱高度已经确定,所以直接从频谱区间可以获得每个样本音频文件的分数。比如,频谱区间可以通过一个区间相差2的值去建立,则可以分为13KHz以下为1分;区间13到15KHz,与“主观感觉低”一起为2分;区间13到15KHz,与“主观感觉高”一起为3分;区间15到17KHz,与“主观感觉低”一起为4分;区间15到17KHz,与“主观感觉高”一起为5分,以此类推,到21KHz以上为10分。上述的主观感觉指的是用户的感受,比如音质的优劣会决定歌曲的听觉效果。优良的音质会使听觉效果更有真实感,没有其他外在因素的修饰,极具有在现场身临其境的感觉。而劣质的音质会使听觉效果没有真实感,也无法有在现场身临其境的感觉,所以用户往往会选择含有优良音质的歌曲去感受听觉效果
将频谱区间的建立完成后,那么可以根据每个样本音频文件所处的频谱区间获取每个样本音频文件对应的特征值。在获取每个样本音频文件对应的特征值之前,先将每组样本音频文件放入同一个文件夹,对每个样本音频文件重命名。以样本音频文件ID_评分命名,其中样本音频文件ID指歌曲的名字、歌手、链接地址和大小等,在这里可以用“歌曲文件_评分”命名。比如,第1组歌曲中,歌曲1.mp3的频谱高度为21KHz以上,那么歌曲1.mp3的评分为10分,则将歌曲1.mp3放入文件夹1中,并命名为1_10.mp3。
再比如,第2组歌曲中,歌曲2.mp3的频谱高度为13KHz以下,那么歌曲2.mp3的评分为1分,则将歌曲2.mp3放入文件夹2中,并命名为2_1.mp3。这里样本音频文件得到分数的过程,可以记为数据标注。
在步骤S202中,将每个样本音频文件分割为M个样本音频帧,其中M为大于等于2的正整数并且提取每个样本音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。
首先,以同一组的样本音频文件为例,先对同一组中的所有样本音频文件进行对齐,对齐方法使用互相关方法(互相关方法指的是利用信号的波形来计算两个信号之间的相似程度)。那么可以理解的是,对齐方法可以是,比如对于同一组的样本音频文件在某一时间点的歌词对齐;也可以是同一组的样本音频文件中每个样本音频文件的相同歌词,与该歌词在频谱中的时间点对齐。
然后,因为在S201步骤中,评测是以频谱高度为主要标准,那么对提取特征也以频谱的特征为主,所以步骤S202选取了频谱明亮度、第一频谱滚降和第二频谱滚降为主要特征。将频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值,作为一个特征组合。那么一个样本音频帧就可以得到对应的特征组合,其中频谱明亮度表示高于某个频率成分的能量所占整个频带的能量比,也描述了频谱高频能量的相对大小。那么这里可以通过计算得到特征组合中频谱明亮度对应的第一能量值,比如,以10KHz为分界点,10KHz以上的频率成分的能量值为E1,整个频谱的能量值为E,那么计算频谱明亮度的公式为B=E1/E。
再比如,以5KHz为分界点,5KHz以上的频率成分的能量值为E1,整个频谱的能量值为E,那么计算频谱明亮度的公式为B=E1/E。
然后,第一频谱滚降对应的第二能量值可以用频谱能量值占比在85%的时候,频谱达到的频谱值。85%的时候从一个样本音频文件的低频到高频计算得到能量值。当能量值达到一个样本音频文件的总能量的85%的时候,所对应的频谱值。
最后,第二频频谱滚降对应的第三能量值可以用频谱能量值占比95%的时候,频谱达到的频谱值。95%的时候也是从一个样本音频文件的低频到高频计算得到能量值。当能量值达到一个样本音频文件的总能量的95%的时候,所对应的频率值。
那么,就可以把频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值,作为一个样本音频文件的一个特征组合。因为计算频谱明亮度所选取的分界点不同或者其他因素,也会导致得到特征组合的值不同,这样就可以获得多个特征组合。这里的过程也可以说是特征提取。
在步骤S203中,将多个音频集合中每个音频文件对应的特征值,以及多个音频集合中的每个音频帧的多个特征组合作为训练数据,对训练数据进行训练,得到预设模型。
该训练数据为多个音频集合中每个样本音频文件对应的特征值,以及多个样本音频集合中的每个样本音频文件的M个音频帧的多个特征组合,并将该训练数据记为
Figure GDA0002637536660000101
i表示一组样本音频文件集合中的第几个音频文件,m表示这一组一共有m个样本音频文件,x(i)表示第i个样本音频文件的特征向量。其中特征向量可以包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。
Figure GDA0002637536660000102
Figure GDA0002637536660000103
表示得分的向量,也就是每个样本音频文件对应的特征值。
然后,服务器对训练数据进行训练,得到预设模型,其中得到预设模型的方法包括使用LTR中的(long terminal repeat,中文名长末端重复序列,是存在于LTR反转录转座子(LTRs)两侧翼的长末端重复序列。LTR一般说来有三类方法:单文档方法(Pointwise),文档对方法(Pairwise),文档列表方法(Listwise))的ListWise(文档列表方法)loss function函数(损失函数)。则loss function函数为
Figure GDA0002637536660000104
其中
Figure GDA0002637536660000105
Figure GDA0002637536660000106
gk表示top k歌曲的排序子集,
Figure GDA0002637536660000107
表示y(i)在g子集的概率,
Figure GDA0002637536660000108
表示zi在g子集的概率,
Figure GDA0002637536660000109
Figure GDA00026375366600001010
是一个排序函数,表示第i个样本音频文件排在目标样本音频文件1的分值,
Figure GDA00026375366600001011
Figure GDA00026375366600001012
组成一个向量,互相之间没有计算关系,也是为了对应于
Figure GDA00026375366600001013
向量。不过
Figure GDA00026375366600001014
可以理解为等效于一个检索系统,是对特征组合中包括的频谱明亮度、第一频谱滚降和第二频谱滚降特征等等,为“关键词”的检索系统,检索的相似性是以音质的优劣为标准的。对样本音频文件i进行检索,会返回n个样本音频文件,这里的n个样本音频文件是与服务器对正在检索的样本音频文件i有着相同内容。那么即
Figure GDA00026375366600001015
为第n个样本音频文件的排序值,也就说选取一个样本音频文件,对该样本音频文件进行检索,就会返回跟该样本音频文件有着相同内容的n个样本音频文件。对该n个样本音频文件求其排序值,则所以说
Figure GDA00026375366600001016
为第n个样本音频文件的排序值,把n个样本音频文件代入
Figure GDA0002637536660000111
就能得到N个样本音频文件的排序值。
对于
Figure GDA0002637536660000112
这个公式,将预设模型训练到可以使z(i)与y(i)的差异最小。也就说理想状态下,使z(i)与y(i)接近相等,那么也可以说,每个样本音频文件得到的排序值是标注值,也就是分数值。
那么,根据以上的算法,将训练数据代入公式中,就可以得到预设模型。在预设模型中,可以初步得到每个样本音频文件的排序值。
在步骤S21中服务器获取音频集合,该音频集合包括多个音频文件,所述音频集合根据音频属性进行划分。
首先,该音频集合里面含有相同内容的音频文件,并且音频集合中不光只有一个音频文件,所以音频集合里有多个的音频文件,其中音频属性为流派,流派包括:古典、民谣、爵士、摇滚和轻音乐等。比如,先以古典、民谣、爵士、摇滚和轻音乐这5个不同流派为例,找出5个流派中每个流派20组同歌,每组5首不同音质的歌曲,共500个歌曲,选取其中一组同歌作为第一数量个的音频文件。对于相同的内容的音频文件,就比如器乐歌曲,歌曲使用的乐器相同,声调相同和节奏相同等等,但是主要是音质不同。因为音质优良的歌曲更具有现场感,而劣质音质的歌曲没有真实感和现场感,所以音质的优劣并不会影响这两首歌具有相同内容。再比如,一个音质优良的XX歌曲和一个劣质的XX歌曲,这两首歌的不同只是音质的不同,音质优良的XX歌曲更具有现场感,而劣质音质的XX歌曲没有真实感和现场感,还会有许多杂音,那么这里的相同内容可以是歌词相同、音调相同等,只是这两首歌存在着听觉效果的差异,所以音质的优劣并不会影响这两首歌具有相同内容。
在步骤S22中,服务器先根据每个音频文件的频谱的能量特性将每个音频文件分割为M个音频帧,然后分别提取每个音频帧的多个特征组合。在步骤S103中,服务器将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。
可以理解的是,服务器对一个音频文件分成M帧,其中M大于等于2。每一个帧有一个对应的频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值等等。这里的帧可以指的是一个音频文件播放的时间,从开始到结束,或者以频谱来说从低频到高频,对于一个音频文件播放的时间划分为M个时间段,也可以说将音频文件的频谱划分成M个帧。计算出每个帧的总能量,应用傅立叶算法计算,且多少个帧取决于傅立叶算法份额窗长。比如1024点的傅里叶,可以得到512个帧。对M个帧确定一个分界点,然后对每个帧所确定的分界点,计算得到每个帧的频谱明亮度,或者对M个帧中的一个帧从低频到高频选取出频谱能量值占比在85%的时候,对应的频谱值,或者对M个帧中的一个帧从低频到高频选取出频谱能量值占比在95%的时候,对应的频谱值。
然后,M个帧中分别就得到出了多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降度对应的第二能量值和第二频谱滚降对应的第三能量值等等。
在步骤S23中,服务器将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。
可以理解的是,在步骤S22中已经得到了多个特征组合,那么就将每个音频帧的多个特征组合输入到预设模型中,其中从
Figure GDA0002637536660000121
获取每个音频文件的排序值。
得到多个特征组合还包括以下步骤:
(13)根据预设算法计算多个第一能量值对应的第一方差和第一均值;
其中,该预设算法可以根据实际应用的需求进行设置,比如决策树算法、贝叶斯算法、神经网络算法和深度学习算法等等,在此不再赘述。
(14)根据所述预设算法计算多个第二能量值对应的第二方差和第二均值;
(15)根据所述预设算法计算多个第三能量值对应的第三方差和第三均值;
将M个帧中的多个特征组合计算方差和均值,比如以频谱明亮度对应的第一能量值为例,将M个帧中的所有的频谱明亮度对应的第一能量值,计算方差和均值。因为M个帧中每个帧都有一个频谱明亮度对应的第一能量值,那么M个帧就有M个频谱明亮度对应的第一能量值。则就可以计算M个频谱明亮度对应的第一能量值的第一方差和第一均值。以此类推,计算第二频谱滚降对应第二能量值的第二方差和第二均值;第三频谱滚降对应的第三能量值的第三方差和第三均值。那么也可以默认提取了2M个特征值,M指的是特征数,也就是频谱明亮度,第一频谱滚降和第二频谱滚降。因为提取了3个特征,所以M就为3,将3代入2M中,就为6个特征值,以该6个特征值为例,那么这6个数就为,计算N帧中的频谱明亮度的得到的第一均值和第一方差,计算N帧中的第一频谱滚降得到的第二均值和第二方差和计算N帧中第二频谱滚降得到的第三均值和第三方差,如此就得到了6个特征值。以上M个帧、N个音频文件和2M个特征值是不同的性质并且代表的意义不同其中M、N和2M不是相同代表数量的字母。
在步骤S24中,将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值,且步骤S24包含了三种情况。请参阅图4、图5和图6。
第一种情况、请参阅图4,图4是本发明实施例提供的音频文件处理方法的另一流程示意图,步骤S24包括:
在步骤S241中,从多个排序值中确定出大于预设阈值的至少一个第一排序值和在步骤S242中,将第一排序值对应的音频文件确定为目标音频文件。
在步骤S241中根据每一音频文件的排序值对音频集合中的多个音频文件进行排序,以得到排序结果。
简单地说,在步骤S241中和步骤S242中都获得了每个音频文件的排序值,那么根据步骤S203,可以得到其实每个音频文件获得的排序值也是分数值,那么所以排序值越大,音质越好,所以在步骤242中,将第一排序值对应的音频文件确定为目标音频文件,就可以得到第一排序值是与同组音频文件中的排序值比较,得到的音质最好的排序值,那么含有第一排序值的音频文件就作为目标音频文件。
第二种情况、请参阅图5,图5是本发明实施例提供的音频文件处理方法的另一流程示意图,步骤S24包括:
在步骤S243中,从多个排序值中确定出大于预设阈值的至少一个第一排序值。在步骤S244中,根据每一音频文件的排序值对音频集合中的多个音频文件进行降序排列和在步骤S245中,将第一排序队列中位于队首的第三预设数量个音频文件确定为目标音频文件。
那么,这里做了对排序值的一个排序过程,可以将同一组的音频文件排序为降序排列。按照步骤S245中,选取排序队列中位于队首的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件,因为降序的排序值是第一个数为最大,然后依次往下减小,所以选取队首的第三预设数量个音频文件作为目标音频文件,比如,同组有5个音频文件,分别的排序值为10、4、6、5和8,那么按照降序就可以排序成,10、8、6、5和4,选取第三预设数量的音频文件,可以说如果选取一个音频文件,那么选取含有排序值10的为目标音频文件,就为目标音频文件,也就是队首排序值最大的音频文件,也可以说是音质最好的音频文件。
第三种情况、请参阅图6,图6是本发明实施例提供的音频文件处理方法的另一流程示意图,步骤S24包括:
在步骤S246中,从多个排序值中确定出大于预设阈值的至少一个第一排序值。在步骤S247中,根据每一音频文件的排序值对音频集合中的多个音频文件进行升序排列和在步骤S248中,将第一排序队列中位于队尾的第三预设数量个音频文件确定为目标音频文件。
那么,这里做了对排序值的一个排序过程,可以将同一组的音频文件排序为是升序排列。按照步骤S248中,选取排序队列中位于队尾的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件,因为升序的排序值是最后一个数为最大,然后依次往上增加,所以选取队尾的第三预设数量个音频文件作为目标音频文件,第三预设数量为大于等于1的正整数且其预设阈值为可以随意设定的数值,比如3。所以归类例子,比如,同组有5个音频文件,分别的排序值为10、4、6、5和8,那么按照升序就可以排序成,4、5、6、8和10,选取第三预设数量的音频文件,可以说如果选取一个音频文件,那么选取含有排序值10的为目标音频文件,就为目标音频文件,也就是队尾排序值最大的音频文件,也可以说是音质最好的音频文件。
由上述可知,本实施例,需先进行模型的训练,先对数据进行标注,就是确定多个样本音频文件中每个样本音频文件的频谱所处的频谱区间。根据每个样本音频文件所处的频谱区间获取每个样本音频文件对应的特征值,这里特征值是对音频文件从低到高给出的1到10分的评价,但是分数的评价也最大限度的接近用户的主观感受。然后将每个样本音频文件分割为M个样本音频帧,其中M为大于等于2的正整数。再提取每个样本音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。在提取特征组合之前选取了对齐的方法,也是为了保证防止样本音频文件之间差异的影响,减小后面计算的误差。
将多个样本音频集合中每个样本音频文件对应的特征值,以及多个样本音频集合中的每个样本音频帧的多个特征组合作为训练数据,对训练数据进行训练,得到预设模型,其中利用
Figure GDA0002637536660000151
公式,也是最大限度的使z(i)与y(i)接近相等。因为y(i)是标注数据得到的分数向量,z(i)是对于每样本音频文件的排序值,所以也可以说z(i)值为分数值,使预测值与实际值一致,也就是让Loss function(损失函数)达到极小值,减小误差。
然后,开始对音频文件进行排序,从多个排序值中确定出大于预设阈值的至少一个第一排序值,分别提取每个音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值,将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值,提取的特征组合都对谱明亮度进行计算得到第一方差和第一均值,第一频谱滚降进行计算得到第二方差和第二均值,第二频谱滚降进行计算得到第三方差和第三均值,也是为了得到排序值,便于减小误差。
将第一排序值对应的音频文件确定为目标音频文件,将第一排序值对应的音频文件确定为目标音频文件,或者根据每一音频文件的排序值对音频集合中的多个音频文件进行降序排列,选取排序队列中位于队首的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件,或者根据每一音频文件的排序值对音频集合中的多个音频文件进行升序排列,选取排序队列中位于队尾的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。对于选取的目标音频文件就可以为音质最好的音频文件,也准确快速的找出音频文件的音质优劣序列。
为便于更好的实施本发明实施例提供音频文件处理方法,本发明实施例还提供一种音频文件处理方法装置。其中名词的含义与上述图形界面的处理的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图7,图7是本发明实施例提供的音频文件处理装置的结构示意图,本发明所述音频文件处理装置可以包括第一获取单元301、分割单元302、提取单元303、输入单元304以及确定单元305。
其中,第一获取单元301,用于获取音频集合,音频集合包括第一数量个音频文件。
在获取单元中,该音频集合中第一数量个音频文件都有相同内容,服务器会将该音频集合进行筛选获取音质最好的音频文件。
在一些实施例中,音频文件处理方法装置还包括分割单元302,其分割单元,用于将每个音频文件分割为M个音频帧,其中M为大于等于2的正整数。
其后,提取单元303,用于分别提取每个音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。
每个特征组合根据频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值得到。首先要对一个音频文件分成M帧,其中M大于等于2,每一个帧有一个对应的频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值等等。这里的帧可以指的是一个音频文件播放的时间,从开始到结束,或者以频谱来说从低频到高频。对于一个音频文件播放的时间划分为M个时间段,也可以说将音频文件的频谱划分成M个帧,对M个帧确定一个分界点,然后对每个帧所确定的分界点,计算得到每个帧的频谱明亮度,或者对M个帧中的一个帧从低频到高频选取出频谱能量值占比在85%的时候,对应的频谱值,或者对N个帧中的一个帧从低频到高频选取出频谱能量值占比在95%的时候,对应的频谱值。
然后,M个帧中分别就得到出了多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降度对应的第二能量值和第二频谱滚降对应的第三能量值等等。将M个帧中的多个特征组合计算方差和均值,比如以频谱明亮度对应的第一能量值为例。将M个帧中的所有的频谱明亮度对应的第一能量值,计算第一方差和第一均值。因为M个帧中每个帧都有一个频谱明亮度对应的第一能量值,那么M个帧就有M个频谱明亮度对应的第一能量值,则就可以计算M个频谱明亮度对应的第第一能量值的第一方差和第一均值。以此类推,包括计算第一频谱滚降对应第二能量值的第二方差和第二均值,以及第二频谱滚降对应的第三能量值的第三方差和第三均值。
那么,输入单元304,用于将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。
可以理解的是,服务器得到了多个特征组合,那么就将每个音频帧的多个特征组合输入到预设模型中,就得到了每个音频文件对应的排序值。
最后,确定单元305,用于根据每个音频文件的排序值从音频集合中确定出目标音频文件。
可一并参考图8,为音频文件处理装置的另一结构示意图,其中音频文件处理装置包括第二获取单元4011;划分单元4012;训练单元4013;第一获取单元301;分割单元302、提取单元303;输入单元304;确定单元305包括确定第一子单元4014和排序第一子单元4015。
第二获取单元4011,用于获取N个音频文件,其中N为大于等于2的正整数;划分单元4012,用于根据每个音频文件的音频属性将N个音频文件划分为多个音频集合。
也就是说,服务器从大量的音频文件中,将相同内容的音频文件分到同一个音频集合中,相同的内容的音频文件,其中音频属性为流派,流派包括:古典、民谣、爵士、摇滚和轻音乐。比如,先以古典、民谣、爵士、摇滚和轻音乐这5个不同流派为例,找出5个流派中每个流派20组同歌,每组5首不同音质的歌曲,共500个歌曲,选取其中一组同歌作为第一数量个的音频文件。对于相同的内容的音频文件,就比如器乐歌曲,歌曲使用的乐器相同,声调相同和节奏相同等等,但是主要是音质不同。因为音质优良的歌曲更具有现场感,而劣质音质的歌曲没有真实感和现场感,所以音质的优劣并不会影响这两首歌具有相同内容。
再比如,一个音质优良的XX歌曲和一个劣质的XX歌曲,这两首歌的不同只是音质的不同,音质优良的XX歌曲更具有现场感,而劣质音质的XX歌曲没有真实感和现场感,还会有许多杂音,那么这里的相同内容可以是歌词相同、音调相同等,只是这两首歌存在着听觉效果的差异,所以音质的优劣并不会影响这两首歌具有相同内容。以上M个帧、N个音频文件和2M个特征值是不同的性质并且代表的意义不同其中M、N和2M不是相同代表数量的字母。
训练单元4013,用于:
根据多个样本音频文件确定每个样本音频文件的频谱所处的频谱区间;
根据每个样本音频文件的频谱区间获取每个样本音频文件对应的特征值;
根据每个所述样本音频文件的频谱的能量特性将每个样本音频文件分割为M个音频帧,其中M为大于等于2的正整数;
提取每个样本音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的能量值、第一频谱滚降对应的能量值和第二频谱滚降对应的能量值;
对多个样本音频文件中每个样本音频文件对应的特征值以及每个样本音频文件的每个音频帧的特征组合进行训练,得到预设模型。
可以理解的是,预设模型需要在得到排序值之前就已经建立,首先标注数据,那么就是先确定多个样本音频文件中每个样本音频文件的频谱所处的频谱区间,根据每个样本音频文件所处的频谱区间,获取每个样本音频文件对应的特征值,其实区间就是根据频谱高度为主,频谱密度和主观感觉为辅,对每组样本音频文件进行从低到高给出1到10分的评价,就能得到每个样本音频文件的分数值。
提取每个样本音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值,将多个音频集合中每个样本音频文件对应的特征值,以及多个音频集合中的每个样本音频帧的多个特征组合作为训练数据,对训练数据进行训练,得到预设模型。
其中,频谱明亮度表示高于某个频率成分的能量所占整个频带的能量比,也描述了频谱高频能量的相对大小,得到特征组合中频谱明亮度对应的第一能量值,可以通过计算得到,比如,以10KHz为分界点,10KHz以上的频率成分的能量值为E1,整个频谱的能量值为E,那么计算频谱明亮度的公式为B=E1/E。
然后,第一频谱滚降对应的第二能量值可以用频谱能量值占比在85%的时候,频谱达到的频谱值,85%的时候从一个音频文件的低频到高频计算能量,当能量达到总能量的85%的时候,所对应的频谱值。
最后,第二频频谱滚降对应的第三能量值可以用频谱能量值占比95%的时候,频谱达到的频谱值,95%的时候也是从一个音频文件的低频到高频计算能量,当能量达到总能量的95%的时候,所对应的频率值。
由上所述,就可以得到音频文件的特征组合,然后基于LTR方法就可以训练得到预设模型。
第一获取单元301,用于获取音频集合,音频集合包括多个音频文件。
在获取单元中,该音频集合中多个音频文件都有相同内容,服务器会将该音频集合进行筛选获取音质最好的音频文件。
其后,分割单元302,具体用于根据每个音频文件的频谱的能量特性将每个所述音频文件分割为M个音频帧和提取单元303,用于分别提取每个音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。
每个特征组合根据频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值得到。首先要对一个音频文件分成M帧,其中M大于等于2,每一个帧有一个对应的频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值等等。这里的帧可以指的是一个音频文件播放的时间,从开始到结束,或者以频谱来说从低频到高频。对于一个音频文件播放的时间划分为M个时间段,也可以说将音频文件的频谱划分成M个帧,对M个帧确定一个分界点,然后对每个帧所确定的分界点,计算得到每个帧的频谱明亮度,或者对M个帧中的一个帧从低频到高频选取出频谱能量值占比在85%的时候,对应的频谱值,或者对M个帧中的一个帧从低频到高频选取出频谱能量值占比在95%的时候,对应的频谱值。
然后,M个帧中分别就得到出了多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降度对应的第二能量值和第二频谱滚降对应的第三能量值等等。将M个帧中的多个特征组合计算方差和均值,比如以频谱明亮度对应的第一能量值为例。将M个帧中的所有的频谱明亮度对应的第一能量值,计算第一方差和第一均值。因为M个帧中每个帧都有一个频谱明亮度对应的第一能量值,那么M个帧就有M个频谱明亮度对应的第一能量值,则就可以计算M个频谱明亮度对应的第第一能量值的第一方差和第一均值。以此类推,包括计算第一频谱滚降对应第二能量值的第二方差和第二均值,以及第二频谱滚降对应的第三能量值的第三方差和第三均值。
那么,输入单元304,用于将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值。
可以理解的是,服务器得到了多个特征组合,那么就将每个音频文件帧的多个特征组合输入到预设模型中,就得到了每个音频文件对应的排序值。
最后,确定单元305包括确定第一确定子单元4014和第二确定子单元4015。
第一确定子单元4014,用于从多个所述排序值中确定出大于预设阈值的至少一个第一排序值和第二确定子单元4015,用于将所述第一排序值对应的音频文件确定为目标音频文件。
因为根据预设模型得到排序值接近于标注数据的分数值,那么可以理解分数值对应的是音质最好的音频文件,那么分数值越大音频文件的音质越好,则排序值越大,音频文件的音质越好,
确定单元304还可以有另两种情况:
第一种情况,请参阅图9,图9是本发明实施例提供的音频文件处理装置的另一结构示意图。
确定单元305包括确定第一排序子单元4014和第三确定子单元4015。第一排序子单元4014,用于根据每一音频文件的排序值对音频集合中的多个音频文件进行降序排列;第三确定子单元4015,用于选取排序队列中位于队首的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。
第二种情况,请参阅图10,图10是本发明实施例提供的音频文件处理装置另一结构示意图。
确定单元305包括确定第二排序子单元4014和第四确定子单元4015。第二排序子单元4014,用于根据每一音频文件的排序值对音频集合中的多个音频文件进行升序排列;第四确定子单元4015,用于选取排序队列中位于队尾的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。
由上述可知,本实施例,第一获取单元301,用于获取音频集合,音频集合包括多个音频文件,所述音频集合根据音频属性进行划分。将相同内容的音频文件放到一个音频集合中,方便了后面的标注或者特征提取等,节省计算成本,不用每次从大量音频文件去寻找有相同内容的音频文件,减少了查找时间。其中在获取单元301之前有第二获取单元4011,用于获取N个音频文件,其中N为大于等于2的正整数,划分单元4012,用于将根据每个音频文件的音频属性将N个音频文件划分为多个音频集合。
训练单元4013,用于确定多个样本音频文件中每个样本音频文件的频谱所处的频谱区间,根据每个样本音频文件所处的频谱区间,获取每个样本音频文件对应的特征值。这里特征值是对样本音频文件从低到高给出的1到10分的评价,但是分数的评价也最大限度的接近用户的主观感受。然后将每个样本音频文件分割为M个样本音频帧,并且提取每个样本音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。
在提取特征组合之前选取了对齐的方法,也是为了保证防止音频文件之间差异的影响,减小后面计算的误差。然后将多个样本音频集合中每个样本音频文件对应的特征值,以及多个样本音频集合中的每个样本音频帧的多个特征组合作为训练数据,对训练数据进行训练,得到预设模型。分割单元302,具体用于根据每个音频文件的频谱能量特性将每个音频文件划分为音频帧。提取单元303,用于分别提取每个音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值。输入单元304,用于将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值.确定单元305,用于根据每个音频文件的排序值从音频集合中确定出目标音频文件。
确定单元404包括确定第一确定子单元4014,用于从多个所述排序值中确定出大于预设阈值的至少一个第一排序值和第二确定子单元4015,用于将所述第一排序值对应的音频文件确定为目标音频文件。确定单元404还可以有两种情况,第一种情况,确定单元305包括确定第一排序子单元4014和第三确定子单元4015。第一排序子单元4014,用于根据每一音频文件的排序值对音频集合中的多个音频文件进行降序排列;第三确定子单元4015,用于选取排序队列中位于队首的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。第二种情况,确定单元305包括确定第二排序子单元4014和第四确定子单元4015。第二排序子单元4014,用于根据每一音频文件的排序值对音频集合中的多个音频文件进行升序排列;第四确定子单元4015,用于选取排序队列中位于队尾的第三预设数量个音频文件,将第三预设数量个音频文件确定为目标音频文件。将选取的目标音频文件就看作音质最好的音频文件,该方法是也准确快速的找出音频文件的音质优劣序列,有利于曲库的优化。
本发明实施例还提供一种服务器,如图11所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图11中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器402可用于存储软件程序以及模块,处理器501通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
服务器还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取音频集合,音频集合包括第一数量个音频文件;
分别提取每个音频文件的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;
将每个音频文件的多个特征组合输入预设模型,以得到每个音频文件的排序值;
根据每个音频文件的排序值从音频集合中确定出目标音频文件。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频文件处理方法中的步骤。例如,该指令可以执行如下步骤:
获取音频集合,音频集合包括多个音频文件,音频集合根据音频属性进行划分;
将每个音频文件分割为M个音频帧,其中M为大于等于2的正整数;
分别提取每个音频帧的多个特征组合,其中每个特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;
将每个音频帧的多个特征组合输入预设模型,以得到每个音频文件的排序值;
根据每个音频文件的排序值从音频集合中确定出目标音频文件。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种音频文件处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频文件处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种音频文件处理方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种音频文件处理方法,其特征在于,包括:
获取音频集合,所述音频集合包括多个音频文件,所述音频集合根据音频属性进行划分,所述音频属性为流派;
根据每个所述音频文件的频谱的能量特性将每个所述音频文件分割为M个音频帧,其中M为大于等于2的正整数;
分别提取每个所述音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;
将每个所述音频帧的第一能量值、第二能量值和第三能量值对应的方差和均值输入预设模型,以得到每个所述音频文件的排序值,所述预设模型为预先选取样本音频帧的频谱明亮度对应的能量值、第一频谱滚降对应的能量值和第二频谱滚降对应的能量值的多个特征组合,进行训练后得到的模型;
根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件。
2.根据权利要求1所述的音频文件处理方法,其特征在于,所述将每个所述音频帧的第一能量值、第二能量值和第三能量值对应的方差和均值输入预设模型,以得到每个所述音频文件的排序值,包括:
根据预设算法计算多个所述第一能量值对应的第一方差和第一均值;
根据所述预设算法计算多个所述第二能量值对应的第二方差和第二均值;
根据所述预设算法计算多个所述第三能量值对应的第三方差和第三均值;
分别将每个所述音频文件的所述第一方差、第一均值、第二方差、第二均值、第三方差以及第三均值输入预设模型,以得到每个所述音频文件的排序值。
3.根据权利要求1所述的音频文件处理方法,其特征在于,所述根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件,包括:
从多个所述排序值中确定出大于预设阈值的至少一个第一排序值;
将所述第一排序值对应的音频文件确定为目标音频文件。
4.根据权利要求1所述的音频文件处理方法,其特征在于,所述根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件,包括:
根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行排序,以得到排序结果;
根据所述排序结果从所述音频集合中确定出目标音频文件。
5.根据权利要求4所述的音频文件处理方法,其特征在于,根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行排序,包括:
根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行降序排列,以得到第一排序队列;
根据所述排序结果从所述音频集合中确定出目标音频文件,包括:
将所述第一排序队列中位于队首的第三预设数量个音频文件确定为目标音频文件。
6.根据权利要求4所述的音频文件处理方法,其特征在于,所述根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行排序,包括:
根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行升序排列,以得到第二排序队列;
根据所述排序结果从所述音频集合中确定出目标音频文件,包括:
将所述第二排序队列中位于队尾的第三预设数量个音频文件确定为目标音频文件。
7.根据权利要求1至6任一项所述的音频文件处理方法,其特征在于,所述获取音频集合的步骤前,还包括:
根据多个样本音频文件确定每个所述样本音频文件的频谱所处的频谱区间;
根据每个所述样本音频文件的频谱区间获取每个所述样本音频文件对应的特征值;
根据每个所述样本音频文件的频谱的能量特性,将每个所述样本音频文件分割为M个样本音频帧,其中M为大于等于2的正整数;
提取每个所述样本音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的能量值、第一频谱滚降对应的能量值和第二频谱滚降对应的能量值;
对所述多个样本音频文件中每个样本音频文件对应的特征值以及每个所述样本音频帧的多个特征组合进行训练,得到预设模型。
8.根据权利要求1至6任一项所述的音频文件处理方法,其特征在于,所述获取音频集合的步骤前,还包括:
获取N个音频文件,其中N为大于等于2的正整数;
根据每个所述音频文件的音频属性将所述N个音频文件划分为多个音频集合。
9.一种音频文件处理装置,其特征在于,包括:
第一获取单元,用于获取音频集合,所述音频集合包括多个音频文件,所述音频文件集合根据音频属性进行划分,所述音频属性为流派;
分割单元,用于将每个所述音频文件分割为M个音频帧,其中M为大于等于2的正整数;
所述分割单元具体用于:
根据每个所述音频文件的频谱的能量特性将每个所述音频文件分割为M个音频帧;
提取单元,用于分别提取每个所述音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的第一能量值、第一频谱滚降对应的第二能量值和第二频谱滚降对应的第三能量值;
输入单元,用于将每个所述音频帧的第一能量值、第二能量值和第三能量值对应的方差和均值输入预设模型,以得到每个所述音频文件的排序值,所述预设模型为预先选取样本音频帧的频谱明亮度对应的能量值、第一频谱滚降对应的能量值和第二频谱滚降对应的能量值的多个特征组合,进行训练后得到的模型;
确定单元,用于根据每个所述音频文件的排序值从所述音频集合中确定出目标音频文件。
10.根据权利要求9所述音频文件处理装置,其特征在于,输入单元具体用于:
根据预设算法计算多个所述第一能量值对应的第一方差和第一均值;
根据所述预设算法计算多个所述第二能量值对应的第二方差和第二均值;
根据所述预设算法计算多个所述第三能量值对应的第三方差和第三均值;
分别将每个所述音频文件的所述第一方差、第一均值、第二方差、第二均值、第三方差以及第三均值输入预设模型,以得到每个所述音频文件的排序值。
11.根据权利要求9所述音频文件处理装置,其特征在于,确定单元包括第一确定子单元和第二确定子单元:
第一确定子单元,用于从多个所述排序值中确定出大于预设阈值的至少一个第一排序值;
第二确定子单元,用于将所述第一排序值对应的音频文件确定为目标音频文件。
12.根据权利要求9所述音频文件处理装置,其特征在于,确定单元包括第一排序子单元和第三确定子单元:
第一排序子单元,用于根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行降序排列,以得到第一排序队列;
第三确定子单元,用于将所述第一排序队列中位于队首的第三预设数量个音频文件确定为目标音频文件。
13.根据权利要求9所述音频文件处理装置,其特征在于,确定单元包括第二排序子单元和第四确定子单元:
第二排序子单元,用于根据每一所述音频文件的排序值对所述音频集合中的多个音频文件进行升序排列,以得到第二排序队列;
第四确定子单元,用于将所述第二排序队列中位于队尾的第三预设数量个音频文件确定为目标音频文件。
14.根据权利要求9所述音频文件处理装置,其特征在于,还包括:
第二获取单元,用于获取N个音频文件,其中N为大于等于2的正整数;
划分单元,用于根据每个所述音频文件的音频属性将所述N个音频文件划分为多个音频集合。
15.根据权利要求9所述音频文件处理装置,其特征在于,还包括训练单元,用于:
根据多个样本音频文件确定每个所述样本音频文件的频谱所处的频谱区间;
根据每个所述样本音频文件的频谱区间获取每个所述样本音频文件对应的特征值;
根据每个所述样本音频文件的频谱的能量特性,将每个所述样本音频文件分割为M个样本音频帧,其中M为大于等于2的正整数;
提取每个所述样本音频帧的多个特征组合,其中每个所述特征组合包括频谱明亮度对应的能量值、第一频谱滚降对应的能量值和第二频谱滚降对应的能量值;
对所述多个样本音频文件中每个样本音频文件对应的特征值以及每个所述样本音频帧的多个特征组合进行训练,得到预设模型。
16.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的音频文件处理方法中的步骤。
CN201810552045.8A 2018-05-31 2018-05-31 一种音频文件处理方法、装置和存储介质 Active CN108766451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810552045.8A CN108766451B (zh) 2018-05-31 2018-05-31 一种音频文件处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810552045.8A CN108766451B (zh) 2018-05-31 2018-05-31 一种音频文件处理方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN108766451A CN108766451A (zh) 2018-11-06
CN108766451B true CN108766451B (zh) 2020-10-13

Family

ID=64001436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810552045.8A Active CN108766451B (zh) 2018-05-31 2018-05-31 一种音频文件处理方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN108766451B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961802B (zh) * 2019-03-26 2021-05-18 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质
CN113812136A (zh) * 2019-04-03 2021-12-17 杜比实验室特许公司 可缩放话音场景媒体服务器
CN110189771A (zh) * 2019-05-31 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 同源音频的音质检测方法、装置及存储介质
CN110516104A (zh) * 2019-08-27 2019-11-29 腾讯音乐娱乐科技(深圳)有限公司 歌曲推荐方法、装置及计算机存储介质
CN111444383B (zh) * 2020-03-30 2021-07-27 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650941A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 基于音频频谱特征分析的演唱音色明亮度客观评测方法
CN104090876B (zh) * 2013-04-18 2016-10-19 腾讯科技(深圳)有限公司 一种音频文件的分类方法及装置
CN104091591B (zh) * 2013-10-15 2016-01-27 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN105719661B (zh) * 2016-01-29 2019-06-11 西安交通大学 一种弦乐器演奏音质自动判别方法
CN105931634B (zh) * 2016-06-15 2018-09-21 腾讯科技(深圳)有限公司 音频筛选方法和装置
CN107577773A (zh) * 2017-09-08 2018-01-12 科大讯飞股份有限公司 一种音频匹配方法与装置、电子设备

Also Published As

Publication number Publication date
CN108766451A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108766451B (zh) 一种音频文件处理方法、装置和存储介质
CN111081272B (zh) 歌曲高潮片段识别方法及装置
EP3843083A1 (en) Method, system, and computer-readable medium for creating song mashups
JP7008096B2 (ja) 関連付け関心点に基づく文推奨方法及び装置
CN111309965B (zh) 音频匹配方法、装置、计算机设备及存储介质
US8437869B1 (en) Deconstructing electronic media stream into human recognizable portions
JP5477635B2 (ja) 情報処理装置および方法、並びにプログラム
CN105161116B (zh) 多媒体文件高潮片段的确定方法及装置
CN102541965B (zh) 自动获得音乐文件中的特征片断的方法和系统
CN111428074B (zh) 音频样本生成方法、装置、计算机设备及存储介质
WO2016102737A1 (en) Tagging audio data
CN110010159B (zh) 声音相似度确定方法及装置
CN111143604A (zh) 一种音频的相似度匹配方法、装置及存储介质
CN105718486B (zh) 在线哼唱检索方法及系统
CN106302987A (zh) 一种音频推荐方法及设备
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN111611372A (zh) 搜索结果的排序方法及装置、音乐搜索方法及装置
CN113813609A (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
Kostek et al. Creating a reliable music discovery and recommendation system
Makris et al. The greek music dataset
WO2016102738A1 (en) Similarity determination and selection of music
KR101801250B1 (ko) 음악에 적합한 테마를 자동으로 태깅하는 방법 및 시스템
CN110070891A (zh) 一种歌曲识别方法、装置以及存储介质
CN111445922A (zh) 音频匹配方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant