CN108091352A - 一种音频文件处理方法、装置及存储介质 - Google Patents
一种音频文件处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108091352A CN108091352A CN201711443717.3A CN201711443717A CN108091352A CN 108091352 A CN108091352 A CN 108091352A CN 201711443717 A CN201711443717 A CN 201711443717A CN 108091352 A CN108091352 A CN 108091352A
- Authority
- CN
- China
- Prior art keywords
- source file
- audio source
- audio
- file
- quality status
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/18—Error detection or correction; Testing, e.g. of drop-outs
- G11B20/1806—Pulse code modulation systems for audio signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/22—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing distortions
- G11B20/225—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing distortions for reducing wow or flutter
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2537—Optical discs
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明实施例公开了音频文件处理方法、装置及存储介质,应用于信息处理技术领域。音频文件处理装置会先对获取的待处理音频文件的音频源文件进行缺陷检测,当检测到音频源文件中包含第一缺陷信息时,会设置音频源文件的第一质量标记,用于标识音频源文件中包含第一缺陷信息,最后再对具有第一质量标记的音频源文件中至少一个采样点的幅值进行修复,得到修复后的音频源文件。这样通过对待处理音频文件的检测和修复,改善了最终得到的音频源文件的播放效果;且音频文件处理装置可以通过设置的质量标记对音频源文件进行修复或其它处理,实现了对待处理音频文件的处理,使得可以将多个待处理音频文件的检测和处理放置到同一平台来实现。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种音频文件处理方法、装置及存储介质。
背景技术
随着互联网技术的发展,数字音乐迅速流行。目前数字音乐的来源渠道广泛,黑胶、磁带、光盘(compact disc,CD)等介质中储存的模拟乐音转换成的数字音乐,及用户个人制作的数字音乐等,成为了数字音乐的一个组成部分。
但是由于黑胶、磁带、CD等介质,如果表面损坏,其中储存的内容很容易丢失,这样转换成的数字音乐会有噪声和咔嚓声等;而个人制作的数字音乐良莠不齐,背景噪声嘈杂等,再者,数字音乐通过互联网传输的过程中可能被修改、损坏,从而可能造成文件异常,甚至无法正常播放。这样会严重影响用户终端播放的数字音乐的效果,进而使得用户听歌体验较差,而随着信息和网络的发展,会出现较多的数字音乐的播放效果比较差。
发明内容
本发明实施例提供一种音频文件处理方法、装置及存储介质,实现了对具有第一缺陷信息的音频源文件进行相应地修复。
本发明实施例第一方面提供一种音频文件处理方法,包括:
获取待处理音频文件的音频源文件,所述音频源文件中包括多个采样点分别对应的幅值;
对所述音频源文件进行缺陷检测;
当检测到所述音频源文件中包含第一缺陷信息,设置所述音频源文件的第一质量标记,所述第一质量标记用于标识所述音频源文件中包含第一缺陷信息;
对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
本发明实施例第二方面提供一种音频文件处理装置,包括:
文件获取单元,用于获取待处理音频文件的音频源文件,所述音频源文件中包括多个采样点分别对应的幅值;
缺陷检测单元,用于对所述音频源文件进行缺陷检测;
标记设置单元,用于当所述缺陷检测单元检测到音频源文件中包含第一缺陷信息,设置所述音频源文件的第一质量标记,所述第一质量标记用于标识所述音频源文件中包含第一缺陷信息;
缺陷处理单元,用于对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
本发明实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的音频文件处理方法。
本发明实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本发明实施例第一方面所述的音频文件处理方法。
可见,在本实施例中,音频文件处理装置会对获取待处理音频文件的音频源文件进行缺陷检测,当检测到音频源文件中包含第一缺陷信息,会设置音频源文件的第一质量标记,用于标识音频源文件中包含第一缺陷信息,最后再对具有第一质量标记的音频源文件中至少一个采样点的幅值进行修复,得到修复后的音频源文件。这样,通过对待处理音频文件的检测和修复,改善了最终得到的音频源文件(即修复后的音频源文件)的播放效果;且音频文件处理装置会在检测到音频源文件中包含缺陷信息比如第一缺陷信息时,设置音频源文件的质量标记比如第一质量标记,并根据第一质量标记对音频源文件进行相应修复,进而实现了对待处理音频文件的处理,使得可以将多个待处理音频文件的检测和处理放置到同一平台来实现,能提高对待处理音频文件的处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种音频文件处理方法的流程图;
图2a是本发明一个实施例中音频源文件中各个采样点与对应幅值的一种关系示意图;
图2b是本发明一个实施例中音频源文件中各个采样点与对应幅值的另一种关系示意图;
图3是本发明一个实施例提供的另一种音频文件处理方法的流程图;
图4是本发明应用实施例提供的音频文件处理方法的流程图;
图5是本发明实施例提供的一种音频文件处理装置的结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种音频文件处理方法,主要可以应用于如下但不限于如下场景中:当某一客户端将音频文件上传到云服务器后,云服务器可以将上传的音频作为待处理音频文件,发起本实施例的流程;音频客户端在获取到某一音频文件后,也可以将该音频文件作为待处理音频文件,发起本实施例的流程;音频服务器在更新音频文件的数据库之前,在获取到音频文件后,将获取到的音频文件作为待处理音频文件,发起本实施例的流程。
本实施例中音频文件处理装置,比如上述的云服务器,音频客户端或音频服务器等,可以通过如下方法进行音频文件的处理:
获取待处理音频文件的音频源文件,音频源文件中包括多个采样点分别对应的幅值;对音频源文件进行缺陷检测,当检测到音频源文件中包含第一缺陷信息,设置音频源文件的第一质量标记,第一质量标记用于标识音频源文件中包含第一缺陷信息;对具有第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
这样,通过对待处理音频文件的检测和修复,改善了最终得到的音频源文件(即修复后的音频源文件)的播放效果;且音频文件处理装置会在检测到音频源文件中包含缺陷信息比如第一缺陷信息时,设置音频源文件的质量标记比如第一质量标记,并根据第一质量标记对音频源文件进行相应修复,进而实现了对待处理音频文件的处理,使得可以将多个待处理音频文件的检测和处理放置到同一平台来实现,能提高对待处理音频文件的处理效率。
本发明一个实施例提供的一种音频文件处理方法,主要是音频文件处理装置(比如上述的云服务器,音频服务器或音频客户端等)所执行的方法,流程图如图1所示,包括:
步骤101,获取待处理音频文件的音频源文件,音频源文件中包括多个采样点分别对应的幅值。
这里待处理音频文件的音频源文件主要是指波形(WAV)格式的音频文件,而待处理音频文件可以是WAV格式的音频文件,也可以是任何压缩格式的音频文件,也可以比如动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer-3,MP3)格式,高级音频编码(Advanced Audio Coding,AAC)格式,免费无损音频编码(Free LosslessAudio Codec,FLAC)格式,APE格式,或OGG等格式的音频文件。
在执行本步骤时,如果待处理音频文件是WAV格式的音频文件,则该待处理音频文件即为音频源文件;
如果待处理音频文件是任一压缩格式的音频文件,则音频文件处理装置需要将任一压缩格式的待处理音频文件转化(比如按照相应的方式进行解码)为WAV格式的音频文件,即为音频源文件。如果无法正确解码待处理音频文件,则音频文件处理装置可以直接设置该待处理音频文件的第二质量标记,该第二质量标记用于标识该待处理音频文件为不可修复的缺陷文件。
其中,音频文件处理装置在设置第二质量标记时,可以先生成第二质量标记,比如用数字“2”或其它方式来表示,然后在待处理音频文件的标识信息(即名称等唯一标识待处理音频文件的信息)中添加第二质量标记,也可以建立第二质量标记与待处理音频文件的对应关系,还可以有其它方式,在此不进行一一举例说明。
需要说明的是,上述的待处理音频文件和音频源文件都是属于数字的音频信号,而在获取的音频源文件的音频信号中包括各个采样点的幅值,每个幅值可以表示相应采样点的音量信息等。
进一步地,如果某一待处理音频文件具有第二质量标记,则音频文件处理装置还可以根据具有第二质量标记的待处理音频文件的属性信息(比如名称,或音频类型,或格式等),获取与该属性信息一致的音频文件,并用获取的音频文件替代上述待处理音频文件。
步骤102,对上述步骤101获取的音频源文件进行缺陷检测。
一般情况下,音频文件处理装置在进行缺陷检测时,可以检测音频源文件中是否包含第一缺陷信息,当检测到音频源文件中包含第一缺陷信息,执行步骤103和104;当检测到音频源文件中不包含第一缺陷信息,可以进一步地设置该音频源文件的第三质量标记,该第三质量标记用于标识音频源文件为无缺陷文件,并结束流程,也可以继续检测音频源文件中是否包含其它缺陷信息。
其中,音频文件处理装置在设置第三质量标记时,可以先生成第三质量标记,比如用数字“0”或其它方式来表示,然后在音频源文件的标识信息(即名称等唯一标识音频源文件的信息)中添加第三质量标记,也可以建立第三质量标记与音频源文件的对应关系,还可以有其它方式。
这里第一缺陷信息是指可以通过执行下述步骤104而消除的缺陷信息,具体可以包括但不限于如下缺陷信息:直流偏置,截幅失真,瞬时脉冲,本底噪声,咔嚓声,齿音和静音等,每个第一缺陷信息的检测方式都不同。具体可以包括如下几种检测方式:
(1)第一缺陷信息为直流偏置
这里,直流偏置是指在音频源文件的音频信号中出现直流分量,这样会使得播放该音频信号的耳机/喇叭的音圈不在磁隙最佳位置,对声音效果有影响。则音频文件处理装置在检测音频源文件中是否包含直流偏置时,会计算音频源文件中各个采样点的幅值的平均值,并检测音频源文件中各个采样点的幅值的平均值是否大于某一阈值,如果大于,则检测到音频源文件中包含直流偏置。
例如图2a所示为音频源文件中各个采样点与对应幅值的关系示意图,其中,横坐标表示采样点位数,纵坐标表示归一化后的幅值,各个采样点处的幅值都是在0.25之上。则音频源文件中包含直流偏置。
(2)第一缺陷信息为截幅失真
这里,截幅失真是由于在上述待处理音频文件的生成过程中,由于环境噪声或录音设备等影响,会在待处理音频文件的峰值处产生截幅,即多个连续的采样点中各个采样点的幅值都相同,且为峰值。则音频文件处理装置在检测音频源文件中是否包含截幅失真时,会获取音频源文件中某一峰值对应的采样点,音频源文件中某一峰值对应的采样点为多个连续采样点,且这多个连续采样点的长度大于某一阈值,则检测到在音频源文件中包含截幅失真。
例如图2b所示为音频源文件中各个采样点与对应幅值的关系示意图,其中,横坐标表示采样点位数,纵坐标表示归一化后的幅值,在采样点87到100之间的各个采样点对应的幅值都相同,且为峰值(为接近0.5的值),且采样点87到100的长度为13个采样点,大于阈值10个采样点。则音频源文件中包含截幅失真。
(3)第一缺陷信息为瞬时脉冲
音频文件处理装置在检测音频源文件中是否包含瞬时脉冲时,会获取音频源文件中第一采样点的第一幅值,第二采样点的第二幅值,及第三采样点的第三幅值,其中,第二采样点位于第一采样点与第三采样点之间,且第一采样点和第三采样点都与第二采样点相邻;则如果第二幅值与第一幅值的第一差值大于或等于第一阈值,且第二幅值与第三幅值的第二差值大于或等于第一阈值,则检测到音频源文件中包含瞬时脉冲。
(4)第一缺陷信息为静音
音频文件处理装置在检测音频源文件中是否包含静音时,会获取音频源文件中连续多个采样点分别对应的幅值,则如果音频源文件中连续多个(比如N个)采样点分别对应的幅值都小于或等于第二阈值,则检测到音频源文件中包含静音。
具体地,如果音频源文件是音乐文件,则N大于fs/2时长的采样点个数,其中,fs是该音乐文件的采样率,一般为44100Hz,此时N大于500ms时长的采样点个数。
步骤103,设置音频源文件的第一质量标记,第一质量标记用于标识音频源文件中包含第一缺陷信息。
其中,音频文件处理装置在设置第一质量标记时,可以先生成第一质量标记,比如用数字或其它方式来表示,然后在音频源文件的标识信息(即名称等唯一标识音频源文件的信息)中添加第一质量标记,也可以直接建立第一质量标记与音频源文件的对应关系等。
具体地,如果音频源文件中包含直流偏置,第一质量标记可以用数字“11”来表示,如果音频源文件中包含截幅失真,第一质量标记可以用数字“12”来表示,如果音频源文件中包含瞬时脉冲,第一质量标记可以用数字“13”来表示,如果音频源文件中包含静音,第一质量标记可以用数字“14”来表示等。
步骤104,对具有第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
具体地,音频文件处理装置可以有如下几种修复:比如第一缺陷信息为直流偏置,则音频文件处理装置会分别将音频源文件中各个采样点的幅值都减去直流分量;第一缺陷信息为瞬时脉冲,则音频文件处理装置会重置具有瞬时脉冲的采样点的幅值;第一缺陷信息为截幅失真,则音频文件处理装置会根据一定的算法预测截幅处采样点的幅值;第一缺陷信息为静音,则音频文件处理装置会重置具有静音的连续多个采样点的幅值。
需要说明的是,由于上述步骤103中会设置音频源文件的第一质量标记,这样音频文件处理装置可以在执行了上述步骤103后,可以直接针对另一个待处理音频文件返回执行上述步骤101,而不需要等待音频文件处理装置执行步骤104后,再针对另一个待处理音频文件返回执行步骤101。
这样就可以实现步骤103与步骤104的并行处理,则在针对多个待处理音频文件执行本实施例的流程时,能提高音频文件处理装置的处理效率。
进一步地,音频文件处理装置在执行了步骤104之后,得到修复后的音频源文件具体为修复后波形格式的音频源文件,这样还可以将修复后波形格式的音频源文件转化为某一压缩格式的音频文件。这里某一压缩格式是和上述待处理音频文件一致的格式,或其它压缩格式的音频文件。
可见,在本实施例中,音频文件处理装置会对获取的待处理音频文件的音频源文件进行缺陷检测,当检测到音频源文件中包含第一缺陷信息,会设置音频源文件的第一质量标记,用于标识音频源文件中包含第一缺陷信息,最后再对具有第一质量标记的音频源文件中至少一个采样点的幅值进行修复。这样,通过对待处理音频文件的检测和修复,改善了最终得到的音频源文件(即修复后的音频源文件)的播放效果;且音频文件处理装置会在检测到音频源文件中包含缺陷信息比如第一缺陷信息时,设置音频源文件的质量标记比如第一质量标记,并根据第一质量标记对音频源文件进行相应修复,进而实现了对待处理音频文件的处理,使得可以将多个待处理音频文件的检测和处理放置到同一平台来实现,能提高对待处理音频文件的处理效率。
需要说明的是,在一种情况下,音频文件处理装置在执行上述步骤102时,可以不需要进行其它缺陷检测,只检测音频源文件中是否包含第一缺陷信息,如果不包含,直接设置修复后的音频源文件的第三质量标记,第三质量标记用于标识音频源文件为无缺陷文件。
参考图3所示,在另一种情况下,音频文件处理装置在执行步骤102时,不仅需要检测音频源文件中是否包含第一缺陷信息,还需要检测音频源文件中是否包含第二缺陷信息,当检测到音频源文件中包含第二缺陷信息,音频文件处理装置还会执行步骤105;当检测到音频源文件中不包含第一缺陷信息,且不包含第二缺陷信息,则执行步骤106。
这里第二缺陷信息是指无法修复的缺陷信息,具体可以包括假双声道等,其中,如果一个音频文件中左右声道的数据一样,这样在播放该音频文件时没有空间立体感,音质较差。则当音频文件处理装置检测到音频源文件的左声道和右声道的数据中,分别在相应采样点的幅值相同或相近,则音频源文件中包含的第二缺陷信息为假双声道。
步骤105,设置音频源文件的第二质量标记,第二质量标记用于标识音频源文件为不可修复的缺陷文件。
其中,音频文件处理装置在设置第二质量标记时,可以先生成第二质量标记,比如用数字“2”或其它方式来表示,然后在音频源文件的标识信息(即名称等唯一标识音频源文件的信息)中添加第二质量标记,也可以直接建立第二质量标记与音频源文件的对应关系等。
其中如果音频源文件具有第二质量标记,说明该待音频源文件中包含不能修复的缺陷。进一步地,音频文件处理装置还会根据具有第二质量标记的音频源文件的属性信息,获取与属性信息一致的音频文件,并用获取的音频文件替代具有第二质量标记的音频源文件。
步骤106,设置音频源文件的第三质量标记,该第三质量标记用于标识音频源文件为无缺陷文件。
其中,音频文件处理装置在设置第三质量标记时,可以先生成第三质量标记,比如用数字“0”或其它方式来表示,然后在音频源文件的标识信息(即名称等唯一标识音频源文件的信息)中添加第三质量标记,也可以直接建立第三质量标记与音频源文件的对应关系等。
进一步地,音频文件处理装置在执行了步骤106之后,还可以将具有第三质量标记的音频源文件转化为某一压缩格式的音频文件。这里某一压缩格式是和上述待处理音频文件一致的格式,或其它压缩格式的音频文件。
以下以一个具体的实施例来说明本发明实施例的音频文件处理方法,参考图4所示,本实施例的音频文件处理方法包括:
步骤201,针对一待处理音频文件,如果该待处理音频文件为某一压缩格式的音频文件,将该压缩格式的音频文件进行解码得到WAV格式的音频文件,即为音频源文件。如果对该压缩格式的音频文件的解码不成功,则设置该待处理音频文件的第二质量标记,比如用数字“2”来表示,用于标识待处理音频文件为不可修复的缺陷文件。
步骤202,检测音频源文件中是否包含第一缺陷信息,如果包含,则设置音频源文件的第一质量标记,用于标识音频源文件中包括第一缺陷信息,并执行步骤203,如果不包含,直接执行步骤203。
具体的,音频文件处理装置在执行本步骤时,由如下几种方式:
(1)如果第一缺陷信息包括直流偏置,计算音频源文件中各个采样点的幅值的平均值,如果计算的平均值大于某一阈值,检测到音频源文件中包含直流偏置。设置该音频源文件的第一质量标记,比如用数字“11”来表示,用于标识音频源文件中包含直流偏置。
(2)如果第一缺陷信息包瞬时脉冲,获取音频源文件中第一采样点的第一幅值,第二采样点的第二幅值,及第三采样点的第三幅值,其中,第二采样点位于第一采样点与第三采样点之间,且第一采样点和第三采样点都与第二采样点相邻;如果第二幅值与第一幅值的第一差值大于或等于第一阈值,且第二幅值与第三幅值的第二差值大于或等于第一阈值,检测到音频源文件中包含瞬时脉冲。则设置该音频源文件的第一质量标记,比如用数字“13”来表示,用于标识音频源文件中包含瞬时脉冲。
(3)如果第一缺陷信息包括截幅失真,获取音频源文件中某一峰值对应的采样点,如果某一峰值对应的采样点为多个连续采样点,且多个连续采样点之间的间隔大于某一阈值,检测到音频源文件中包含截幅失真。则设置该音频源文件的第一质量标记,比如用数字“12”来表示,用于标识音频源文件中包括截幅失真。
(4)如果第一缺陷信息包括静音,则获取音频源文件中连续多个采样点分别对应的幅值,如果多个采样点分别对应的幅值都小于或等于第二阈值,检测到音频源文件中包含静音。设置该音频源文件的第一质量标记,比如用数字“14”来表示,用于标识音频源文件中包含静音。
步骤203,检测音频源文件中是否包含第二缺陷信息,如果包含,则执行步骤204到206,如果不包含,执行步骤205到206。
步骤204,设置音频源文件的第二质量标记,比如用数字“2”来表示,用于标识音频源文件为不可修复的缺陷文件。
需要说明的是,如果上述步骤202中对音频源文件设置了第一质量标记,在执行步骤203之后,如果需要设置第二质量标记,在执行本步骤时,音频文件处理装置可以再增加音频源文件的第二质量标记,这样音频源文件具有第一质量标记和第二质量标记。
或者,由于具有第二质量标记的音频源文件不能通过修复来消除缺陷,也可以用第二质量标记替换上述的第一质量标记,这样音频源文件只具有第二质量标记。
步骤205,对只具有第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
具体地,如果上述第一缺陷信息包括直流偏置,则在进行修复时,可以分别将音频源文件中各个采样点的幅值减去上述检测是否包含直流偏置时计算的平均值;
如果上述第一缺陷信息包括瞬时脉冲,则在进行修复时,重置上述检测是否包含瞬时脉冲时获取的第二幅值,使得重置后的第二幅值与第一幅值的差值小于或等于第一阈值,且重置后的第二幅值与第三幅值的差值小于或等于第一阈值;
如果上述第一缺陷信息包括截幅失真,则在进行修复时,根据上述检测音频源文件中是否包含截幅失真时确定的多个连续采样点之前的采样点的幅值,与多个连续采样点之后的采样点的幅值,预测多个连续采样点中各个采样点的幅值。
如果上述第一缺陷信息包括静音,则在进行修复时,重置上述检测音频源文件中是否包含静音时获取的连续多个采样点分别对应的幅值,使得重置后的连续多个采样点分别对应的幅值大于上述第二阈值。
进一步地,对具有第二质量标记的音频源文件,或者具有第一质量标记和第二质量标记的音频源文件,音频文件处理装置可以根据该音频源文件的属性信息,获取与属性信息一致的音频文件,并用获取的音频文件替代音频源文件。且获取的音频文件需要已经确定无缺陷,或已经修复后的音频文件。
步骤206,将修复后的音频源文件转化为与上述待处理音频文件具有相同格式的音频文件。
本发明实施例还提供一种音频文件处理装置,其结构示意图如图5所示,具体可以包括:
文件获取单元10,用于获取待处理音频文件的音频源文件,所述音频源文件中包括多个采样点分别对应的幅值;具体地,如果所述待处理音频文件为某一压缩格式的音频文件,则所述文件获取单元10具体用于将所述某一压缩格式的音频文件转化为波形格式的音频文件。
缺陷检测单元11,用于对所述文件获取单元10获取的音频源文件进行缺陷检测。
标记设置单元12,用于如果所述缺陷检测单元11检测到音频源文件中包含第一缺陷信息,设置所述音频源文件的第一质量标记,所述第一质量标记用于标识音频源文件中包含第一缺陷信息。
标记设置单元12,具体用于生成第一质量标记,并在所述音频源文件的标识信息中添加所述第一质量标记,或者,建立所述第一质量标记与所述音频源文件的对应关系。
缺陷处理单元13,用于对标记设置单元12设置的具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
其中缺陷检测单元11的检测,标记设置单元12的设置和缺陷处理单元13的处理有如下几种方式:
(1)所述第一缺陷信息包括直流偏置,则缺陷检测单元11,具体用于计算所述音频源文件中各个采样点的幅值的平均值,如果所述计算的平均值大于某一阈值,则检测到所述音频源文件中包含直流偏置;标记设置单元12设置的第一质量标记用于标识音频源文件中包含直流偏置;缺陷处理单元13,具体用于分别将所述音频源文件中各个采样点的幅值减去所述平均值。
(2)所述第一缺陷信息包括瞬时脉冲,则缺陷检测单元11,具体用于获取所述音频源文件中第一采样点的第一幅值,第二采样点的第二幅值,及第三采样点的第三幅值;其中,所述第二采样点位于第一采样点与第三采样点之间,且所述第一采样点和第三采样点都与所述第二采样点相邻;如果所述第二幅值与第一幅值的第一差值大于或等于第一阈值,且所述第二幅值与第三幅值的第二差值大于或等于所述第一阈值,则检测到所述音频源文件中包含瞬时脉冲;标记设置单元12设置的第一质量标记用于标识音频源文件中包含瞬时脉冲;缺陷处理单元13,具体用于重置所述第二幅值,使得重置后的第二幅值与所述第一幅值的差值小于或等于所述第一阈值,且所述重置后的第二幅值与所述第三幅值的差值小于或等于所述第一阈值。
(3)所述第一缺陷信息包括截幅失真,则缺陷检测单元11,具体用于获取所述音频源文件中某一峰值对应的采样点,如果某一峰值对应的采样点为多个连续采样点,且所述多个连续采样点之间的间隔大于某一阈值,则检测到所述音频源文件中包含截幅失真;标记设置单元12设置的第一质量标记用于标识音频源文件中包含截幅失真;缺陷检测单元11,具体用于根据所述多个连续采样点之前的采样点的幅值,与所述多个连续采样点之后的采样点的幅值,预测所述多个连续采样点中各个采样点的幅值。
(4)所述第一缺陷信息包括静音,则缺陷检测单元11,具体用于获取所述音频源文件中连续多个采样点分别对应的幅值,如果所述多个采样点分别对应的幅值都小于或等于第二阈值,则检测到所述音频源文件中包含静音;标记设置单元12设置的第一质量标记用于标识音频源文件中包含静音;缺陷检测单元11,具体用于重置所述连续多个采样点分别对应的幅值,使得所述重置后的连续多个采样点分别对应的幅值大于所述第二阈值。
进一步地,所述标记设置单元12,还用于当缺陷检测单元11检测到所述音频源文件中包含所述第二缺陷信息,设置所述音频源文件的第二质量标记,所述第二质量标记用于标识音频源文件为不可修复的缺陷文件。
该标记设置单元12,具体用于生成第二质量标记,并在所述音频源文件的标识信息中添加所述第二质量标记,或者,建立所述第二质量标记与所述音频源文件的对应关系。
所述标记设置单元12,还用于当缺陷检测单元11检测到所述音频源文件中不包含第一缺陷信息和第二缺陷信息,设置所述音频源文件的第三质量标记,所述第三质量标记用于标识所述音频源文件为无缺陷文件。
该标记设置单元12,具体用于生成第三质量标记,并在所述音频源文件的标识信息中添加所述第三质量标记,或者,建立所述第三质量标记与所述音频源文件的对应关系。
进一步地,音频文件处理装置还可以包括:替代单元14和转化单元15,其中:
替代单元14,用于根据所述标记设置单元12设置的具有所述第二质量标记的音频源文件的属性信息,获取与所述属性信息一致的音频文件,并用所述获取的音频文件替代所述音频源文件。
如果文件获取单元10获取音频源文件时,将所述某一压缩格式的音频文件转化为波形格式的音频文件,则转化单元15会将所述缺陷处理单元13修复后波形格式的音频源文件转化为所述某一压缩格式的音频文件。
进一步地,转化单元15,还会将具有第三质量标记的音频源文件转化为某一压缩格式的音频文件。
这样,通过对待处理音频文件的检测和修复,改善了最终得到的音频源文件(即修复后的音频源文件)的播放效果;且音频文件处理装置的标记设置单元12会在检测到音频源文件中包含缺陷信息比如第一缺陷信息时,设置音频源文件的质量标记比如第一质量标记,且缺陷处理单元13根据第一质量标记对音频源文件进行相应修复,进而实现了对待处理音频文件的处理,使得可以将多个待处理音频文件的检测和处理放置到同一平台来实现,能提高对待处理音频文件的处理效率。
本发明实施例还提供一种服务器,其结构示意图如图6所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。
具体地,在存储介质22中储存的应用程序221包括音频文件处理的应用程序,且该程序可以包括上述音频文件处理装置中的文件获取单元10,缺陷检测单元11,标记设置单元12,缺陷处理单元13,替代单元14和转化单元15,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中储存的音频文件处理的应用程序对应的一系列操作。
服务器还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由音频文件处理装置所执行的步骤可以基于该图6所示的服务器的结构。
本发明实施例还提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如上述音频文件处理装置所执行的音频文件处理方法。
本发明实施例还提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如上述音频文件处理装置所执行的音频文件处理方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的音频文件处理方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种音频文件处理方法,其特征在于,包括:
获取待处理音频文件的音频源文件,所述音频源文件中包括多个采样点分别对应的幅值;
对所述音频源文件进行缺陷检测;
当检测到所述音频源文件中包含第一缺陷信息,设置所述音频源文件的第一质量标记,所述第一质量标记用于标识所述音频源文件中包含所述第一缺陷信息;
对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
2.如权利要求1所述的方法,其特征在于,
所述对所述音频源文件进行缺陷检测,具体包括:计算所述音频源文件中各个采样点的幅值的平均值,如果所述计算的平均值大于某一阈值,则检测到所述音频源文件中包含的第一缺陷信息为直流偏置,所述第一质量标记用于标识所述音频源文件中包含直流偏置;
则所述对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复,具体包括:分别将所述音频源文件中各个采样点的幅值减去所述平均值。
3.如权利要求1所述的方法,其特征在于,
所述对所述音频源文件进行缺陷检测,具体包括:获取所述音频源文件中某一峰值对应的采样点,如果某一峰值对应的采样点为多个连续采样点,且所述多个连续采样点的长度大于某一阈值,则检测到所述音频源文件中包含的第一缺陷信息为截幅失真,所述第一质量标记用于标识所述音频源文件中包含截幅失真;则所述对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复,具体包括:根据所述多个连续采样点之前的采样点的幅值,与所述多个连续采样点之后的采样点的幅值,预测所述多个连续采样点中各个采样点的幅值。
4.如权利要求1所述的方法,其特征在于,所述对所述音频源文件进行缺陷检测,具体包括:获取所述音频源文件中第一采样点的第一幅值,第二采样点的第二幅值,及第三采样点的第三幅值;其中,所述第二采样点位于第一采样点与第三采样点之间,且所述第一采样点和第三采样点都与所述第二采样点相邻;
如果所述第二幅值与第一幅值的第一差值大于或等于第一阈值,且所述第二幅值与第三幅值的第二差值大于或等于所述第一阈值,则检测到所述音频源文件中包含的第一缺陷信息为瞬时脉冲;
则所述第一质量标记用于标识所述音频源文件中包含瞬时脉冲;
则所述对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复,具体包括:
重置所述第二幅值,使得重置后的第二幅值与所述第一幅值的差值小于或等于所述第一阈值,且所述重置后的第二幅值与所述第三幅值的差值小于或等于所述第一阈值。
5.如权利要求1所述的方法,其特征在于,
所述对所述音频源文件进行缺陷检测,具体包括:获取所述音频源文件中连续多个采样点分别对应的幅值,如果所述多个采样点分别对应的幅值都小于或等于第二阈值,则检测到所述音频源文件中包含的第一缺陷信息为静音,所述第一质量标记用于标识所述音频源文件中包含静音;
则所述对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复,具体包括:
重置所述连续多个采样点分别对应的幅值,使得所述重置后的连续多个采样点分别对应的幅值大于所述第二阈值。
6.如权利要求1至5任一项所述的方法,其特征在于,所述待处理音频文件为某一压缩格式的音频文件,则所述获取待处理音频文件的音频源文件,具体包括:将所述某一压缩格式的音频文件转化为波形格式的音频文件;
所述对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复之后,所述方法还包括:将所述修复后波形格式的音频源文件转化为所述某一压缩格式的音频文件。
7.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
当检测到所述音频源文件中包含第二缺陷信息,设置所述音频源文件的第二质量标记,所述第二质量标记用于标识所述音频源文件为不可修复的缺陷文件;
当检测到所述音频源文件中不包含第一缺陷信息和第二缺陷信息,设置所述音频源文件的第三质量标记,所述第三质量标记用于标识所述音频源文件为无缺陷文件。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
根据具有所述第二质量标记的音频源文件的属性信息,获取与所述属性信息一致的音频文件,并用所述获取的音频文件替代所述待处理音频文件。
9.如权利要求7所述的方法,其特征在于,
所述设置所述音频源文件的第一质量标记,具体包括:生成第一质量标记,并在所述音频源文件的标识信息中添加所述第一质量标记,或者,建立所述第一质量标记与所述音频源文件的对应关系;
所述设置所述音频源文件的第二质量标记,具体包括:生成第二质量标记,并在所述音频源文件的标识信息中添加所述第二质量标记,或者,建立所述第二质量标记与所述音频源文件的对应关系。
10.一种音频文件处理装置,其特征在于,包括:
文件获取单元,用于获取待处理音频文件的音频源文件,所述音频源文件中包括多个采样点分别对应的幅值;
缺陷检测单元,用于对所述音频源文件进行缺陷检测;
标记设置单元,用于当所述缺陷检测单元检测到音频源文件中包含第一缺陷信息,设置所述音频源文件的第一质量标记,所述第一质量标记用于标识所述音频源文件中包含第一缺陷信息;
缺陷处理单元,用于对具有所述第一质量标记的音频源文件中至少一个采样点的幅值进行修复。
11.如权利要求10所述的装置,其特征在于,
所述标记设置单元,还用于当所述缺陷检测单元检测到所述音频源文件中包含第二缺陷信息,设置所述音频源文件的第二质量标记,所述第二质量标记用于标识所述音频源文件为不可修复的缺陷文件;
所述标记设置单元,还用于当所述缺陷检测单元检测到所述音频源文件中不包含第一缺陷信息和第二缺陷信息,设置所述音频源文件的第三质量标记,所述第三质量标记用于标识所述音频源文件为无缺陷文件。
12.如权利要求11所述的装置,其特征在于,还包括:
替代单元,用于根据所述具有所述第二质量标记的音频源文件的属性信息,获取与所述属性信息一致的音频文件,并用所述获取的音频文件替代所述音频源文件。
13.如权利要求11所述的装置,其特征在于,
所述标记设置单元,具体用于生成第一质量标记,并在所述音频源文件的标识信息中添加所述第一质量标记,或者,建立所述第一质量标记与所述音频源文件的对应关系;
所述标记设置单元,具体还用于生成第二质量标记,并在所述音频源文件的标识信息中添加所述第二质量标记,或者,建立所述第二质量标记与所述音频源文件的对应关系。
14.一种存储介质,其特征在于,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如权利要求1至9任一项所述的音频文件处理方法。
15.一种终端设备,其特征在于,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如权利要求1至9任一项所述的音频文件处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711443717.3A CN108091352B (zh) | 2017-12-27 | 2017-12-27 | 一种音频文件处理方法、装置、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711443717.3A CN108091352B (zh) | 2017-12-27 | 2017-12-27 | 一种音频文件处理方法、装置、存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108091352A true CN108091352A (zh) | 2018-05-29 |
CN108091352B CN108091352B (zh) | 2020-10-13 |
Family
ID=62178432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711443717.3A Active CN108091352B (zh) | 2017-12-27 | 2017-12-27 | 一种音频文件处理方法、装置、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108091352B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903784A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种拟合失真音频数据的方法及装置 |
CN110491373A (zh) * | 2019-08-19 | 2019-11-22 | Oppo广东移动通信有限公司 | 模型训练方法、装置、存储介质及电子设备 |
WO2019232829A1 (zh) * | 2018-06-06 | 2019-12-12 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN111028860A (zh) * | 2019-11-22 | 2020-04-17 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
WO2021082083A1 (zh) * | 2019-10-29 | 2021-05-06 | 平安科技(深圳)有限公司 | 音频信号处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017203A1 (en) * | 2008-07-15 | 2010-01-21 | Texas Instruments Incorporated | Automatic level control of speech signals |
CN104167209A (zh) * | 2014-08-06 | 2014-11-26 | 华为软件技术有限公司 | 一种音频失真的检测方法及装置 |
CN105808719A (zh) * | 2016-03-07 | 2016-07-27 | 广州酷狗计算机科技有限公司 | 音频信息推荐方法及装置 |
-
2017
- 2017-12-27 CN CN201711443717.3A patent/CN108091352B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017203A1 (en) * | 2008-07-15 | 2010-01-21 | Texas Instruments Incorporated | Automatic level control of speech signals |
CN104167209A (zh) * | 2014-08-06 | 2014-11-26 | 华为软件技术有限公司 | 一种音频失真的检测方法及装置 |
CN105808719A (zh) * | 2016-03-07 | 2016-07-27 | 广州酷狗计算机科技有限公司 | 音频信息推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘春花,付强,杨家玮,颜永红: "音频信号截幅失真的检测与修复", 《声学技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019232829A1 (zh) * | 2018-06-06 | 2019-12-12 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN109903784A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种拟合失真音频数据的方法及装置 |
CN109903784B (zh) * | 2019-03-01 | 2021-03-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种拟合失真音频数据的方法及装置 |
CN110491373A (zh) * | 2019-08-19 | 2019-11-22 | Oppo广东移动通信有限公司 | 模型训练方法、装置、存储介质及电子设备 |
WO2021082083A1 (zh) * | 2019-10-29 | 2021-05-06 | 平安科技(深圳)有限公司 | 音频信号处理方法及装置 |
CN111028860A (zh) * | 2019-11-22 | 2020-04-17 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
CN111028860B (zh) * | 2019-11-22 | 2021-08-06 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108091352B (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108091352A (zh) | 一种音频文件处理方法、装置及存储介质 | |
EP2881940B1 (en) | Method and apparatus for evaluating voice quality | |
EP1941493B1 (en) | Content-based audio comparisons | |
US10410615B2 (en) | Audio information processing method and apparatus | |
CN110265064B (zh) | 音频爆音检测方法、装置和存储介质 | |
Bryan | Impulse response data augmentation and deep neural networks for blind room acoustic parameter estimation | |
CN108920513B (zh) | 一种多媒体数据处理方法、装置和电子设备 | |
CA2225407C (en) | Assessment of signal quality | |
CN101426169B (zh) | 一种快速检测发声体声响应参数的时域跟踪滤波器及系统 | |
CN104205215B (zh) | 自动实时言语障碍矫正 | |
CN104036788B (zh) | 音频文件的音质识别方法及装置 | |
CN103747407A (zh) | 一种基于fft扫频的音频模块自动化测试方法 | |
CN113259832B (zh) | 麦克风阵列的检测方法、装置、电子设备及存储介质 | |
CN107895571A (zh) | 无损音频文件识别方法及装置 | |
CN106098081A (zh) | 声音文件的音质识别方法及装置 | |
CN105808719B (zh) | 音频信息推荐方法及装置 | |
CN100493236C (zh) | 一种实现语音质量客观评价的测试方法与装置 | |
Zhang et al. | Automatic singing evaluation without reference melody using bi-dense neural network | |
KR101813704B1 (ko) | 사용자 음색 분석 장치 및 음색 분석 방법 | |
Luo et al. | Identification of AMR decompressed audio | |
CN104882146A (zh) | 音频推广信息的处理方法及装置 | |
CN105340003A (zh) | 语音合成字典创建装置以及语音合成字典创建方法 | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
CN115731943A (zh) | 一种爆音检测方法、爆音检测系统、存储介质和电子设备 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |