CN111312290A - 音频数据音质检测方法及装置 - Google Patents

音频数据音质检测方法及装置 Download PDF

Info

Publication number
CN111312290A
CN111312290A CN202010102632.4A CN202010102632A CN111312290A CN 111312290 A CN111312290 A CN 111312290A CN 202010102632 A CN202010102632 A CN 202010102632A CN 111312290 A CN111312290 A CN 111312290A
Authority
CN
China
Prior art keywords
frequency
frame
audio data
tail
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010102632.4A
Other languages
English (en)
Other versions
CN111312290B (zh
Inventor
徐东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010102632.4A priority Critical patent/CN111312290B/zh
Publication of CN111312290A publication Critical patent/CN111312290A/zh
Application granted granted Critical
Publication of CN111312290B publication Critical patent/CN111312290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

公开了一种音频数据音质检测方法及装置、存储介质。在该方案中,将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形;剔除所述多帧时域波形中的无效帧,得到多个有效帧;获取所述多个有效帧中每个有效帧的功率谱;获取所述每个有效帧的功率谱的截止频率;以及根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。采用上述方案,可以快速、准确地检测出该音频数据的音质,提高了检测的效率。

Description

音频数据音质检测方法及装置
技术领域
本公开涉及媒体处理技术,尤其涉及一种音频数据音质检测方法及装置。
背景技术
歌曲的音质,受限于录制设备的工艺和音频转码的方式等方面。当录制歌曲的设备比较老旧,或者认为设置了较低的录制参数,那么录制得到的歌曲会因为采样率较低、有效频谱高度较小等因素成为低品质音质的歌曲;即时录制得到了音质较高的数字音频,如果采用了不当的音频转码方式,如设置了低采样率的有损转码方式,那么这种音频转码后得到的歌曲也是低品质音质的。以上这些方式导致了大量的低品质音质歌曲的出现,这不仅给歌曲内容提供方带来甄别、管理等方面的压力,也给广大用户带来了潜在的不良听歌体验。
目前主要是人工筛选低品质音频数据,筛选效率低。
发明内容
本公开提供一种音频数据音质检测方案。
第一方面,提供了一种音频数据音质检测方法,包括:
将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形;
剔除所述多帧时域波形中的无效帧,得到多个有效帧;
获取所述多个有效帧中每个有效帧的功率谱;
获取所述每个有效帧的功率谱的截止频率;
根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。
在一个实现中,所述方法还包括:
获取所述音频数据的参数,所述参数包括以下至少一项:采样率、时长;
若所述音频数据的采样率低于第一阈值,和/或所述音频数据的时长低于第二阈值,则确定所述音频数据为低品质音质。
在又一个实现中,所述剔除所述多帧时域波形中的无效帧,得到多个有效帧,包括:
对于所述多帧时域波形中的每一帧,获取每一帧的多个采样点的波形幅度值;
针对任一帧中连续出现的采样点的波形幅度值大于第三阈值或小于第四阈值的采样点,若所述采样点的个数大于第五阈值时,确定所述任一帧为无效帧;
剔除所述多帧时域波形中的无效帧。
在又一个实现中,所述剔除所述多帧时域波形中的无效帧,得到多个有效帧,包括:
获取所述多帧时域波形中的每一帧的能量;
当任一帧的能量低于第六阈值时,确定所述任一帧为无效帧;
剔除所述多帧时域波形中的无效帧。
在又一个实现中,所述获取所述每个有效帧的功率谱的截止频率,包括:
获取所述每个有效帧的功率谱中的头频率和尾频率;
获取所述头频率对应的功率和所述尾频率对应的声功率之间的差值,作为声功率的最大滚降值;
根据所述头频率和尾频率和所述最大滚降值,确定所述截止频率。
在又一个实现中,所述方法还包括:
将所述尾频率对应的声功率与相邻的一个或多个频率对应的声功率进行比较;
若所述相邻的频率对应的声功率与所述尾频率对应的声功率之间的差值小于第七阈值,根据所述相邻的频率对应的声功率更新所述尾频率对应的声功率。
在又一个实现中,所述获取所述每个有效帧的功率谱中的头频率和尾频率,包括:
获取所述每个有效帧的功率谱中声功率连续减小的功率谱段;
获取所述功率谱段的头频率对应的功率和尾频率对应的声功率之间的差值,作为连续减小值;
确定所述每个有效帧的功率谱中首次出现的所述连续减小值大于第八阈值的连续减小值,所述确定的连续减小值对应的频率为头频率和尾频率。
在又一个实现中,所述根据所述头频率和尾频率和所述最大滚降值,确定所述截止频率,包括:
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率小于第十阈值,确定所述尾频率为所述截止频率;或
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率大于或等于所述第十阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率大于或等于第十一阈值,且与所述尾频率相邻的一个或多个频率对应的声功率逐渐减小,确定所述尾频率为所述截止频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率小于所述第十一阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率。
在又一个实现中,所述根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质,包括:
获取所述多个有效帧的功率谱的截止频率的概率分布;
获取在多个梯度中的多个截止频率的峰值,作为所述音频数据的主频率;
根据所述音频数据的主频率,确定所述音频数据的音质。
第二方面,提供了一种音频数据音质检测装置,包括:
分帧单元,用于将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形;
剔除单元,用于剔除所述多帧时域波形中的无效帧,得到多个有效帧;
第一获取单元,用于获取所述多个有效帧中每个有效帧的功率谱;
第二获取单元,用于获取所述每个有效帧的功率谱的截止频率;
第一确定单元,用于根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。
在一个实现中,所述装置还包括:
第三获取单元,用于获取所述音频数据的参数,所述参数包括以下至少一项:采样率、时长;
所述第一确定单元,还用于若所述音频数据的采样率低于第一阈值,和/或所述音频数据的时长低于第二阈值,则确定所述音频数据为低品质音质。
在又一个实现中,所述剔除单元,用于对于所述多帧时域波形中的每一帧,获取每一帧的多个采样点的波形幅度值;针对任一帧中连续出现的采样点的波形幅度值大于第三阈值或小于第四阈值的采样点,若所述采样点的个数大于第五阈值时,确定所述任一帧为无效帧;以及剔除所述多帧时域波形中的无效帧。
在又一个实现中,所述剔除单元,用于获取所述多帧时域波形中的每一帧的能量;当任一帧的能量低于第六阈值时,确定所述任一帧为无效帧;以及剔除所述多帧时域波形中的无效帧。
在又一个实现中,所述第二获取单元包括:
第四获取单元,用于获取所述每个有效帧的功率谱中的头频率和尾频率;
第五获取单元,用于获取所述头频率对应的功率和所述尾频率对应的声功率之间的差值,作为声功率的最大滚降值;
第二确定单元,用于根据所述头频率和尾频率和所述最大滚降值,确定所述截止频率。
在又一个实现中,所述装置还包括:
比较单元,用于将所述尾频率对应的声功率与相邻的一个或多个频率对应的声功率进行比较;
更新单元,用若所述相邻的频率对应的声功率与所述尾频率对应的声功率之间的差值小于第七阈值,根据所述相邻的频率对应的声功率更新所述尾频率对应的声功率。
在又一个实现中,所述第四获取单元,用于获取所述每个有效帧的功率谱中声功率连续减小的功率谱段;获取所述功率谱段的头频率对应的功率和尾频率对应的声功率之间的差值,作为连续减小值;以及确定所述每个有效帧的功率谱中首次出现的所述连续减小值大于第八阈值的连续减小值,所述确定的连续减小值对应的频率为头频率和尾频率。
在又一个实现中,所述第二确定单元用于:
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率小于第十阈值,确定所述尾频率为所述截止频率;或
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率大于或等于所述第十阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率大于或等于第十一阈值,且与所述尾频率相邻的一个或多个频率对应的声功率逐渐减小,确定所述尾频率为所述截止频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率小于所述第十一阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率。
在又一个实现中,所述第一确定单元用于:
获取所述多个有效帧的功率谱的截止频率的概率分布;
获取在多个梯度中的多个截止频率的峰值,作为所述音频数据的主频率;
根据所述音频数据的主频率,确定所述音频数据的音质。
第三方面,提供了音频数据音质检测装置,包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器执行所述程序指令以实现如第一方面或第一方面的任一个实现所述的方法。
第四方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如第一方面或第一方面的任一个实现所述的方法。
采用本申请的音频数据音质检测的方案,具有如下有益效果:
可以快速、准确地检测出该音频数据的音质,提高了检测的效率。
附图说明
图1为本公开实施例提供的一种音频数据音质检测方法的流程示意图;
图2为本公开实施例提供的又一种音频数据音质检测方法的流程示意图;
图3为图2所示实施例中的步骤S207的进一步描述的流程示意图;
图4为确定头尾频率的示意图;
图5为修剪尾频率的示意图;
图6为图2所示实施例中的步骤S211的进一步描述的流程示意图;
图7为确定截止频率的示意图;
图8为本公开实施例提供的一种音频数据音质检测装置的结构示意图;
图9为本公开实施例提供的又一种音频数据音质检测装置的结构示意图。
具体实施方式
下面对本公开实施例涉及的音频数据的音质的概念进行说明:
音频数据包括歌曲、语音文件等。以歌曲为例,歌曲音质指歌曲在播放时人耳感知到的声音品质。其中歌曲音质越高,说明录制的歌曲越接近声音的原始状态,能够更多地反映歌曲的原始信息;反之,歌曲音质越低,人耳感知到的有效信息也就越少。
低品质音质指以较低采样率(如28kHz以下)进行采样得到的音频,记为A;或者将音频经过较低码率的编码器(如LAME 64bits version 3.99.5编码器在80kbps及以下的码率进行编码),编码后的有效频谱高度在14kHz以下的音频,记为B;则音频A和B都为低品质音质。
本公开实施例提供一种音频数据音质检测方案,利用音频数据音质检测算法,可以快速、准确地检测出该音频数据的音质,提高了检测的效率。
下面对本公开的实施例进行详细的描述:
请参阅图1,为本公开实施例提供的一种音频数据音质检测方法的流程示意图,该方法可以包括以下步骤S101~S105。其中:
S101、将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形。
将音频数据转码为设定格式,例如wav格式,得到波形文件,便于后续的音频读取。
将音频数据按照设定帧长和帧移进行分帧,获得多帧时域波形,如得到M帧。其中,帧长是指每一帧的长度,帧移是指后一帧相对前一帧的位移。帧与帧之间往往有重叠部分。例如,第1帧为0-2ms,第2帧为1-3ms,则其帧长为2ms,帧移为50%。帧长和帧移可以根据需求进行设定,例如,帧长为15毫秒,帧移为50%;又例如,帧长为30毫秒,帧移为25%。
S102、剔除所述多帧时域波形中的无效帧,得到多个有效帧。
对于多帧时域波形中存在的波形幅度超出量程、或者波形幅度过低的音频数据帧,被视为无效帧,需要识别并剔除掉,最终得到多个有效帧。
S103、获取所述多个有效帧中每个有效帧的功率谱。
将无效帧剔除后,得到有效帧,记为B,计算B的功率谱。具体地,可以采用克莱克曼-哈里斯窗进行处理得到功率谱,也可以采用其它窗,例如汉明窗等。这样得到每个有效帧的功率谱,记为PSD=[p1,p2,…,pk],其中,pk是指第k帧的功率谱,它是将每个有效帧的时域波形转换到多个频率后,得到的各个频率对应的功率的集合。
S104、获取所述每个有效帧的功率谱的截止频率。
截止频率是指随着频率的增大,功率发生突然减小、或者功率缓慢减小至阈值时对应的频率。可以根据每一个有效帧的头频率、尾频率和声功率的最大滚降值,得到每个有效帧的功率谱的截止频率。其中,遍历每一个有效帧的功率谱的各个值,可以计算累积连续减小的值符合要求时对应的头频率和尾频率。获取头频率对应的功率和尾频率对应的声功率之间的差值,作为声功率的最大滚降值。
S105、根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。
将上述得到的各个有效帧的截止频率组合起来,记为F=[f1,f2,f3,…,fk],其中fk是第k个有效帧的截止频率,单位为Hz。
通过概率密度估计方法对F进行处理,得到数据F的概率密度分布。计算该概率密度分布中的概率峰值,得到多个峰值对应的最大频率作为主频率。根据主频率的大小,可以确定音频数据的音质为低品质或高品质。
根据本公开实施例提供的一种音频数据音质检测方法,可以快速、准确地检测出该音频数据的音质,提高了检测的效率。
请参阅图2,为本公开实施例提供的一种音频数据音质检测方法的流程示意图,该方法可以包括以下步骤。其中:
S201、获取音频数据的参数,所述参数包括以下至少一项:采样率、声道数、时长。
输入待检测的音频数据,获取音频数据的采样率、声道数、时长等参数。
S202、判断音频数据的采样率是否低于第一阈值,和/或所述音频数据的时长是否低于第二阈值;若是,则执行步骤S215,确定该音频数据为低品质音质;否则执行步骤S203。
判断音频数据的采样率是否低于第一阈值,例如第一阈值为28kHz,若音频数据的采样率低于28kHz,则可以确定该音频数据为低品质音质。
还可以判断音频数据的时长,若音频数据的时长低于第二阈值,则可以确定该音频数据为低品质音质。
若音频数据的采样率大于或等于第一阈值,且音频数据的时长大于或等于第二阈值,则进行下一步操作。
若采样率不为一个固定阈值,例如44.1kHz,则将音频数据重采样至该固定值,便于后续的统一处理。
判断音频数据的声道数,若声道数大于1,则对每个声道的数据都执行后续的操作。
S203、将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形。
将音频数据转码为设定格式,例如wav格式,得到波形文件,便于后续的音频读取。
将音频数据按照设定帧长和帧移进行分帧,获得多帧时域波形,如得到M帧。其中,帧长是指每一帧的长度,帧移是指后一帧相对前一帧的位移。帧与帧之间往往有重叠部分。例如,第1帧为0-2ms,第2帧为1-3ms,则其帧长为2ms,帧移为50%。帧长和帧移可以根据需求进行设定,例如,帧长为15毫秒,帧移为50%;又例如,帧长为30毫秒,帧移为25%。
还可以进一步地将音频数据中存在静音的部分剪裁掉,这样可以减少静音带来的干扰。
下述步骤S204~S206为剔除多帧时域波形中的无效帧,得到多个有效帧。
S204、对于所述多帧时域波形中的每一帧,获取每一帧的多个采样点的波形幅度值。
获得上述M帧的时域波形后,遍历M帧。以第m帧为例,该帧有N个采样点,计算N个采样点的绝对值,为采样点的波形幅度值,记为A=[n1,n2,…N]。
S205、针对任一帧中连续出现的采样点的波形幅度值大于第三阈值或小于第四阈值的采样点,若所述采样点的个数大于第五阈值时,确定所述任一帧为无效帧。
对上述N个采样点的绝对值A中连续出现的较大等值的采样点进行计数,例如A中存在连续20个采样值为1.0,则计数为20。当计数的个数大于第五阈值时,确定该帧为无效帧。这样可以防止波形幅度超出量程导致的削波失真。
将上述N个采样点的绝对值A中连续出现的较小值的采样点进行计数,例如A中存在连续20个采样值小于0.0001的数值,则计数为20。当计数的个数大于第五阈值时,确定该帧为无效帧。这样可以防止波形幅度过低导致的干扰。
S206、剔除所述多帧时域波形中的无效帧。
在确定出上述无效帧后,剔除多帧时域波形中的上述无效帧。
可替换地,剔除多帧时域波形中的无效帧还可以采用如下方式:获取所述多帧时域波形中的每一帧的能量;当任一帧的能量低于第六阈值时,确定所述任一帧为无效帧;剔除所述多帧时域波形中的无效帧。这样可以防止小能量音频带来的处理误差。
可替换地,剔除多帧时域波形中的无效帧还可以采用如下方式:计算上述N个采样点的绝对值A的方差,将方差小于设定阈值的帧确定为无效帧。这样可以确保后续处理的帧是波形起伏明显的。对于波形接近直线的,或者方差很小的予以剔除,这样可以提升预测的准确度。
将无效帧剔除后,得到有效帧,记为B,计算B的功率谱。具体地,可以采用克莱克曼-哈里斯窗进行处理得到功率谱,也可以采用其它窗,例如汉明窗等。这样得到每个有效帧的功率谱,记为PSD=[p1,p2,…,pk],其中,pk是指第k帧的功率谱,它是将每个有效帧的时域波形转换到多个频率后,得到的各个频率对应的功率的集合。
下述步骤S207~S211为获取每个有效帧的功率谱的截止频率:
S207、获取所述每个有效帧的功率谱中的头尾频率。
遍历每一个有效帧的功率谱的各个值,计算累积连续减小的值符合要求时对应的头频率和尾频率。
具体地,如图3所示的步骤S207的进一步描述的流程示意图,S207包括如下步骤:
S2071、获取所述每个有效帧的功率谱中声功率连续减小的功率谱段;
S2072、获取所述功率谱段的头频率对应的功率和尾频率对应的声功率之间的差值,作为连续减小值;
S2073、确定所述每个有效帧的功率谱中首次出现的所述连续减小值大于第八阈值的连续减小值,所述确定的连续减小值对应的频率分别为头频率和尾频率。
下面结合图4所示的确定头尾频率的示意图对上述步骤进行描述。如图4所示,第k帧的功率谱pk,它包括128个值,记为a1,a2,…,a128,每个值为对应频率下的声功率,单位为dB。图4中,横坐标为频率(Hz),纵坐标为功率谱(dB),图中的曲线是声功率,每个点对应一个坐标(频率f,功率值a),一共128个点。假设pk从第70个值开始,声功率依次减小,直至第80个值,即a70>a71>…>a80且a80<=a81。则保存a70-a80的差值,记为连续减小值D1。继续遍历下去直至最后第128个值,如若出现其它连续减小值,如D2,D3等,则以首次出现大于阈值的连续减小值对应的频率作为头尾频率,阈值例如为10dB。头频率和尾频率分别记为fb和fe,单位为Hz。在本示例中,第70个点和第80个点满足连续减小的要求,则头频率fb=f70,尾频率fe=f80。连续减小值为D=a70-a80。
另外,对于连续减小的定义,或者如a70>a71,是不必限于一定大于的情况的,也可以如|a70-a71|<=2这样的表示,或者说较小频率的声功率与相邻的较大频率的声功率的差值的绝对值小于阈值,即认为属于连续减小,这里的阈值如2,单位是dB。
S208、将所述尾频率对应的声功率与相邻的一个或多个频率对应的声功率进行比较。
S209、若所述相邻的频率对应的声功率与所述尾频率对应的声功率之间的差值小于第七阈值,根据所述相邻的频率对应的声功率更新所述尾频率对应的声功率。
其中,S208和S209为修剪上述得到的尾频率。判断与它相邻的较大频率对应的声功率值,若相邻的声功率与自身相差很小或者等于的情况时,将符合要求的频率中与fb相差最大的值作为fb的更新值。
具体地,如图5所示,为修剪尾频率的示意图,用于判断尾频率后的各个点的功率值,取符合要求写频率差别最大的。相邻的频率对应的声功率与所述尾频率对应的声功率之间的差值小于第七阈值,例如要求为功率差值小于3dB。则以尾频率(f80,a80)为参考值,分别计算a81,a82,a83与a80的差值,若a81、a82与a80的差值都小于3dB,但是a83与a80的差值大于3dB,则取a82,因为它对应的频率f82与f80距离最远。更新尾频率,即尾频率fe=f82,尾频率的点表示为(f82,a82)。
S210、获取所述头频率对应的功率和尾频率对应的声功率之间的差值,作为声功率的最大滚降值。
获取头频率和尾频率后,再计算fb对应的声功率与fe对应的声功率的差值,即为声功率的最大滚降值,记为maxS。例如,上述示例中,得到最大滚降值:maxS=a70-a82。
S211、根据所述头频率、所述尾频率和所述最大滚降值,确定所述截止频率。
截止频率是指随着频率的增大,功率发生突然减小、或者功率缓慢减小至阈值时对应的频率。
具体地,如图5所示的对步骤S211的进一步描述的流程示意图,S211包括:
S2111、判断尾频率是否大于或等于第九阈值;若尾频率大于或等于第九阈值,则执行步骤S2115;若尾频率小于第九阈值,则执行步骤S2112。
S2112、若尾频率小于第九阈值时,进一步判断尾频率对应的声功率是否大于或等于第十阈值;若尾频率对应的声功率大于或等于第十阈值,则执行步骤S2114;若尾频率对应的声功率小于第十阈值,则执行步骤S2113。
S2113、确定尾频率为截止频率。
S2114、确定截止频率为最大滚降值滚降设定比例后对应的频率。
S2115、若尾频率大于或等于第九阈值,进一步判断尾频率对应的声功率是否大于或等于第十一阈值,且与所述尾频率相邻的一个或多个频率对应的声功率是否逐渐减小;若是,则执行步骤S2113;否则,执行步骤S2114。
具体地,结合图7所示的确定截止频率的示意图对上述步骤进行详细描述。
分以下几种情况:
在获得头尾频率和最大滚降值后,根据尾频率fe的大小与声功率的大小,获得截止频率。
举例:
若尾频率fe<第九阈值(例如,16000Hz),则有两种情况:
第一种:尾频率对应的声功率a82较小(小于第十阈值),则截止频率=fe;
第二种:尾频率对应的声功率a82较大(大于或等于第十阈值),则截止频率=声功率从头频率开始下降了2/3的maxS的M点对应的频率fm。可以采用插值的方法计算得到。
若尾频率fe≥第九阈值(例如,16000Hz),则有两种情况:
第一种:尾频率对应的声功率a82较大(大于或等于第十一阈值),且与尾频率f82相邻的一个或多个频率f83,f84,f85对应的声功率a83,a84,a85是逐渐减小的,则截止频率=16000Hz;
第二种:其它情况,则截止频率=声功率从头频率开始下降了2/3的maxS的M点对应的频率fm。可以采用插值的方法计算得到。
下述步骤S212~S214为根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质:
S212、获取所述多个有效帧的功率谱的截止频率的概率分布。
S213、获取在多个梯度中的多个截止频率的峰值,作为所述音频数据的主频率。
S214、根据所述音频数据的主频率,确定所述音频数据的音质。
将上述得到的各个有效帧的截止频率组合起来,记为F=[f1,f2,f3,…,fk],其中fk是第k个有效帧的截止频率,单位为Hz。
通过概率密度估计方法对F进行处理,得到数据F的概率密度分布,记为Dist,它是二维数组,分别是频率的数值范围和每个频率值出现的概率。如果出现概率越大,那么它对应的频率值在F中的个数就越多。其中,概率密度估计方法包括但不限于高斯核密度估计方法。
计算Dist的概率数据中的概率峰值,方法包括但不限于梯度判断方法,即先计算梯度,然后根据梯度值出现先正后负的情况和概率值的大小两个条件得到峰值,最后将各个峰值对应的最大频率作为主频率,记为freq。
根据freq的数值大小进行判断,判断条件也可以根据实际场景需要加入其它维度的条件,如输入音频的有效时长,输入音频在指定频率范围内较高声功率的持续总时间等。对于达到条件的判定为较高音质的判决结果,对于没有达到条件的判定为低品质音质。这里的条件有多种情况,譬如,主频率达到16kHz的条件;也可以是更多条件的组合,如在主频率的基础上,指定频率范围内较高声功率的持续总时间达到有效时长的50%等。
进一步地,可以将上述音频数据音质的判定结果输出,如输出在显示屏、磁盘或者其它媒介上,方便用户获取、管理和分发输入音频的处理结果。
根据本公开实施例提供的一种音频数据音质检测方法,可以对海量的歌曲音质进行快速准确地检测,并且获得歌曲的音质类别,分别为低品质音质和较高品质音质。这种判定和划分,将有助于人们对歌曲音质的品质分类、管理和使用;也避免了人工筛选这种时间和经济成本较高的判定方式。通过音频信号处理的方式,获得音频判定结果。此外,本方案既可以通过计算机后台处理,也可以通过云端处理,处理效率高,运行速度快。
基于上述音频数据音质检测方法的同一构思,如图8所示,还提供了一种音频数据音质检测装置1000,该装置1000包括:
分帧单元11,用于将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形;
剔除单元12,用于剔除所述多帧时域波形中的无效帧,得到多个有效帧;
第一获取单元13,用于获取所述多个有效帧中每个有效帧的功率谱;
第二获取单元14,用于获取所述每个有效帧的功率谱的截止频率;
第一确定单元15,用于根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。
在一个实现中,所述装置1000还包括:
第三获取单元16,用于获取所述音频数据的参数,所述参数包括以下至少一项:采样率、时长;
所述第一确定单元15,还用于若所述音频数据的采样率低于第一阈值,和/或所述音频数据的时长低于第二阈值,则确定所述音频数据为低品质音质。
在又一个实现中,所述剔除单元12,用于对于所述多帧时域波形中的每一帧,获取每一帧的多个采样点的波形幅度值;针对任一帧中连续出现的采样点的波形幅度值大于第三阈值或小于第四阈值的采样点,若所述采样点的个数大于第五阈值时,确定所述任一帧为无效帧;以及剔除所述多帧时域波形中的无效帧。
在又一个实现中,所述剔除单元12,用于获取所述多帧时域波形中的每一帧的能量;当任一帧的能量低于第六阈值时,确定所述任一帧为无效帧;以及剔除所述多帧时域波形中的无效帧。
在又一个实现中,所述第二获取单元14包括:
第四获取单元141,用于获取所述每个有效帧的功率谱中的头频率和尾频率;
第五获取单元142,用于获取所述头频率对应的功率和所述尾频率对应的声功率之间的差值,作为声功率的最大滚降值;
第二确定单元143,用于根据所述头频率和尾频率和所述最大滚降值,确定所述截止频率。
在又一个实现中,所述装置1000还包括:
比较单元17,用于将所述尾频率对应的声功率与相邻的一个或多个频率对应的声功率进行比较;
更新单元18,用若所述相邻的频率对应的声功率与所述尾频率对应的声功率之间的差值小于第七阈值,根据所述相邻的频率对应的声功率更新所述尾频率对应的声功率。
在又一个实现中,所述第四获取单元141,用于获取所述每个有效帧的功率谱中声功率连续减小的功率谱段;获取所述功率谱段的头频率对应的功率和尾频率对应的声功率之间的差值,作为连续减小值;以及确定所述每个有效帧的功率谱中首次出现的所述连续减小值大于第八阈值的连续减小值,所述确定的连续减小值对应的频率为头频率和尾频率。
在又一个实现中,所述第二确定单元143用于:
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率小于第十阈值,确定所述尾频率为所述截止频率;或
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率大于或等于所述第十阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率大于或等于第十一阈值,且与所述尾频率相邻的一个或多个频率对应的声功率逐渐减小,确定所述尾频率为所述截止频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率小于所述第十一阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率。
在又一个实现中,所述第一确定单元15用于:
获取所述多个有效帧的功率谱的截止频率的概率分布;
获取在多个梯度中的多个截止频率的峰值,作为所述音频数据的主频率;
根据所述音频数据的主频率,确定所述音频数据的音质。
根据本公开实施例提供的一种音频数据音质检测装置,可以快速、准确地检测出该音频数据的音质,提高了检测的效率。
图9是本公开实施例提供的又一种音频数据音质检测装置的结构示意图。在一个实施例中,该音频数据音质检测装置可以对应于上述图2~图3所对应实施例中。如图9所示,该音频数据音质检测装置可以包括:处理器,网络接口和存储器,此外,上述音频数据音质检测装置还可以包括:用户接口,和至少一个通信总线。其中,通信总线用于实现这些组件之间的连接通信。其中,用户接口可以包括显示屏(display)、键盘(keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器可选的还可以是至少一个位于远离前述处理器的存储装置。如图9所示,作为一种计算机可读存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图9所示的音频数据音质检测装置中,网络接口可提供网络通讯功能;而用户接口主要用于为用户提供输入的接口;而处理器可以用于调用存储器中存储的设备控制应用程序,以实现上述图2~图3任一个所对应实施例中对音频数据音质检测方法的描述,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
应当理解,本公开实施例中所描述的音频数据音质检测装置可执行前文图2~图3任一个所对应实施例中对音频数据音质检测方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本公开实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的音频数据音质检测装置1000所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2~图3任一个所对应实施例中对音频数据音质检测方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本公开方法实施例的描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

Claims (10)

1.一种音频数据音质检测方法,其特征在于,包括:
将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形;
剔除所述多帧时域波形中的无效帧,得到多个有效帧;
获取所述多个有效帧中每个有效帧的功率谱;
获取所述每个有效帧的功率谱的截止频率;
根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述音频数据的参数,所述参数包括以下至少一项:采样率、时长;
若所述音频数据的采样率低于第一阈值,和/或所述音频数据的时长低于第二阈值,则确定所述音频数据为低品质音质。
3.根据权利要求1所述的方法,其特征在于,所述剔除所述多帧时域波形中的无效帧,得到多个有效帧,包括:
对于所述多帧时域波形中的每一帧,获取每一帧的多个采样点的波形幅度值;
针对任一帧中连续出现的采样点的波形幅度值大于第三阈值或小于第四阈值的采样点,若所述采样点的个数大于第五阈值时,确定所述任一帧为无效帧;
剔除所述多帧时域波形中的无效帧。
4.根据权利要求1所述的方法,其特征在于,所述剔除所述多帧时域波形中的无效帧,得到多个有效帧,包括:
获取所述多帧时域波形中的每一帧的能量;
当任一帧的能量低于第六阈值时,确定所述任一帧为无效帧;
剔除所述多帧时域波形中的无效帧。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述获取所述每个有效帧的功率谱的截止频率,包括:
获取所述每个有效帧的功率谱中的头频率和尾频率;
获取所述头频率对应的功率和所述尾频率对应的声功率之间的差值,作为声功率的最大滚降值;
根据所述头频率和尾频率和所述最大滚降值,确定所述截止频率。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述尾频率对应的声功率与相邻的一个或多个频率对应的声功率进行比较;
若所述相邻的频率对应的声功率与所述尾频率对应的声功率之间的差值小于第七阈值,根据所述相邻的频率对应的声功率更新所述尾频率对应的声功率。
7.根据权利要求5或6所述的方法,其特征在于,所述获取所述每个有效帧的功率谱中的头频率和尾频率,包括:
获取所述每个有效帧的功率谱中声功率连续减小的功率谱段;
获取所述功率谱段的头频率对应的功率和尾频率对应的声功率之间的差值,作为连续减小值;
确定所述每个有效帧的功率谱中首次出现的所述连续减小值大于第八阈值的连续减小值,所述确定的连续减小值对应的频率为头频率和尾频率。
8.根据权利要求5~7任一项所述的方法,其特征在于,所述根据所述头频率和尾频率和所述最大滚降值,确定所述截止频率,包括:
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率小于第十阈值,确定所述尾频率为所述截止频率;或
若所述尾频率小于第九阈值,且若所述尾频率对应的声功率大于或等于所述第十阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率大于或等于第十一阈值,且与所述尾频率相邻的一个或多个频率对应的声功率逐渐减小,确定所述尾频率为所述截止频率;或
若所述尾频率大于或等于所述第九阈值,且若所述尾频率对应的声功率小于所述第十一阈值,确定所述截止频率为所述最大滚降值滚降设定比例后对应的频率。
9.根据权利要求1~8任一项所述的方法,其特征在于,所述根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质,包括:
获取所述多个有效帧的功率谱的截止频率的概率分布;
获取在多个梯度中的多个截止频率的峰值,作为所述音频数据的主频率;
根据所述音频数据的主频率,确定所述音频数据的音质。
10.一种音频数据音质检测装置,其特征在于,包括:
分帧单元,用于将音频数据按照预设帧长和帧移进行分帧,得到多帧时域波形;
剔除单元,用于剔除所述多帧时域波形中的无效帧,得到多个有效帧;
第一获取单元,用于获取所述多个有效帧中每个有效帧的功率谱;
第二获取单元,用于获取所述每个有效帧的功率谱的截止频率;
第一确定单元,用于根据所述多个有效帧的功率谱的截止频率,确定所述音频数据的音质。
CN202010102632.4A 2020-02-19 2020-02-19 音频数据音质检测方法及装置 Active CN111312290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010102632.4A CN111312290B (zh) 2020-02-19 2020-02-19 音频数据音质检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010102632.4A CN111312290B (zh) 2020-02-19 2020-02-19 音频数据音质检测方法及装置

Publications (2)

Publication Number Publication Date
CN111312290A true CN111312290A (zh) 2020-06-19
CN111312290B CN111312290B (zh) 2023-04-25

Family

ID=71148016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010102632.4A Active CN111312290B (zh) 2020-02-19 2020-02-19 音频数据音质检测方法及装置

Country Status (1)

Country Link
CN (1) CN111312290B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409807A (zh) * 2021-06-11 2021-09-17 北京字跳网络技术有限公司 一种音频修复方法、装置、设备及介质
CN113782036A (zh) * 2021-09-10 2021-12-10 北京声智科技有限公司 音频质量评估方法、装置、电子设备和存储介质
CN113808617A (zh) * 2021-09-06 2021-12-17 广州世音联软件科技有限公司 音频数据排查方法及其装置、设备、介质、产品
CN113808618A (zh) * 2021-09-06 2021-12-17 广州世音联软件科技有限公司 音频质量评估方法及其装置、设备、介质、产品
CN114385977A (zh) * 2021-12-13 2022-04-22 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质
CN117612566A (zh) * 2023-11-16 2024-02-27 书行科技(北京)有限公司 音频质量评估方法及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564534A (zh) * 2017-08-21 2018-01-09 腾讯音乐娱乐(深圳)有限公司 音频品质鉴定方法和装置
US20180242078A1 (en) * 2017-02-17 2018-08-23 Oki Electric Industry Co., Ltd. Sound pick-up device, program, and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180242078A1 (en) * 2017-02-17 2018-08-23 Oki Electric Industry Co., Ltd. Sound pick-up device, program, and method
CN107564534A (zh) * 2017-08-21 2018-01-09 腾讯音乐娱乐(深圳)有限公司 音频品质鉴定方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409807A (zh) * 2021-06-11 2021-09-17 北京字跳网络技术有限公司 一种音频修复方法、装置、设备及介质
CN113808617A (zh) * 2021-09-06 2021-12-17 广州世音联软件科技有限公司 音频数据排查方法及其装置、设备、介质、产品
CN113808618A (zh) * 2021-09-06 2021-12-17 广州世音联软件科技有限公司 音频质量评估方法及其装置、设备、介质、产品
CN113808618B (zh) * 2021-09-06 2024-04-16 广州世音联软件科技有限公司 音频质量评估方法及其装置、设备、介质、产品
CN113808617B (zh) * 2021-09-06 2024-04-16 广州世音联软件科技有限公司 音频数据排查方法及其装置、设备、介质、产品
CN113782036A (zh) * 2021-09-10 2021-12-10 北京声智科技有限公司 音频质量评估方法、装置、电子设备和存储介质
CN113782036B (zh) * 2021-09-10 2024-05-31 北京声智科技有限公司 音频质量评估方法、装置、电子设备和存储介质
CN114385977A (zh) * 2021-12-13 2022-04-22 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质
CN114385977B (zh) * 2021-12-13 2024-05-28 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质
CN117612566A (zh) * 2023-11-16 2024-02-27 书行科技(北京)有限公司 音频质量评估方法及相关产品
CN117612566B (zh) * 2023-11-16 2024-05-28 书行科技(北京)有限公司 音频质量评估方法及相关产品

Also Published As

Publication number Publication date
CN111312290B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN111312290A (zh) 音频数据音质检测方法及装置
CN110536215B (zh) 音频信号处理的方法、装置、计算设置及存储介质
JP4478183B2 (ja) 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム
CN110111811B (zh) 音频信号检测方法、装置和存储介质
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
WO2018014673A1 (zh) 一种啸叫检测方法和装置
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
CN108305637A (zh) 耳机语音处理方法、终端设备及存储介质
US20220254365A1 (en) Method and device for audio repair and readable storage medium
CN111128167A (zh) 一种远场语音唤醒方法、装置、电子产品及存储介质
CN113223554A (zh) 一种风噪检测方法、装置、设备和存储介质
CN110580912B (zh) 音乐可视化的方法、装置及系统
JP7159438B2 (ja) エコー検出
CN111639225B (zh) 一种音频信息的检测方法、装置及存储介质
WO2018066383A1 (ja) 情報処理装置および方法、並びにプログラム
CN111312287A (zh) 一种音频信息的检测方法、装置及存储介质
KR101173980B1 (ko) 음성통신 기반 잡음 제거 시스템 및 그 방법
JP5193130B2 (ja) 電話音声区間検出装置およびそのプログラム
CN115243183A (zh) 一种音频检测方法、设备及存储介质
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
CN115967894B (zh) 一种话筒声音处理方法、系统、终端设备及存储介质
KR102433582B1 (ko) 방법, 컴퓨터 프로그램, 인코더 및 모니터링 장치
WO2023138252A1 (zh) 音频信号处理方法及装置、耳机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant