CN110111811B - 音频信号检测方法、装置和存储介质 - Google Patents

音频信号检测方法、装置和存储介质 Download PDF

Info

Publication number
CN110111811B
CN110111811B CN201910312801.4A CN201910312801A CN110111811B CN 110111811 B CN110111811 B CN 110111811B CN 201910312801 A CN201910312801 A CN 201910312801A CN 110111811 B CN110111811 B CN 110111811B
Authority
CN
China
Prior art keywords
band
audio signal
sub
frequency
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910312801.4A
Other languages
English (en)
Other versions
CN110111811A (zh
Inventor
陈洲旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201910312801.4A priority Critical patent/CN110111811B/zh
Publication of CN110111811A publication Critical patent/CN110111811A/zh
Application granted granted Critical
Publication of CN110111811B publication Critical patent/CN110111811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请实施例公开了一种音频信号检测方法、装置和存储介质,本申请在对音频信号进行检测时,可以获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号;该方案可以有效快速地筛选出有频带缺失的音频文件。

Description

音频信号检测方法、装置和存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种音频信号检测方法、装置和存储介质。
背景技术
随着互联网的发展,音频数据越来越多,而网络上的一些音频常常会存在失真的情况,其中有一种失真是由于频带缺失造成的,其原因可能为:网络传输出错,编解码出错,消除人声算法导致等。由于频带的缺失,导致音频质量差,影响用户体验。
发明内容
本申请实施例提供一种音频信号检测方法、装置和存储介质,可以用于检测音频信号中是否存在频带缺失,从而有效快速地筛选出有频带缺失的音频文件。
本申请实施例提供一种音频信号检测方法,包括:
获取待检测的音频信号;
对所述音频信号进行时频变换,得到频域信号,并对所述频域信号的频率分布进行子带划分;
获得所述子带的平均能量值,并统计所述子带的直方图概率分布图,所述直方图概率分布图包含所述音频信号频率的概率分布;
在所述音频信号频率的概率分布存在波谷时,确定所述音频信号为频带缺失信号。
可选的,在一些实施例中,在所述音频信号检测方法中,所对所述音频信号进行时频变换,得到频域信号,包括:
将所述音频信号进行分帧,得到帧信号;
对所述帧信号进行加窗处理,得到加窗后信号;
将所述加窗后信号进行变换,得到频域信号。
可选的,在一些实施例中,在所述音频信号检测方法中,所述统计所述子带的直方图概率分布图,包括:
将每个子带的平均能量值与预设能量值进行比较;
若所述子带的平均能量值大于预设能量值,则对所述子带的直方图频数进行累加,得到所述子带的直方图概率分布图;
返回执行将所述音频信号进行分帧步骤,直至得到所述音频信号中所有帧信号频率的概率分布;
根据所有帧信号对应的概率分布生成所述音频信号频率的概率分布。
可选的,在一些实施例中,在所述音频信号检测方法中,所述统计所述子带的直方图概率分布图之后,还包括:
将所述音频信号频率的概率分布进行归一化处理,得到归一化概率分布;
所述在所述音频信号频率的概率分布存在波谷时,确定所述音频信号为频带缺失信号,具体为:在所述归一化概率分布存在波谷时,确定所述音频信号为频带缺失信号。
可选的,在一些实施例中,在所述音频信号检测方法中,判断所述音频信号频率的概率分布是否存在波谷,包括:
从所述频域信号的多个子带中确定第二子带,从所述频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;
判断所述音频信号频率的概率分布中是否存在满足预设条件的频带,所述预设条件为:第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值、第三子带的概率大于第一预设阈值;
若存在满足预设条件的频带,则确定所述概率分布存在波谷;
若不存在满足预设条件的频带,则确定所述概率分布不存在波谷。
可选的,在一些实施例中,在所述音频信号检测方法中,所述获取待检测的音频信号之后,还包括:
将所述音频信号的幅度进行归一化处理,得到归一化后信号;
所述对所述音频信号进行时频变换,得到频域信号,包括:
对所述归一化后信号进行时频变换,得到频域信号。
相应的,本申请实施例还提供一种音频信号检测装置,包括:
获取模块,用于获取待检测的音频信号;
处理模块,用于对所述音频信号进行时频变换,得到频域信号,并对所述频域信号的频率分布进行子带划分;
统计模块,用于获得所述子带的平均能量值,并统计所述子带的直方图概率分布图,所述直方图概率分布图包含所述音频信号频率的概率分布;
确定模块,用于在所述音频信号频率的概率分布存在波谷时,确定所述音频信号为频带缺失信号。
可选的,在一些实施例中,在所述音频信号检测装置中,所述处理模块包括分帧子模块、加窗子模块和变换子模块,如下:
所述分帧子模块,用于将所述音频信号进行分帧,得到帧信号;
所述加窗子模块,用于对所述帧信号进行加窗处理,得到加窗后信号;
所述变换子模块,用于将所述加窗后信号进行时频变换,得到频域信号。
可选的,在一些实施例中,在所述音频信号检测装置中,所述统计模块包括比较子模块、统计子模块、循环子模块和生成子模块,如下:
所述比较子模块,用于将每个子带的平均能量值与预设能量值进行比较;
所述统计子模块,用于若所述子带的平均能量值大于预设能量值,则对所述子带的直方图频数进行累加,得到所述子带的直方图概率分布图;
所述循环子模块,用于返回执行将所述音频信号进行分帧步骤,直至得到所述音频信号中所有帧信号频率的概率分布;
所述生成子模块,用于根据所有帧信号对应的概率分布生成所述音频信号频率的概率分布。
可选的,在一些实施例中,在所述音频信号检测装置中,还包括归一化模块,如下:
所述归一化模块,用于将所述音频信号频率的概率分布进行归一化处理,得到归一化概率分布;
则所述确定模块,具体用于在所述归一化概率分布存在波谷时,确定所述音频信号为频带缺失信号。
可选的,在一些实施例中,在所述音频信号检测装置中,还包括判断模块,如下:
所述判断模块,用于从所述频域信号的多个子带中确定第二子带,从所述频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;判断所述全部概率分布中是否存在满足预设条件的频带,所述预设条件为第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值和第三子带的概率大于第一预设阈值;若存在满足预设条件的频带,则确定所述概率分布存在波谷;若不存在满足预设条件的频带,则确定所述概率分布不存在波谷。
可选的,在一些实施例中,在所述音频信号检测装置中,还包括幅度处理模块,如下:
所述幅度处理模块,用于将所述音频信号的幅度进行归一化处理,得到归一化后信号;
则所述处理模块,具体用于对所述归一化信号进行时频变换,得到频域信号。
此外,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种音频信号检测方法中的步骤。
本申请在对音频信号进行检测时,可以获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,然后,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,接着,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号;该方案通过对音频信号进行分帧,并统计该帧信号频率的概率分布,最后利用得到音频信号频率的概率分布来查找波谷的方式判断音频信号是否存在频带缺失信号,从而有效快速地筛选出有频带缺失的音频文件。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的音频信号检测方法的场景示意图;
图1b是本申请实施例提供的音频信号检测方法的第一流程示意图;
图2a是本申请实施例提供的音频信号检测方法的第二流程示意图;
图2b是本申请实施例提供的音频信号的频率分布示意图;
图2c是本申请实施例提供的音频信号缺失的概率分布示意图;
图2d是本申请实施例提供的正常的音频信号的概率分布第一示意图;
图2e是本申请实施例提供的正常的音频信号的概率分布第二示意图;
图3是本申请实施例提供的音频信号检测装置的结构示意图;
图4是本申请实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
本申请实施例提供一种音频信号检测方法、装置和存储介质。
其中,该音频信号检测装置具体可以集成在网络设备中,该网络设备可以是终端或服务器等设备,例如,参见图1a,用户在需要从海量的音频文件中识别出失真的音频文件时,可以触发网络设备对音频文件进行处理,网络设备可以获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,然后,获取该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,接着,判断所述音频信号频率的概率分布是否存在波谷,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号,并将最后的检测结果发送给用户。
可选的,可以对待检测的音频信号的幅度进行归一化处理,以助于后续检测的准确性,避免由于输入音频源的幅度大小不一造成的误判。
以下分别进行详细说明。需说明的是,以下实施例的顺序不作为对实施例优选顺序的限定。
在本实施例中,将从音频信号检测装置的角度进行描述,该音频信号检测装置具体可以集成在网络设备中,该网络设备可以是终端或服务器等设备,其中,该终端可以包括平板电脑、笔记本电脑或个人计算机(Personal Computer,PC)等。
本申请实施例提供一种音频信号检测方法,包括:获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号。
如图1b所示,该音频信号检测方法的具体流程可以如下:
101、获取待检测的音频信号。
例如,具体可以从网络、手机或者视频等各种途径来获取音频文件,进而提供给该音频信号检测装置,即,该音频信号检测装置具体可以接收各种途径获取到的音频文件,从这些文件中提取出待检测的音频信号。
其中,音频文件可以为:声音文件和乐器数字接口(Musical Instrument DigitalInterface,MIDI)文件。声音文件是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据;MIDI文件是一种音乐演奏指令序列,可利用声音输出设备或与计算机相连的电子乐器进行演奏。而音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。根据声波的特征,可把音频信息分类为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。
例如,为了后续检测的准确性,避免由于输入音频源的幅度大小不一造成的误判,具体可以将获取到的音频信号的幅度进行归一化处理,得到归一化后信号,然后,执行步骤102,即对归一化后信号进行时频变换,得到频域信号。
比如,归一化处理可以如下:
Figure BDA0002032065150000071
其中,y表示归一化前的音频信号,即待检测的音频信号,x表示归一化后的音频信号,即归一化信号,max(abs(y))表示信号y的幅值绝对值的最大值。
102、对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分。
例如,为了解决音频时长不一的情况,具体可以将该音频信号进行分帧,得到帧信号,再对该帧信号进行加窗处理,得到加窗后信号,然后,将加窗后信号进行变换,得到频域信号,并对该频域信号的频率分布进行子带划分。
其中,加窗处理可以使用汉明窗、汉宁窗或海明窗等进行处理。加窗处理可以用于对截断处的不连续变化进行平滑,减少泄漏。此外,加窗处理还可以减少噪声干扰、限定测试的持续时间、从频率接近的信号中分离出幅值不同的信号等等。然后,可以将加窗后信号进行快速傅里叶变换,得到频域信号。比如,x(n)表示幅度归一化的音频信号,即归一化后信号,先对音频信号x(n)进行加窗处理,然后对加窗后的信号进行傅里叶变换,用x(k)表示其在FFT变换后的频域,k取值范围为[0,1,…,N–1],其中N为FFT的点数,k表示FFT系数的频点。
例如,将音频信号从时域转换成频域后,由奈奎斯特定理知道,其频域成分的范围为0~22.05kHz,可以将频域信号划分为多个子带,即“对该频域信号的频率分布进行子带划分”,比如,可以根据实际处理需要将该频域信号划分为多个等间隔子带。
103、获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布。
例如,具体可以计算每个子带的平均能量,得到每个子带的平均能量值,将每个子带的平均能量值与预设能量值进行比较,若该子带的平均能量值大于预设能量值,则对该子带对应的直方图频数进行累加,若该子带的平均能量值小于或等于预设能量值,则该子带对应的直方图频数不进行累加,得到该子带的直方图概率分布图,再然后,判断是否还有未处理的音频信号,若有,则返回执行将该音频信号进行分帧步骤,若无,则得到该音频信号中所有帧信号频率的概率分布,并根据所有帧信号对应的概率分布生成该音频信号频率的概率分布。
例如,根据所有帧信号对应的概率分布生成该音频信号频率的概率分布具体可以待音频文件处理完成,将得到所有帧信号对应的概率分布,即各子带的直方图频数,根据所有帧信号对应的概率分布生成该音频信号频率的概率分布,即根据各子带的直方图频数生成该音频信号频率的概率分布。
其中,计算每个子带的平均能量可以如下:
Figure BDA0002032065150000081
其中,b(m)表示第m子带包含的频点,C(m)表示第m子带的频点总数,eps是一个极小的正数,避免能量为0的情况下,取对数出现异常。
其中,预设能量值的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设能量值可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
待音频文件处理完成,将得到各子带的直方图频数,此时可以对直方图进行归一化,使其表示相对频率,其高度为1。该处理可以规避文件长短不一造成的频数差距过大,即在步骤“统计该子带的直方图概率分布图”之后,还包括:
将该音频信号频率的概率分布进行归一化处理,得到归一化概率分布。
104、在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号。
例如,具体可以在得到音频信号频率的概率分布后,判断该音频信号频率的概率分布中是否存在满足预设条件的频带,若存在满足预设条件的频带,则确定该概率分布存在波谷,则确定该音频信号为频带缺失信号,若不存在满足预设条件的频带,则确定该概率分布不存在波谷,则确定该音频信号为正常音频信号,即该音频文件为正常音频文件。即“判断该音频信号频率的概率分布是否存在波谷”,可以包括:
从该频域信号的多个子带中确定第二子带,从该频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;
判断该音频信号频率的概率分布中是否存在满足预设条件的频带,该预设条件为第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值和第三子带的概率大于第一预设阈值;若存在满足预设条件的频带,则确定该概率分布存在波谷;若不存在满足预设条件的频带,则确定该概率分布不存在波谷。
其中,预设条件可以表示为:
P(m1)>threshold1,P(m2)<threshold2,P(m3)>threshold3,m1<m2<m3
其中,m1为第一子带,m2为第二子带,m3为第三子带,P(m1)为第一子带的概率,P(m2)为第二子带的概率,P(m3)为第三子带的概率,threshold1为第一预设阈值,threshold2为第二预设阈值。
其中,预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设条件可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
其中,预设阈值的设定方式也可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设阈值可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
由上可知,本实施例在对音频信号进行检测时,可以获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,然后,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,接着,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号;该方案通过对音频信号进行分帧,并统计该帧信号频率的概率分布,最后利用得到音频信号频率的概率分布来查找波谷的方式判断音频信号是否存在频带缺失信号,从而有效快速地筛选出有频带缺失的音频文件,以便后续对这些频带缺失的音频文件进行修复或者替换,进而保证用户可以收听到优质的音频文件。
根据前面实施例所描述的方法,以下将以该音频信号检测装置具体集成在网络设备中举例作进一步详细说明。
如图2a所示,一种音频信号检测方法,具体流程可以如下:
201、网络设备获取待检测的音频信号。
例如,网络设备可以将统计直方图初始化,即H(m)=0,用户具体可以从网络、手机或者视频等各种途径来获取音频文件,进而提供给网络设备,网络设备可以接收各种途径获取到的音频文件,并从这些文件中提取出待检测的音频信号。
202、网络设备将该音频信号进行分帧,得到帧信号。
例如,为了后续检测的准确性,避免由于输入音频源的幅度大小不一造成的误判,网络设备具体可以将获取到的音频信号的幅度进行归一化处理,将幅度限制在[-1.0 1.0]的范围内,得到归一化后信号,然后,对归一化后信号进行分帧,得到帧信号。
比如,归一化处理可以如下:
Figure BDA0002032065150000101
其中,y表示归一化前的音频信号,即待检测的音频信号,x表示归一化后的音频信号,即归一化信号,max(abs(y))表示信号y的幅值绝对值的最大值。
203、网络设备对该帧信号进行加窗处理,得到加窗后信号。
其中,加窗处理可以使用汉明窗、汉宁窗或海明窗等进行处理。加窗处理可以用于对截断处的不连续变化进行平滑,减少泄漏。此外,加窗处理还可以减少噪声干扰、限定测试的持续时间、从频率接近的信号中分离出幅值不同的信号等等。
204、网络设备将该加窗后信号进行变换,得到频域信号。
例如,网络设备具体可以将该加窗后信号进行快速傅里叶变换,得到频域信号。比如,x(n)表示幅度归一化的音频信号,先对音频信号x(n)进行加窗处理,然后对加窗后的信号进行傅里叶变换,用x(k)表示其在FFT变换后的频域,k取值范围为[0,1,…,N–1],其中N为FFT的点数,k表示FFT系数的频点。其中N为2的指数倍,可以取20ms左右的时长,对于44kHz的采样率,N可以取1024。
205、网络设备将该频域信号划分为多个子带,并计算每个子带的平均能量。
例如,具体可以在网络设备将音频信号从时域转换成频域后,由奈奎斯特定理知道,其频域成分的范围为0~22.05kHz,网络设备可以根据实际处理需要将该频域信号划分为多个等间隔子带,计算每个子带的平均能量,得到每个子带的平均能量值。比如,可以从0Hz到22.05kHz每隔500Hz进行子带划分,一共有44个子带。
其中,计算每个子带的平均能量可以如下:
Figure BDA0002032065150000111
其中,b(m)表示第m子带包含的频点,C(m)表示第m子带的频点总数,eps是一个极小的正数,避免能量为0的情况下,取对数出现异常。
206、网络设备对每个子带的直方图频数进行统计,得到该帧信号频率的概率分布。
例如,具体可以将每个子带的平均能量值与预设能量值进行比较,若该子带的平均能量值大于预设能量值,则对该子带对应的直方图频数进行累加,若该子带的平均能量值小于或等于预设能量值,则该子带对应的直方图频数不进行累加,统计完成后得到该帧信号频率的概率分布。比如,可以用H(m)表示第m子带的直方图频数。根据计算得到的各子带的平均能量值,与预设能量值进行比较,如果大于预设能量值,则对应子带的直方图频数H(m)累计加1,否则不加1,统计完成后得到该帧信号频率的概率分布。
其中,预设能量值的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设能量值可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。比如,预设能量值可以设为-100,如图2b所示,若将预设能量值设为-100,则能明显的区分出6~8kHz以及17kHz以上的频率成分能量很少,从而得知6~8kHz的频带异常缺失。
207、网络设备返回执行将该音频信号进行分帧步骤,直至得到该音频信号中所有帧信号频率的概率分布,然后执行步骤208。
例如,网络设备可以判断是否还有未处理的音频信号,若有未处理的音频信号,则返回执行将该音频信号进行分帧步骤,若没有,即所有的音频信号处理完毕,则得到该音频信号中所有帧信号频率的概率分布。
208、网络设备根据所有帧信号对应的概率分布生成该音频信号频率的概率分布。
例如,具体可以待音频文件处理完成,将得到所有帧信号对应的概率分布,即各子带的直方图频数,根据所有帧信号对应的概率分布生成该音频信号频率的概率分布,即根据各子带的直方图频数生成该音频信号频率的概率分布,此时可以对直方图进行归一化,使其表示相对频率,其高度为1。该处理可以规避文件长短不一造成的频数差距过大,比如,如图2c所示,还可以将该音频信号频率的概率分布进行归一化处理,得到归一化概率分布。
209、网络设备在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号。
例如,具体可以在得到音频信号频率的概率分布后,判断该音频信号频率的概率分布中是否存在满足预设条件的频带,若存在满足预设条件的频带,则确定该概率分布存在波谷,则确定该音频信号为频带缺失信号,若不存在满足预设条件的频带,则确定该概率分布不存在波谷,则确定该音频信号为正常音频信号,即该音频文件为正常音频文件。
比如,可以从该频域信号的多个子带中确定第二子带,从该频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;判断该音频信号频率的概率分布中是否存在满足预设条件的频带,该预设条件可以为:第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值、第三子带的概率大于第一预设阈值;若存在满足预设条件的频带,则确定该概率分布存在波谷;若不存在满足预设条件的频带,则确定该概率分布不存在波谷。
其中,预设条件可以表示为:
P(m1)>threshold1,P(m2)<threshold2,P(m3)>threshold3,m1<m2<m3
其中,m1为第一子带,m2为第二子带,m3为第三子带,P(m1)为第一子带的概率,P(m2)为第二子带的概率,P(m3)为第三子带的概率,threshold1为第一预设阈值,threshold2为第二预设阈值。比如,以从0Hz到22.05kHz每隔500Hz进行子带划分,一共有44个子带为例,第一子带可以为44个子带中的第8个子带,第二子带可以为44个子带中的第15个子带,第三子带可以为44个子带中的第23个子带。
其中,第一预设阈值可以取比较大的值,比如0.8,第二预设阈值可以取比较小的值,比如0.2。
其中,预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设条件可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
其中,预设阈值的设定方式也可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设阈值可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
比如,如图2c所示,可以看出图2c有一个波谷,即在概率大幅下降到一个很小的值后,又回到一个较高的概率。网络设备就是判断是否存在一个波谷,如存在,则判定该音频文件为频带缺失音频文件,否则判定该音频文件为正常音频文件。而音频文件为正常音频文件如图2d和图2e所示,图2d是比较典型的128kbps码率的mp3的概率分布示意图,图2e是比较典型的无损音频的概率分布示意图。
可选的,在检测出频带缺失信号之后,还可以对这些频带缺失信号进行修复或替换,以保证用户可以收听到优质的音频文件。
由上可知,本实施例的网络设备在对音频信号进行检测时,可以获取待检测的音频信号,将该音频信号进行分帧,得到帧信号,然后,统计该帧信号频率的概率分布,返回执行将该音频信号进行分帧步骤,直至得到该音频信号中所有帧信号频率的概率分布,再然后,根据所有帧信号对应的概率分布生成该音频信号频率的概率分布,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号;该方案通过对音频信号进行分帧,并统计该帧信号频率的概率分布,最后利用得到音频信号频率的概率分布来查找波谷的方式判断音频信号是否存在频带缺失信号,从而有效快速地筛选出有频带缺失的音频文件。
此外,该方案还可以对频带缺失信号进行修复或替换,因此,可以提高音频文件的质量,改善用户体验。
为了更好地实施本申请实施例提供的音频信号检测方法,本申请实施例还提供一种音频信号检测装置,该音频信号检测装置具体可以集成在如手机、平板电脑、掌上电脑等网络设备中。其中名词的含义与上述音频信号检测方法中相同,具体实现细节可以参考方法实施例中的说明。
例如,如图3所示,音频信号检测装置可以包括获取模块301、处理模块302、统计模块303以及确定模块304,如下:
(1)获取模块301;
获取模块301,用于获取待检测的音频信号。
例如,具体可以从网络、手机或者视频等各种途径来获取音频文件,进而提供给获取模块301,即,获取模块301具体可以接收各种途径获取到的音频文件,从这些文件中提取出待检测的音频信号。
可选的,为了后续检测的准确性,避免由于输入音频源的幅度大小不一造成的误判,在某些实施方式中,还包括幅度处理模块:
幅度处理模块,用于将该音频信号的幅度进行归一化处理,得到归一化后信号。
其中,归一化处理可以如下:
Figure BDA0002032065150000141
其中,y表示归一化前的音频信号,即待检测的音频信号,x表示归一化后的音频信号,即归一化信号,max(abs(y))表示信号y的幅值绝对值的最大值。
(2)处理模块302;
处理模块302,用于对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分。
可选的,为了解决音频时长不一的情况,在某些实施方式中,处理模块302可以包括分帧子模块、加窗子模块和变换子模块,如下:
分帧子模块,用于将该音频信号进行分帧,得到帧信号。
加窗子模块,用于将该帧信号进行加窗处理,得到加窗后信号;
变换子模块,用于将该加窗后信号进行变换,得到频域信号。
比如,先由分帧子模块将该音频信号进行分帧,得到帧信号,接着,加窗子模块对该帧信号进行加窗处理,得到加窗后信号,然后,变换子模块将加窗后信号进行变换,得到频域信号,再然后,对该频域信号的频率分布进行子带划分。
其中,加窗处理可以使用汉明窗、汉宁窗或海明窗等进行处理。加窗处理可以用于对截断处的不连续变化进行平滑,减少泄漏。此外,加窗处理还可以减少噪声干扰、限定测试的持续时间、从频率接近的信号中分离出幅值不同的信号等等。然后,可以将加窗后信号进行快速傅里叶变换,得到频域信号。比如,x(n)表示幅度归一化的音频信号,即归一化后信号,先对音频信号x(n)进行加窗处理,然后对加窗后的信号进行傅里叶变换,用x(k)表示其在FFT变换后的频域,k取值范围为[0,1,…,N–1],其中N为FFT的点数,k表示FFT系数的频点。
在某些实施方式中,处理模块302可以对频域信号划分为多个子带,即“对该频域信号的频率分布进行子带划分”,比如,可以根据实际处理需要将该频域信号划分为多个等间隔子带。
(3)统计模块303;
统计模块303,用于获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布。
可选的,在某些实施方式中,该统计模块包括比较子模块、统计子模块、循环子模块和生成子模块,如下:
比较子模块,用于将每个子带的平均能量值与预设能量值进行比较;
统计子模块,用于若该子带的平均能量值大于预设能量值,则对该子带的直方图频数进行累加,得到该子带的直方图概率分布图;
循环子模块,用于返回执行将该音频信号进行分帧步骤,直至得到该音频信号中所有帧信号频率的概率分布;
生成子模块,用于根据所有帧信号对应的概率分布生成该音频信号频率的概率分布。
例如,统计模块303具体可以计算每个子带的平均能量,得到每个子带的平均能量值,将每个子带的平均能量值与预设能量值进行比较,若该子带的平均能量值大于预设能量值,则对该子带的直方图频数进行累加,若该子带的平均能量值小于或等于预设能量值,则该子带对应的直方图频数不进行累加,得到该子带的直方图概率分布图,再然后,判断是否还有未处理的音频信号,再返回执行分帧子模块将该音频信号进行分帧,直至得到该音频信号中所有帧信号频率的概率分布,并根据所有帧信号对应的概率分布生成该音频信号频率的概率分布。
其中,计算每个子带的平均能量可以如下:
Figure BDA0002032065150000161
其中,b(m)表示第m子带包含的频点,C(m)表示第m子带的频点总数,eps是一个极小的正数,避免能量为0的情况下,取对数出现异常。
其中,预设能量值的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设能量值可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
为了规避文件长短不一造成的频数差距过大,此时可以对直方图进行归一化,使其表示相对频率,其高度为1,即该音频信号检测装置,还可以包括归一化模块:
归一化模块,用于将该音频信号频率的概率分布进行归一化处理,得到归一化概率分布。
(5)确定模块304;
确定模块304,用于在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号。
例如,确定模块304,具体可以用于在得到音频信号频率的概率分布后,判断该音频信号频率的概率分布中是否存在满足预设条件的频带,若存在满足预设条件的频带,则确定该概率分布存在波谷,则确定该音频信号为频带缺失信号,若不存在满足预设条件的频带,则确定该概率分布不存在波谷,则确定该音频信号为正常音频信号,即该音频文件为正常音频文件。确定模块304用于确定该音频信号为频带缺失信号的实施方式有很多种,在某些实施方式中,还可以包括判断模块:
判断模块,用于从该频域信号的多个子带中确定第二子带,从该频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;判断该音频信号频率的概率分布中是否存在满足预设条件的频带,该预设条件为第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值和第三子带的概率大于第一预设阈值;若存在满足预设条件的频带,则确定该概率分布存在波谷;若不存在满足预设条件的频带,则确定该概率分布不存在波谷。
其中,预设条件可以表示为:
P(m1)>threshold1,P(m2)<threshold2,P(m3)>threshold3,m1<m2<m3
其中,m1为第一子带,m2为第二子带,m3为第三子带,P(m1)为第一子带的概率,P(m2)为第二子带的概率,P(m3)为第三子带的概率,threshold1为第一预设阈值,threshold2为第二预设阈值。
其中,预设条件的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设条件可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
其中,预设阈值的设定方式也可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在网络设备中。此外,预设阈值可以内置于网络设备中,或者,也可以保存在存储器中并发送给网络设备,等等。
本领域技术人员可以理解,图3中示出的音频信号检测装置并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。此外,需说明的是,上述各个单元的具体实施可参见前面的方法实施例,在此不作赘述。
由上可知,本实施例的音频信号检测装置,在对音频信号进行检测时,获取模块301可以获取待检测的音频信号,处理模块302对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,然后,统计模块303获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,接着,确定模块305在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号;该方案通过对音频信号进行分帧,并统计该帧信号频率的概率分布,最后利用得到音频信号频率的概率分布来查找波谷的方式判断音频信号是否存在频带缺失信号,从而有效快速地筛选出有频带缺失的音频文件。
相应的,本发明实施例还提供一种网络设备,该网络设备可以为服务器或终端等设备,其集成了本发明实施例所提供的任一种音频信号检测装置。如图4所示,其示出了本发明实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
网络设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待检测的音频信号,将该对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号。
可选的,判断该音频信号频率的概率分布是否存在波谷,可以包括:从所述频域信号的多个子带中确定第二子带,从所述频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;判断该音频信号频率的概率分布中是否存在满足预设条件的频带,该预设条件为:第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值、第三子带的概率大于第一预设阈值;若存在满足预设条件的频带,则确定该概率分布存在波谷;若不存在满足预设条件的频带,则确定该概率分布不存在波谷。
以上各个操作具体可参见前面的实施例,在此不再赘述。
由上可知,本实施例的网络设备在对音频信号进行检测时,可以获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,然后,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,接着,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号;该方案通过对音频信号进行分帧,并统计该帧信号频率的概率分布,最后利用得到音频信号频率的概率分布来查找波谷的方式判断音频信号是否存在频带缺失信号,从而有效快速地筛选出有频带缺失的音频文件。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种音频信号检测方法中的步骤。例如,该指令可以执行如下步骤:
获取待检测的音频信号,对该音频信号进行时频变换,得到频域信号,并对该频域信号的频率分布进行子带划分,获得该子带的平均能量值,并统计该子带的直方图概率分布图,该直方图概率分布图包含该音频信号频率的概率分布,在该音频信号频率的概率分布存在波谷时,确定该音频信号为频带缺失信号。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种音频信号检测方法中的步骤,因此,可以实现本申请实施例所提供的任一种应用于音频信号检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种音频信号检测方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种音频信号检测方法,其特征在于,包括:
获取待检测的音频信号;
对所述音频信号进行时频变换,得到频域信号,并对所述频域信号的频率分布进行子带划分;
获得所述子带的平均能量值,并统计所述子带的直方图概率分布图,所述直方图概率分布图包含音频信号频率的概率分布;
在所述音频信号频率的概率分布存在波谷时,确定所述音频信号为频带缺失信号。
2.根据权利要求1所述音频信号检测方法,其特征在于,所述对所述音频信号进行时频变换,得到频域信号,包括:
将所述音频信号进行分帧,得到帧信号;
对所述帧信号进行加窗处理,得到加窗后信号;
将所述加窗后信号进行变换,得到频域信号。
3.根据权利要求2所述音频信号检测方法,其特征在于,所述统计所述子带的直方图概率分布图,包括:
将每个子带的平均能量值与预设能量值进行比较;
若所述子带的平均能量值大于预设能量值,则对所述子带的直方图频数进行累加,得到所述子带的直方图概率分布图;
返回执行将所述音频信号进行分帧步骤,直至得到所述音频信号中所有帧信号频率的概率分布;
根据所有帧信号对应的概率分布生成所述音频信号频率的概率分布。
4.根据权利要求1所述音频信号检测方法,其特征在于,所述获取待检测的音频信号之后,还包括:
将所述音频信号的幅度进行归一化处理,得到归一化后信号;
所述对所述音频信号进行时频变换,得到频域信号,包括:
对所述归一化后信号进行时频变换,得到频域信号。
5.根据权利要求1至4任一项所述音频信号检测方法,其特征在于,判断所述音频信号频率的概率分布是否存在波谷,包括:
从所述频域信号的多个子带中确定第二子带,从所述频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;
判断所述音频信号频率的概率分布中是否存在满足预设条件的频带,所述预设条件为第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值和第三子带的概率大于第一预设阈值;
若存在满足预设条件的频带,则确定所述概率分布存在波谷;
若不存在满足预设条件的频带,则确定所述概率分布不存在波谷。
6.根据权利要求1至4任一项所述音频信号检测方法,其特征在于,所述统计所述子带的直方图概率分布图之后,还包括:
将所述音频信号频率的概率分布进行归一化处理,得到归一化概率分布;
所述在所述音频信号频率的概率分布存在波谷时,确定所述音频信号为频带缺失信号,具体为:在所述归一化概率分布存在波谷时,确定所述音频信号为频带缺失信号。
7.一种音频信号检测装置,其特征在于,包括:
获取模块,用于获取待检测的音频信号;
处理模块,用于对所述音频信号进行时频变换,得到频域信号,并对所述频域信号的频率分布进行子带划分;
统计模块,用于获得所述子带的平均能量值,并统计所述子带的直方图概率分布图,所述直方图概率分布图包含音频信号频率的概率分布;
确定模块,用于在所述音频信号频率的概率分布存在波谷时,确定所述音频信号为频带缺失信号。
8.根据权利要求7所述音频信号检测装置,其特征在于,所述处理模块,包括:
分帧子模块,用于将所述音频信号进行分帧,得到帧信号;
加窗子模块,用于对所述帧信号进行加窗处理,得到加窗后信号;
变换子模块,用于将所述加窗后信号进行时频变换,得到频域信号。
9.根据权利要求8所述音频信号检测装置,其特征在于,所述统计模块,包括:
比较子模块,用于将每个子带的平均能量值与预设能量值进行比较;
统计子模块,用于若所述子带的平均能量值大于预设能量值,则对所述子带的直方图频数进行累加,得到所述子带的直方图概率分布图;
循环子模块,用于返回执行将所述音频信号进行分帧步骤,直至得到所述音频信号中所有帧信号频率的概率分布;
生成子模块,用于根据所有帧信号对应的概率分布生成所述音频信号频率的概率分布。
10.根据权利要求7所述音频信号检测装置,其特征在于,还包括:
幅度处理模块,用于将所述音频信号的幅度进行归一化处理,得到归一化后信号;
则所述处理模块,具体用于对所述归一化后信号进行时频变换,得到频域信号。
11.根据权利要求7至10任一项所述音频信号检测装置,其特征在于,还包括:
判断模块,用于从所述频域信号的多个子带中确定第二子带,从所述频域信号的多个子带中选择小于第二子带的子带为第一子带,选择大于第二子带的子带为第三子带;判断所述音频信号频率的概率分布中是否存在满足预设条件的频带,所述预设条件为第一子带的概率大于第一预设阈值、第二子带的概率小于第二预设阈值和第三子带的概率大于第一预设阈值;若存在满足预设条件的频带,则确定所述概率分布存在波谷;若不存在满足预设条件的频带,则确定所述概率分布不存在波谷。
12.根据权利要求7至10任一项所述音频信号检测装置,其特征在于,还包括:
归一化模块,用于将所述音频信号频率的概率分布进行归一化处理,得到归一化概率分布;
则所述确定模块,具体用于在所述归一化概率分布存在波谷时,确定所述音频信号为频带缺失信号。
13.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至6任一项所述的音频信号检测方法中的步骤。
CN201910312801.4A 2019-04-18 2019-04-18 音频信号检测方法、装置和存储介质 Active CN110111811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910312801.4A CN110111811B (zh) 2019-04-18 2019-04-18 音频信号检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910312801.4A CN110111811B (zh) 2019-04-18 2019-04-18 音频信号检测方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110111811A CN110111811A (zh) 2019-08-09
CN110111811B true CN110111811B (zh) 2021-06-01

Family

ID=67485744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312801.4A Active CN110111811B (zh) 2019-04-18 2019-04-18 音频信号检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110111811B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627459B (zh) * 2019-09-19 2023-07-18 北京安声浩朗科技有限公司 音频处理方法及装置、计算机可读存储介质及电子设备
CN110796644B (zh) * 2019-10-23 2023-09-19 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件的缺陷检测方法及相关设备
CN111639225B (zh) * 2020-05-22 2023-09-08 腾讯音乐娱乐科技(深圳)有限公司 一种音频信息的检测方法、装置及存储介质
CN111883182B (zh) * 2020-07-24 2024-03-19 平安科技(深圳)有限公司 人声检测方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2832875A1 (fr) * 2001-11-23 2003-05-30 Canon Kk Codage et decodage de signal numerique
CN1912992A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 一种基于谐波特征的浊音检测方法
US20080147391A1 (en) * 2006-12-15 2008-06-19 Samsung Electronics Co., Ltd. Method of and apparatus for transforming speech feature vector
US20120243694A1 (en) * 2011-03-21 2012-09-27 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
WO2013153442A1 (en) * 2012-04-13 2013-10-17 Dejero Labs Inc. A system and method for transmission of data from a wireless mobile device over a multipath wireless router
CN104065599A (zh) * 2013-03-20 2014-09-24 中兴通讯(美国)公司 数字通信中的统计自适应软判决前向纠错
CN104681038A (zh) * 2013-11-29 2015-06-03 清华大学 音频信号质量检测方法及装置
CN105989853A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 一种音频质量评测方法及系统
CN108470571A (zh) * 2018-03-08 2018-08-31 腾讯音乐娱乐科技(深圳)有限公司 一种音频检测方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157620B2 (en) * 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
CN108922554B (zh) * 2018-06-04 2022-08-23 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2832875A1 (fr) * 2001-11-23 2003-05-30 Canon Kk Codage et decodage de signal numerique
CN1912992A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 一种基于谐波特征的浊音检测方法
US20080147391A1 (en) * 2006-12-15 2008-06-19 Samsung Electronics Co., Ltd. Method of and apparatus for transforming speech feature vector
US20120243694A1 (en) * 2011-03-21 2012-09-27 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
WO2013153442A1 (en) * 2012-04-13 2013-10-17 Dejero Labs Inc. A system and method for transmission of data from a wireless mobile device over a multipath wireless router
CN104065599A (zh) * 2013-03-20 2014-09-24 中兴通讯(美国)公司 数字通信中的统计自适应软判决前向纠错
CN104681038A (zh) * 2013-11-29 2015-06-03 清华大学 音频信号质量检测方法及装置
CN105989853A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 一种音频质量评测方法及系统
CN108470571A (zh) * 2018-03-08 2018-08-31 腾讯音乐娱乐科技(深圳)有限公司 一种音频检测方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Toward intelligent music information retrieval;Tao Li et al.;《IEEE Transactions on Multimedia》;20060630;第8卷(第3期);第564-574页 *
Visualization in Audio-Based Music Information Retrieval;Matthew Cooper et al.;《Computer Music Journal》;20061231;第42-62页 *
基于内容的音频检索研究;孙国成;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100515(第5期);第1-36页 *

Also Published As

Publication number Publication date
CN110111811A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111811B (zh) 音频信号检测方法、装置和存储介质
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
EP2828856B1 (en) Audio classification using harmonicity estimation
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
CN1727860B (zh) 语音噪音抑制方法和语音噪音抑制器
KR100896737B1 (ko) 오디오 신호의 견고한 분류를 위한 장치 및 방법, 오디오신호 데이터베이스를 설정 및 운영하는 방법, 및 컴퓨터프로그램
CN111149370B (zh) 会议系统中的啸叫检测
CN105118522B (zh) 噪声检测方法及装置
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
US20230162753A1 (en) Methods and Apparatus to Reduce Noise from Harmonic Noise Sources
CN109361995B (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
CN111739542A (zh) 一种特征声音检测的方法、装置及设备
US9754606B2 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
CN110556125A (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN111312290B (zh) 音频数据音质检测方法及装置
US20230267947A1 (en) Noise reduction using machine learning
US20220254365A1 (en) Method and device for audio repair and readable storage medium
WO2021108186A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
CN111312287A (zh) 一种音频信息的检测方法、装置及存储介质
CN113593604A (zh) 检测音频质量方法、装置及存储介质
CN113156373B (zh) 声源定位方法、数字信号处理装置及音频系统
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant