CN111028860B - 音频数据处理方法、装置、计算机设备以及存储介质 - Google Patents

音频数据处理方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN111028860B
CN111028860B CN201911155938.XA CN201911155938A CN111028860B CN 111028860 B CN111028860 B CN 111028860B CN 201911155938 A CN201911155938 A CN 201911155938A CN 111028860 B CN111028860 B CN 111028860B
Authority
CN
China
Prior art keywords
audio data
robustness
features
frame
resampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911155938.XA
Other languages
English (en)
Other versions
CN111028860A (zh
Inventor
毛光亮
陈茂华
曾剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Kangguan Intelligent Technology Co ltd
Original Assignee
Shenzhen Kangguan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Kangguan Intelligent Technology Co ltd filed Critical Shenzhen Kangguan Intelligent Technology Co ltd
Priority to CN201911155938.XA priority Critical patent/CN111028860B/zh
Publication of CN111028860A publication Critical patent/CN111028860A/zh
Application granted granted Critical
Publication of CN111028860B publication Critical patent/CN111028860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明实施例公开了一种音频数据处理方法、装置、计算机设备以及存储介质,所述方法包括:对原始音频数据进行重采样;将重采样后的音频数据转换为重叠帧;使用Hanming窗对重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;若鲁棒性特征与预设模板鲁棒性特征不匹配,判定原始音频数据为异常音频数据,否则判定原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频测试的效率。

Description

音频数据处理方法、装置、计算机设备以及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种音频数据处理方法、装置、计算机设备以及存储介质。
背景技术
目前,市面上存在的音频处理技术,由于需要通过将音频数据进行喇叭回放之后才能完成音频处理,这种处理方式需要静音环境才能够顺利进行,但是,现实中的很多场景都是噪音环境,例如工厂,由于有噪音渗入喇叭所回放的声音中,导致在对音频进行处理(例如音频识别)时,大部分的音频识别都是靠人为的主观意识进行判断才能够完成,这种传统的处理方式无法在噪音环境中完成,严重影响了音频处理的准确性,降低音频测试的效率。
发明内容
有鉴于此,本发明实施例提供一种音频数据处理方法、装置、计算机设备以及存储介质,能够提高音频处理的准确性以及音频测试的效率。
一方面,本发明实施例提供了一种音频数据处理方法,该方法包括:
对原始音频数据进行重采样;
将重采样后的音频数据转换为重叠帧;
使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;
若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。
另一方面,本发明实施例提供了一种音频数据处理装置,所述装置包括:
重采样单元,用于对原始音频数据进行重采样;
转换单元,用于将重采样后的音频数据转换为重叠帧;
加权处理单元,用于使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
处理提取单元,用于将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
匹配单元,用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;
第一判定单元,用于若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
第二判定单元,用于若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。
又一方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的音频数据处理方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如上所述的音频数据处理方法。
本发明实施例提供一种音频数据处理方法、装置、计算机设备以及存储介质,其中方法包括:对原始音频数据进行重采样;将重采样后的音频数据转换为重叠帧;使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频测试的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种音频数据处理方法的应用场景示意图;
图2是本发明实施例提供的一种音频数据处理方法的示意流程图;
图3是本发明实施例提供的一种音频数据处理方法的另一示意流程图;
图4是本发明实施例提供的一种音频数据处理方法的另一示意流程图;
图5是本发明实施例提供的一种音频数据处理方法的另一示意流程图;
图6是本发明实施例提供的一种音频数据处理方法的另一示意流程图;
图7是本发明实施例提供的一种音频数据处理装置的示意性框图;
图8是本发明实施例提供的一种音频数据处理装置的另一示意性框图;
图9是本发明实施例提供的一种音频数据处理装置的另一示意性框图;
图10是本发明实施例提供的一种音频数据处理装置的另一示意性框图;
图11是本发明实施例提供的一种音频数据处理装置的另一示意性框图;
图12是本发明实施例提供的一种计算机设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的一种音频数据处理方法的应用场景示意图,图2为本发明实施例提供的一种音频数据处理方法的流程示意图。该音频数据处理方法应用于终端中,其中终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑等具有通信功能的电子设备。作为一应用,如图1所示,该音频数据处理方法应用于终端20中,该终端20从服务器10中获取待处理的原始音频数据并执行处理操作,并将处理结果显示给用户。
请参阅图2,图2为本发明实施例提供的一种音频数据处理方法的示意流程图。如图2所示,该方法包括以下步骤S101~S107。
S101,对原始音频数据进行重采样。
在本发明实施例中,所述原始音频数据指的是原始PCM(Pulse Code Modulation,脉冲编码调制)音频数据,该原始PCM音频数据可以从服务器中获取,该原始PCM音频数据也可以通过Android系统从服务器中获得,该原始PCM音频数据也可以从发出音频数据的设备喇叭输出端口获得,例如,在TV主板上会有一个音频输出端口来接收音频数据输出设备所输出的音频数据,更具体的,该原始PCM音频数据在系统的声卡播放前进行截取,并且该原始PCM音频数据不需要通过麦克风进行收集。从服务器中获得原始PCM音频数据之后,需要对原始PCM音频数据进行重采样,所谓重采样指的是根据需求改变从服务器中获得的原始PCM音频数据的采样频率,本实施例通过规定重采样频率从而实现对原始PCM音频数据的重采样,重采样频率可以根据实际需要的采样帧和FPS(Frames Per Second,每秒传输帧数)进行确定,例如,本实施例规定数据的采样帧为2048个,FPS(Frames Per Second,每秒传输帧数)为5,所以为了拥有5FPS和2048个采样点的帧,则规定重采样频率为10240,也就是说重采样频率等于实际需要的采样帧和FPS的乘积,具体的采样帧和FPS可以根据实际采样需求进行确定,在此不作进一步限制;在确定重采样频率之后,通过线性插值法对原始PCM音频数据进行重采样,具体的线性插值方法可以从现有的线性插值方法中选取,此处不再赘述。
需要说明的是,本实施例中所述的原始PCM音频数据可以是TV码流的音频数据,该格式的音频数据没有经过任何的压缩,该格式的音频数据是系统的声卡直接支持的数据格式。
请参阅图3,所述步骤S101包括步骤S201~S202:
S201,确定对所述原始音频数据的重采样频率。
在本发明实施例中,原始音频数据的重采样频率可以根据实际需要的采样帧和FPS进行确定,具体的,原始音频数据的重采样频率等于实际需要的采样帧和FPS的乘积,例如,在实际应用中需要拥有2048个采样帧以及5FPS,其中,5FPS指的是每秒5帧,则重采样频率为2048*5=10240;在实际应用中需要拥有1048个采样帧以及2FPS,其中,2FPS指的是每秒2帧,则重采样频率为1048*2=2096;在实际应用中需要拥有3048个采样帧以及6FPS,其中,6FPS指的是每秒6帧,则重采样频率为3048*6=18288;本实施例中具体的采样帧和FPS可以根据用户实际的采样需求进行确定,在此不作进一步限制。
S202,按照所确定的重采样频率对所述原始音频数据进行重采样。
在本发明实施例中,在确定重采样频率之后,通过线性插值法对原始PCM音频数据进行重采样,具体的线性插值方法可以从现有的线性插值方法中选取,此处不再赘述。
S102,将重采样后的音频数据转换为重叠帧。
在本发明实施例中,将重采样后的音频数据转换为重叠帧,需要将重采样后的音频数据进行分段为多个音频数据帧,再把相邻的两个帧重叠起来,即按照分段的顺序将相邻的两个帧两两进行重叠,即后一帧音频数据帧都有前一帧音频数据帧的一部分数据;在本实施例中,重叠部分的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长,设置长度比较大的重叠可以保证即使在最坏情况下,所要识别的音频段的子声纹仍然非常类似于模板段的子声纹。更具体的,本实施例中所设置的重叠部分的重叠长度可以根据实际情况进行设置,只要实际设置的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长即可,具体的重叠长度在此不作进一步限制。
需要说明的是,通过重叠帧在识别过程中使用的帧边界与预计算声纹中使用的帧边界相差5.8毫秒(11.6/2=5.8),大的重叠可以确保即使在最坏情况下,所要识别的音频段的声纹仍然非常类似于模板音频数据的声纹。
请参阅图4,所述步骤S103包括步骤S301~S302:
S301,将重采样后的音频数据分割成相同帧长的多个音频数据帧。
在本发明实施例中,可以将重采样后的音频数据按照相同的分割帧长划分为多个音频数据帧,即按照相同的分割帧长对音频数据进行等分,得到多个相同帧长的音频数据帧。例如设置分割帧长为2帧,可以将一份8帧的音频数据等分为4个相同帧长的音频数据帧;设置分割时长为3帧,可以将一份9帧的音频数据等分为3个相同帧长的音频数据帧;设置分割时长为4帧,可以将一份20帧的音频数据等分为5个相同帧长的音频数据帧,具体的分割帧长可以根据实际需要进行设置,在此不限进一步限制。
S302,将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
在本发明实施例中,将相邻的音频数据帧进行重叠,即后一帧音频数据帧都有前一帧音频数据帧的一部分数据;在本实施例中,重叠部分的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长,设置长度比较大的重叠可以保证即使在最坏情况下,所要识别的音频段的子声纹仍然非常类似于模板段的子声纹。更具体的,本实施例中所设置的重叠部分的重叠长度可以根据实际情况进行设置,只要实际设置的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长即可,具体的重叠长度在此不作进一步限制。
S103,使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据。
在本发明实施例中,数字音频数据处理的主要数学工具是傅里叶变换,而傅里叶变换是研究整个时间域和频率域的关系。不过,当运用计算机实现工程测试数字音频数据处理时,不可能对无限长的数字音频数据进行测量和运算,而是取其有限的时间片段进行分析,具体的做法是从数字音频数据中截取一个时间片段,然后用截取的数字音频数据时间片段进行周期延拓处理,得到虚拟的无限长的音频数据,然后就可以对数字音频数据进行傅里叶变换、相关分析等数学处理。当无限长的音频数据被截断以后,其频谱发生了畸变,原来集中在f(0)处的能量被分散到两个较宽的频带中去了,我们将这种现象称之为频谱能量泄漏,为了减少频谱能量泄漏,本实施例采用截取函数对数字音频数据进行截断,截断函数称为窗函数,简称为窗。本实施例所采用的窗函数为Hanming窗,对于分割成帧长为N的多个音频数据帧,相邻两个帧之间的重叠长度为L,对重叠帧中的每一音频数据帧x(i,n)进行加窗,用窗长为N的Hanming窗乘以每一音频数据帧x(i,n)从而实现对重叠帧的加权处理,进行加窗后的音频数据帧记为xW(i,n),计算公式如下:xW(i,n)=x(i,n)(0.54-0.46cos(2πn/(N-1))),n=0~N-1,π=3.14159,N>1;对每一音频数据帧使用上述加权处理计算公式进行加窗处理便会得到加权处理后的重叠帧。
对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据,具体的,对每一音频数据帧执行快速离散傅里叶变换,即采用快速离散傅里叶变换算法对每一音频数据帧进行傅里叶变换,将时域信号转换为频域信号XW(i,k),将加权处理后的每一音频数据帧根据以下快速离散傅里叶公式计算傅里叶变换:
Figure BDA0002284799040000071
k=0~N,N>1,其中,k表示频域中的第k条谱线;对每一音频数据帧使用上述快速离散傅里叶公式计算傅里叶变换便会得到离散音频数据。
请参阅图5,所述步骤S103包括步骤S401~S402:
S401,使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧,得到加权处理后的重叠帧。
在本发明实施例中,使用窗长为N的Hanming窗乘以每一音频数据帧x(i,n)从而实现对重叠帧的加权处理,进行加窗后的音频数据帧记为xW(i,n),计算公式如下:xW(i,n)=x(i,n)(0.54-0.46cos(2πn/(N-1))),n=0~N-1,π=3.14159,N>1;对每一音频数据帧使用上述加权处理计算公式进行加窗处理便会得到加权处理后的重叠帧。
S402,采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换,得到离散音频数据。
在本发明实施例中,对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据,具体的,对每一音频数据帧执行快速离散傅里叶变换,即采用快速离散傅里叶变换算法对每一音频数据帧进行傅里叶变换,将时域信号转换为频域信号XW(i,k),将加权处理后的每一音频数据帧根据以下快速离散傅里叶公式计算傅里叶变换:
Figure BDA0002284799040000072
k=0~N,N>1,其中,k表示频域中的第k条谱线;对每一音频数据帧使用上述快速离散傅里叶公式计算傅里叶变换便会得到离散音频数据。
S104,将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。
在本发明实施例中,将获得的离散音频数据进行归一化处理,即将获得的离散音频数据转换为[0,1]内的归一化的音频数据,具体的,通过获取离散音频数据的最大振幅和最小振幅,应用以下公式,通过对数归一化方法进行归一化处理,从而将离散音频数据转换为[0,1]内的归一化的音频数据:diff=log10(max Amp/min Amp),音谱数据=(log10(absoluteSpectrogram/min Amp))/diff,其中,absoluteSpectrogram表示绝对值音谱数据,max Amp表示最大振幅,min Amp表示最小振幅。采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,所谓鲁棒性特征指的是无论信号的强弱都能保持不变的特性,至少在一定程度上保持不变,类似于人的声纹。本实施例采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,该预设轻时级音频分析库使用现有的轻量级音频分析库musicg,具体的提取方法可以从现有的轻量级音频分析库musicg提供的提取代码来实现,此处不再赘述。其中,所提取的鲁棒性特征可以包括声强、响度、音高、基音周期或基音频率中的一种或多种,当然,鲁棒性特征还可以包括信噪比、谐噪比、频率微扰、振幅围绕等其他特征,具体的特征本申请不做限定。
需要说明的是,两个派生声纹块之间的汉明距离(即位错误数)低于一定的阀值T,则声明两个音频数据相似,这个阀值T直接决定了误报率Pf,即音频数据被错误声明位相等的比率;T越小,概率Pf就越小。另一方面,T的一个小值会对误报概率Pn产生负面影响,T的小值会对误报概率Pn产生负面影响;这个阀值T的选择,我们假设声纹提取过程中产生的随机的IID(独立且恒等分布)位。IID位错误的数量将有一个二项分布(n,p),其中n等于被抽取的位个数,p(=0.5)是一个“0”或“1”位被抽取的概率码。
请参阅图6,所述步骤S104包括步骤S501~S502:
S501,将获得的离散音频数据转换为[0,1]内的归一化的音频数据。
在本发明实施例中,通过获取离散音频数据的最大振幅和最小振幅,应用以下公式,通过对数归一化方法进行归一化处理,从而将离散音频数据转换为[0,1]内的归一化的音频数据:diff=log10(max Amp/min Amp),音谱数据=(log10(absoluteSpectrogram/minAmp))/diff,其中,absoluteSpectrogram表示绝对值音谱数据,max Amp表示最大振幅,minAmp表示最小振幅。
S502,采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。
在本发明实施例中,采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,所谓鲁棒性特征指的是无论信号的强弱都能保持不变的特性,至少在一定程度上保持不变,类似于人的声纹。本实施例采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,该预设轻时级音频分析库使用现有的轻量级音频分析库musicg,具体的提取方法可以从现有的轻量级音频分析库musicg提供的提取代码来实现,此处不再赘述。
S105,将鲁棒性特征与预设模板鲁棒性特征进行特征匹配。
在本发明实施例中,预设模板鲁棒性特征可以预先设置包括声强、响度、音高、基音周期或基音频率中的一种或多种,当然,还可以包括信噪比、谐噪比、频率微扰、振幅围绕等其他特征,具体的预设模板鲁棒性特征在本申请不做限定。若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征不匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征不匹配。
S106,若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据。
在本发明实施例中,若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征不匹配,判定原始音频数据为异常音频数据;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征不匹配,判定原始音频数据为异常音频数据。
S107,若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。
在本发明实施例中,若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征相匹配,判定原始音频数据为正常音频数据;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征相匹配,判定原始音频数据为正常音频数据。
由以上可见,本发明实施例对原始音频数据进行重采样;将重采样后的音频数据转换为重叠帧;使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频测试的效率。
请参阅图7,对应上述一种音频数据处理方法,本发明实施例还提出一种音频数据处理装置,该装置100包括:重采样单元101、转换单元102、加权处理单元103、处理提取单元104、匹配单元105、第一判定单元106、第二判定单元107。
其中,所述重采样单元101,用于对原始音频数据进行重采样;转换单元102,用于将重采样后的音频数据转换为重叠帧;加权处理单元103,用于使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;处理提取单元104,用于将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;匹配单元105,用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;第一判定单元106,用于若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;第二判定单元107,用于若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。
请参阅图8,所述重采样单元101,包括:确定单元101a,用于确定对所述原始音频数据的重采样频率;重采样子单元101b,用于按照所确定的重采样频率对所述原始音频数据进行重采样。
请参阅图9,所述转换单元102,包括:分割单元102a,用于将重采样后的音频数据分割成相同帧长的多个音频数据帧;重叠单元102b,用于将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
请参阅图10,所述加权处理单元103,包括:计算单元103a,用于使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧,得到加权处理后的重叠帧;执行单元103b,用于采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换,得到离散音频数据。
请参阅图11,所述处理提取单元104,包括:数据转换单元104a,用于将获得的离散音频数据转换为[0,1]内的归一化的音频数据;提取子单元104b,用于采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。
由以上可见,本发明实施例通过对原始音频数据进行重采样;将重采样后的音频数据转换为重叠帧;使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频测试的效率。
上述音频数据处理装置与上述音频数据处理方法一一对应,其具体的原理和过程与上述实施例所述方法相同,不再赘述。
上述音频数据处理装置可以实现为一种计算机程序的形式,计算机程序可以在如图12所示的计算机设备上运行。
图12为本发明一种计算机设备的结构组成示意图。该设备可以是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑以及台式电脑等具有通信功能和语音输入功能的电子装置。参照图12,该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种音频数据处理方法。该计算机设备500的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种音频数据处理方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502执行所述计算机程序时实现如下操作:
对原始音频数据进行重采样;
将重采样后的音频数据转换为重叠帧;
使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;
若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。
在一个实施例中,所述对原始音频数据进行重采样,包括:
确定对所述原始音频数据的重采样频率;
按照所确定的重采样频率对所述原始音频数据进行重采样。
在一个实施例中,所述将重采样后的音频数据转换为重叠帧,包括:
将重采样后的音频数据分割成相同帧长的多个音频数据帧;
将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
在一个实施例中,所述使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据,包括:
使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧,得到加权处理后的重叠帧;
采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换,得到离散音频数据。
在一个实施例中,所述将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,包括:
将获得的离散音频数据转换为[0,1]内的归一化的音频数据;
采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。
本领域技术人员可以理解,图12中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图12所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现以下步骤:
对原始音频数据进行重采样;
将重采样后的音频数据转换为重叠帧;
使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;
若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。
在一个实施例中,所述对原始音频数据进行重采样,包括:
确定对所述原始音频数据的重采样频率;
按照所确定的重采样频率对所述原始音频数据进行重采样。
在一个实施例中,所述将重采样后的音频数据转换为重叠帧,包括:
将重采样后的音频数据分割成相同帧长的多个音频数据帧;
将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
在一个实施例中,所述使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据,包括:
使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧,得到加权处理后的重叠帧;
采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换,得到离散音频数据。
在一个实施例中,所述将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,包括:
将获得的离散音频数据转换为[0,1]内的归一化的音频数据;
采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例音频数据处理方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例音频数据处理装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种音频数据处理方法,其特征在于,所述方法包括:
对原始音频数据进行重采样;
将重采样后的音频数据转换为重叠帧,其中,所述重叠帧的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长;
使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
采用下述公式对离散音频数据进行归一化处理:
Figure FDA0003120785950000011
Figure FDA0003120785950000012
其中absoluteSpectrogram表示绝对值离散音频数据,max Amp表示最大振幅,min Amp表示最小振幅;
将鲁棒性特征与预设模板鲁棒性特征进行特征匹配,其中所述预设模板鲁棒特征包括声强、响度、音高、基音周期或基音频率中的一种或多种;
若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据;
所述对原始音频数据进行重采样,包括:
确定对所述原始音频数据的重采样频率,所述重采样频率为采样帧与每秒帧数值的乘积;
按照所确定的重采样频率对所述原始音频数据进行重采样。
2.如权利要求1所述的方法,其特征在于,所述按照所确定的重采样频率对所述原始音频数据进行重采样包括:确定所述重采样频率,并通过线性插值法对所述原始音频数据进行重采样;
所述将重采样后的音频数据转换为重叠帧,包括:
将重采样后的音频数据分割成相同帧长的多个音频数据帧;
将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
3.如权利要求1所述的方法,其特征在于,所述使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据,包括:
使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧,得到加权处理后的重叠帧;
采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换,得到离散音频数据。
4.如权利要求1所述的方法,其特征在于,所述将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,包括:
将获得的离散音频数据转换为[0,1]内的归一化的音频数据;
采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
所述将鲁棒性特征与预设模板鲁棒性特征进行特征匹配,包括:
若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征不匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征不匹配。
5.一种音频数据处理装置,其特征在于,所述装置包括:
重采样单元,用于对原始音频数据进行重采样;
转换单元,用于将重采样后的音频数据转换为重叠帧,其中,所述重叠帧的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长;
加权处理单元,用于使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
处理提取单元,用于将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
采用下述公式对离散音频数据进行归一化处理:
Figure FDA0003120785950000031
Figure FDA0003120785950000032
其中absoluteSpectrogram表示绝对值离散音频数据,max Amp表示最大振幅,min Amp表示最小振幅;
匹配单元,用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配,其中所述预设模板鲁棒特征包括声强、响度、音高、基音周期或基音频率中的一种或多种;
第一判定单元,用于若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
第二判定单元,用于若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据;
所述重采样单元,包括:
确定单元,用于确定对所述原始音频数据的重采样频率,所述重采样频率为采样帧与每秒帧数值的乘积;
重采样子单元,用于按照所确定的重采样频率对所述原始音频数据进行重采样。
6.如权利要求5所述的装置,其特征在于,所述按照所确定的重采样频率对所述原始音频数据进行重采样包括:确定所述重采样频率,并通过线性插值法对所述原始音频数据进行重采样;
所述转换单元,包括:
分割单元,用于将重采样后的音频数据分割成相同帧长的多个音频数据帧;
重叠单元,用于将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的音频数据处理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1-4任一项所述的音频数据处理方法。
CN201911155938.XA 2019-11-22 2019-11-22 音频数据处理方法、装置、计算机设备以及存储介质 Active CN111028860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911155938.XA CN111028860B (zh) 2019-11-22 2019-11-22 音频数据处理方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911155938.XA CN111028860B (zh) 2019-11-22 2019-11-22 音频数据处理方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111028860A CN111028860A (zh) 2020-04-17
CN111028860B true CN111028860B (zh) 2021-08-06

Family

ID=70206948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911155938.XA Active CN111028860B (zh) 2019-11-22 2019-11-22 音频数据处理方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111028860B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259124B (zh) * 2020-10-21 2021-06-15 交互未来(北京)科技有限公司 基于音频频域特征的对话过程捂嘴手势识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9172808B2 (en) * 2013-02-22 2015-10-27 Verint Americas Inc. Systems and methods for identifying a caller
WO2017075601A1 (en) * 2015-10-30 2017-05-04 The Johns Hopkins University Programmable electronic stethoscope devices, algorithms, systems, and methods
CN108091352A (zh) * 2017-12-27 2018-05-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件处理方法、装置及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092877B2 (en) * 2001-07-31 2006-08-15 Turk & Turk Electric Gmbh Method for suppressing noise as well as a method for recognizing voice signals
WO2005116676A1 (en) * 2004-05-25 2005-12-08 Hvidovre Hospital Encoding and transmission of signals as rf signals for detection using an mr apparatus
US8417525B2 (en) * 2010-02-09 2013-04-09 International Business Machines Corporation Adaptive voice print for conversational biometric engine
CN103871426A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 对比用户音频与原唱音频相似度的方法及其系统
CN106157973B (zh) * 2016-07-22 2019-09-13 南京理工大学 音乐检测与识别方法
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
CN108399913B (zh) * 2018-02-12 2021-10-15 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN109243491B (zh) * 2018-10-11 2023-06-02 平安科技(深圳)有限公司 在频谱上对语音进行情绪识别的方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9172808B2 (en) * 2013-02-22 2015-10-27 Verint Americas Inc. Systems and methods for identifying a caller
WO2017075601A1 (en) * 2015-10-30 2017-05-04 The Johns Hopkins University Programmable electronic stethoscope devices, algorithms, systems, and methods
CN108091352A (zh) * 2017-12-27 2018-05-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件处理方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Generalized Gaussian Distribution Kullback-Leibler kernel for robust sound event recognition》;Tran Huy Dat et al.;《2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20140731;全文 *

Also Published As

Publication number Publication date
CN111028860A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
CN107731223B (zh) 语音活性检测方法、相关装置和设备
CN110136744B (zh) 一种音频指纹生成方法、设备及存储介质
CN103903612B (zh) 一种实时语音识别数字的方法
WO2021042537A1 (zh) 语音识别认证方法及系统
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN107680584B (zh) 用于切分音频的方法和装置
US20130246061A1 (en) Automatic realtime speech impairment correction
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
US8868419B2 (en) Generalizing text content summary from speech content
CN111028860B (zh) 音频数据处理方法、装置、计算机设备以及存储介质
CN113271386B (zh) 啸叫检测方法及装置、存储介质、电子设备
CN110890098A (zh) 盲信号分离方法、装置和电子设备
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
CN113851114B (zh) 语音信号的基频确定方法和装置
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质
CN110189763B (zh) 一种声波配置方法、装置及终端设备
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
CN112634939A (zh) 一种音频识别方法、装置、设备、介质
CN113539300A (zh) 基于噪声抑制的语音检测方法、装置、存储介质以及终端
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
CN111354365A (zh) 一种纯语音数据采样率识别方法、装置、系统
CN114724572B (zh) 确定回声延时的方法和装置
US20210104225A1 (en) Phoneme sound based controller

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant