CN113782036A - 音频质量评估方法、装置、电子设备和存储介质 - Google Patents
音频质量评估方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113782036A CN113782036A CN202111060014.9A CN202111060014A CN113782036A CN 113782036 A CN113782036 A CN 113782036A CN 202111060014 A CN202111060014 A CN 202111060014A CN 113782036 A CN113782036 A CN 113782036A
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- voiceprint
- audios
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 77
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000001303 quality assessment method Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000001629 suppression Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001035 drying Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音频质量评估方法、装置、电子设备和存储介质。该方法包括:获取测试音频;对所述测试音频进行预处理,得到N个目标音频,N为正整数;将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。本发明实施例中,不需要使用人工校对的方式对大量的音频文件进行校验,而是使用声纹模型得到测试音频对应的目标声纹特征,进而基于目标声纹特征确定测试音频的质量,以此提高了音频质量评估的效率。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及一种音频质量评估方法、装置、电子设备和存储介质。
背景技术
在安防领域,可以通过建立声纹库对用户的声音进行识别。声纹库中存储有大量的音频文件,这些音频文件又称为入库音频。
目前,往往使用人工校对的方式对大量的音频文件进行校验,人工筛选出符合入库标准的音频文件,将其存储至声纹库,这要求对于每段音频文件需要人工判断是否符合入库标准,即人工的对音频质量进行评估,这导致对音频质量进行评估的效率太低。
发明内容
本发明实施例的目的在于提供一种音频质量评估方法、装置、电子设备和存储介质,解决音频质量评估的效率太低的技术问题。具体技术方案如下:
在本发明实施例的第一方面,首先提供了一种音频质量评估方法,包括:
获取测试音频;
对所述测试音频进行预处理,得到N个目标音频,N为正整数;
将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;
基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
在本发明实施例的第二方面,还提供了一种音频质量评估装置,所述装置包括:
获取模块,用于获取测试音频;
第一处理模块,用于对所述测试音频进行预处理,得到N个目标音频,N为正整数;
第二处理模块,用于将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;
确定模块,用于基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
在本发明实施例的第三方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一实施例所述的音频质量评估方法。
在本发明实施的第四方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例所述的音频质量评估方法。
本发明实施例中,获取测试音频,对测试音频进行预处理,得到N个目标音频;将N个目标音频输入至训练完成的声纹模型中,得到N个目标音频一一对应的N个目标声纹特征;基于N个目标声纹特征和预设的注册声纹特征,确定测试音频的质量。本发明实施例中,不需要使用人工校对的方式对大量的音频文件进行校验,而是使用声纹模型得到测试音频对应的目标声纹特征,进而基于目标声纹特征确定测试音频的质量,以此提高了音频质量评估的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中音频质量评估方法的流程示意图;
图2为本发明实施例中音频质量评估方法的应用流程图;
图3为本发明实施例中音频质量评估装置的结构示意图;
图4为本发明实施例中一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
请参阅图1,图1为本发明实施例中音频质量评估方法的流程图。本发明实施例提供的音频质量评估方法包括:
S101,获取测试音频。
本发明实施例提供的音频质量评估方法可以应用于终端,上述测试音频即待入库的音频文件。可选地,用户可以将待入库的音频文件输入至应用该音频质量评估方法的终端。
S102,对所述测试音频进行预处理,得到N个目标音频。
本步骤中,在得到测试音频后,对测试音频进行预处理,得到N个目标音频,N为正整数。其中,对测试音频进行预处理的具体技术方案请参阅后续实施例。
S103,将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征。
上述声纹模型是一种卷积神经网络模型,例如,上述声纹模型为Resnet34残差网络模型。
以下,以Resnet34残差网络模型为例,简要阐述声纹模型的训练过程:
将大量的训练音频输入至Resnet34残差网络模型中进行训练,在每次训练过程中,Resnet34残差网络模型中的损失函数值梯度下降,应理解,Resnet34残差网络模型中的损失函数为Arcface损失函数。在训练到一定的迭代次数时,损失函数收敛为预设数值,则说明Resnet34残差网络模型具备了生成音频文件对应的声纹特征的能力,确定声纹模型训练完成。
本步骤中,将N个目标音频作为训练完成的声纹模型的输入,得到N个目标声纹特征,且这N个目标声纹特征与N个目标音频一一对应。
应理解,声纹特征用于表征对应的目标音频,且声纹特征是一个具备256维数的特征向量,该特征向量也是Resnet34残差网络模型中倒数第二个网络层的参数。
S104,基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
本步骤中,预设有注册声纹特征。可选的实施方式为,将注册音频输入至训练完成的声纹模型中,得到该注册音频对应的注册声纹特征。其中,注册音频可以理解为是符合声纹库标准的音频文件,例如,注册音频可以是特定用户的音频。
本步骤中,在得到N个目标声纹特征后,可以使用N个目标声纹特征和预设的注册声纹特征进行相关计算,确定测试音频的质量,进一步确定测试音频是否符合声纹库标准。具体的根据N个目标声纹特征和预设的注册声纹特征,确定测试音频的质量的技术方案,请参阅后续实施例。
本发明实施例中,获取测试音频,对测试音频进行预处理,得到N个目标音频;将N个目标音频输入至训练完成的声纹模型中,得到N个目标音频一一对应的N个目标声纹特征;基于N个目标声纹特征和预设的注册声纹特征,确定测试音频的质量。本发明实施例中,不需要使用人工校对的方式对大量的音频文件进行校验,而是使用声纹模型得到测试音频对应的目标声纹特征,进而基于目标声纹特征确定测试音频的质量,以此提高了音频质量评估的效率。
以下,具体阐述对测试音频进行预处理的过程:
可选地,所述对所述测试音频进行预处理,得到N个目标音频包括:
对所述测试音频进行静音抑制处理,得到去燥音频;
在所述去燥音频对应的时长大于第一预设阈值的情况下,将所述去燥音频划分为连续的N个待增强音频;
对所述N个待增强音频进行音频增强处理,得到N个目标音频。
本实施例中,对测试音频进行静音抑制处理,从测试音频中识别和消除长时间的静音期,得到去燥音频。具体而言,上述静音抑制处理可以是语音活动检测(VoiceActivity Detection,VAD);在其他实施例中,也可以通过其他方式消除测试音频中的静音期,在此不做具体限定。
本实施例中,还预设有第一预设阈值。在得到去燥音频后,检测上述去燥音频的时长,在去燥音频对应的时长大于第一预设阈值的情况下,表明去燥音频为长音频,为了使得音频质量评估的结果更为准确,将去燥音频划分为连续的N个待增强音频,其中,每个待增强音频对应的时长相同。
在一种可选的实施方式中,可以将每个待增强音频对应的时长设置为5秒。应理解,每个待增强音频对应的时长可以自定义设置,在此不做具体限定。
对每个待增强音频进行音频增强处理,上述音频增强处理可以理解为增强待增强音频中每个音频帧。示例性的,上述音频增强处理可以是对待增强音频进行数据增强。
本实施例中,对测试音频进行静音抑制处理,去除测试音频中的静音期,以消除静音帧对音频质量评估结果的干扰;在去燥音频为长音频的情况下,将去燥音频划分为多个时长较短的待增强音频,进一步提高音频质量评估的可靠性和准确性。
可选地,所述对所述测试音频进行静音抑制处理,得到去燥音频之后,所述方法包括:
在所述去燥音频对应的时长小于或等于第一预设阈值的情况下,对所述去燥音频进行音频增强处理;
将音频增强处理后的去燥音频,确定为目标音频。
本实施例中,若去燥音频对应的时长小于或等于第一预设阈值的情况下,表面该去燥音频不为长音频,则可以不将该去燥音频划分为连续的多个目标音频,直接对该去燥音频进行音频增强处理。需要说明的是,对去燥音频进行音频增强处理的方式与上述对N个目标音频进行音频增强处理的方式一致,在此不做重复阐述。将音频增强处理后的去燥音频,确定为目标音频。
以下,具体阐述对测试音频进行静音抑制处理的过程:
可选地,所述对所述测试音频进行静音抑制处理,得到去燥音频包括:
使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频;
对所述M个第一音频进行筛选,得到K个第二音频;所述第二音频包含的静音帧数量小于或等于第二预设阈值;
按照所述预设顺序拼接所述K个第二音频,得到去燥音频。
本实施例中,可以使用WebRTC开源库中的滑动窗口,将测试音频划分为M个按照预设顺序排列的第一音频,其中,每个第一音频对应的时长与滑动窗口的窗口长度相同,M为大于1的正整数。
上述预设顺序是基于第一音频对应的起始时间和终止时间确定的,例如,第一音频A对应的起始时间为00:00,终止时间为00:15,第一音频B对应的起始时间为00:30,终止时间为00:45,则第一音频A的顺序位于第一音频B之前。
检测每个第一音频包含的静音帧的数量,若一第一音频的静音帧数量小于或等于第二预设阈值,则将该第一音频确定为第二音频。这样,对M个第一音频进行筛选,得到了K个第二音频,其中,K为小于或等于M的正整数。
按照预设顺序拼接上述K个第二音频,得到去燥音频。
本实施例中,使用滑动窗口判断每个窗口对应的音频文件中静音帧的数量,筛选出静音帧数量小于或等于第二预设阈值的音频文件,并按照拼接第二音频,得到去燥音频,由于去燥音频中每个音频文件的静音帧数量均小于或等于第二预设阈值,因此消除了静音音频文件对音频质量评估结果的干扰,提高音频质量评估结果的准确。
可选地,所述对所述M个第一音频进行筛选,得到K个第二音频包括:
确定每个第一音频包含的静音帧数量;
将静音帧数量大于第二预设阈值的第一音频,确定为静音音频;
去除所述M个第一音频中的静音音频,得到所述K个第二音频。
本实施例中,检测每个第一音频包含的静音帧的数量,若一第一音频的静音帧数量大于第二预设阈值,表明该第一音频的音频内容为空,则将该第一音频确定为静音音频。进一步的,在检测得到所有第一音频包含的静音帧数量后,去除静音音频,将剩下的第一音频确定为第二音频。
本实施例中,使用滑动窗口判断每个窗口对应的音频文件中静音帧的数量,确定静音帧数量大于第二预设阈值的静音音频,进而去除测试音频中的静音期,消除静音帧对音频质量评估结果的干扰,提高音频质量评估结果的准确。
可选地,所述基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量包括:
对所述注册声纹特征和所述N个目标声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数;
对所述N个相似度分数分别进行平均值计算和方差计算,得到相似度平均值和相似度方差。
如上所述,注册声纹特征和目标声纹特征均是包括256个维数的特征向量,对每个目标声纹特征与注册声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数,该相似度分数用于表征目标声纹特征与注册声纹特征之间的相似度,关于相似度计算的具体方案,请参阅后续实施例。
应理解,目标声纹特征的相似度分数越高,则该目标声纹特征与注册声纹特征越相似,如上所述,注册声纹特征是基于符合声纹库标准的注册音频确定的,也就是说,目标声纹特征的相似度分数越高,则该目标声纹特征越可能符合声纹库的入库标准。
在得到N个相似度分数后,计算这N个相似度分数对应的平均值,得到测试音频对应的相似度平均值;计算这N个相似度分数对应的方差,得到测试音频对应的相似度方差,其中,上述相似度平均值和相似度方差用于表征所述测试音频的质量。
应理解,测试音频对应的相似度平均值越高,说明测试音频与注册音频的相似度程度越高,该测试音频越可能符合声纹库的入库标准;测试音频对应的相似度方差越低,说明该测试音频包含的噪声越少,该测试音频的音频质量越高。可选的实施方式为,将相似度平均值高于一定数值,且相似度方差低于一定数值的测试音频,存储至声纹库中,以扩充声纹库存储的音频文件的数量。
在一些实施例中,若测试音频对应的相似度平均值小于0.6,则确定该测试音频不符合声纹库的入库标准。
本实施例中,对注册声纹特征和测试音频对应的N个目标声纹特征进行相似度计算,得到N个相似度分数;进一步的,对N个相似度分数分别进行平均值计算和方差计算,得到相似度平均值和相似度方差;根据上述相似度平均值和相似度方差对测试音频的音频质量进行判断,以此提高音频质量评估的准确性。
以下,具体阐述对注册声纹特征和N个目标声纹特征进行相似度计算的技术方案:
可选地,所述对所述注册声纹特征和所述N个目标声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数包括:
对于任一目标声纹特征,对所述目标声纹特征进行归一化处理,得到目标特征向量;
对所述目标特征向量和注册特征向量进行点积运算,得到所述目标声纹特征对应的相似度分数。
如上所述,注册声纹特征和目标声纹特征均是包括256个维数的特征向量,对目标声纹特征进行归一化处理,得到目标特征向量。对注册声纹特征进行归一化处理,得到注册特征向量。对目标特征向量和注册特征向量进行点积运算,即目标特征向量与注册特征向量的转置做点积乘法运算,得到目标声纹特征对应的相似度分数。
为便于理解整体方案,请参阅图2,图2为本发明实施例中音频质量评估方法的应用流程图。
如图2所示,候选入库长音频列表中存储有多条候选入库长音频,上述候选入库长音频即测试音频;从列表中提取一条长音频作为候选长音频。对该长音频进行VAD处理,消除长音频中的静音帧,得到消除静音期的长音频。进一步的,将该长音频切分为多条连续,且对应的时长均相同的短音频,得到短音频集合。将短音频集合中的每条短音频输入至训练完成的声纹模型中,得到多个目标声纹特征,将注册音频输入至训练完成的声纹模型中,得到注册声纹特征。根据注册声纹特征和每条短音频对应的目标声纹特征,得到每条短音频对应的相似度分数,将所有的相似度分数存储至分数集合中。计算分数集合中所有相似度分数的平均值和方差,得到该长音频对应的相似度平均值和相似度方差。进而得到候选入库长音频列表中所有长音频对应的相似度平均值和相似度方差。
如图3所示,本发明实施例还提供了一种音频质量评估装置200,包括:
获取模块201,用于获取测试音频;
第一处理模块202,用于对所述测试音频进行预处理,得到N个目标音频;
第二处理模块203,用于将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;
确定模块204,用于基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
可选地,所述第一处理模块202具体用于:
对所述测试音频进行静音抑制处理,得到去燥音频;
在所述去燥音频对应的时长大于第一预设阈值的情况下,将所述去燥音频划分为连续的N个待增强音频;
对所述N个待增强音频进行音频增强处理,得到N个目标音频。
可选地,所述第一处理模块202还具体用于:
在所述去燥音频对应的时长小于或等于第一预设阈值的情况下,对所述去燥音频进行音频增强处理;
将音频增强处理后的去燥音频,确定为目标音频。
可选地,所述第一处理模块202还具体用于:
使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频;
对M个第一音频进行筛选,得到K个第二音频;
按照所述预设顺序拼接所述K个第二音频,得到去燥音频。
可选地,所述第一处理模块202还具体用于:
确定每个第一音频包含的静音帧数量;
将静音帧数量大于第二预设阈值的第一音频,确定为静音音频;
去除所述M个第一音频中的静音音频,得到所述K个第二音频。
可选地,所述确定模块204具体用于:
对所述注册声纹特征和所述N个目标声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数;
对所述N个相似度分数分别进行平均值计算和方差计算,得到相似度平均值和相似度方差。
可选地,所述确定模块204还具体用于:
对于任一目标声纹特征,对所述目标声纹特征进行归一化处理,得到目标特征向量;
对所述目标特征向量和注册特征向量进行点积运算,得到所述目标声纹特征对应的相似度分数。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,所述计算机程序被所述处理器301执行时,用于获取测试音频;
对所述测试音频进行预处理,得到N个目标音频;
将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;
基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
可选地,所述计算机程序被所述处理器301执行时,还用于对所述测试音频进行静音抑制处理,得到去燥音频;
在所述去燥音频对应的时长大于第一预设阈值的情况下,将所述去燥音频划分为连续的N个待增强音频;
对所述N个待增强音频进行音频增强处理,得到N个目标音频。
可选地,所述计算机程序被所述处理器301执行时,还用于在所述去燥音频对应的时长小于或等于第一预设阈值的情况下,对所述去燥音频进行音频增强处理;
将音频增强处理后的去燥音频,确定为目标音频。
可选地,所述计算机程序被所述处理器301执行时,还用于使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频;
对M个第一音频进行筛选,得到K个第二音频;
按照所述预设顺序拼接所述K个第二音频,得到去燥音频。
可选地,所述对所述M个第一音频进行筛选,得到K个第二音频包括:
确定每个第一音频包含的静音帧数量;
将静音帧数量大于第二预设阈值的第一音频,确定为静音音频;
去除所述M个第一音频中的静音音频,得到所述K个第二音频。
可选地,所述计算机程序被所述处理器301执行时,还用于对所述注册声纹特征和所述N个目标声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数;
对所述N个相似度分数分别进行平均值计算和方差计算,得到相似度平均值和相似度方差。
可选地,所述计算机程序被所述处理器301执行时,还用于对于任一目标声纹特征,对所述目标声纹特征进行归一化处理,得到目标特征向量;
对所述目标特征向量和注册特征向量进行点积运算,得到所述目标声纹特征对应的相似度分数。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的音频质量评估方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的音频质量评估方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种音频质量评估方法,其特征在于,包括:
获取测试音频;
对所述测试音频进行预处理,得到N个目标音频,N为正整数;
将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;
基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
2.根据权利要求1所述的方法,其特征在于,所述对所述测试音频进行预处理,得到N个目标音频包括:
对所述测试音频进行静音抑制处理,得到去燥音频;
在所述去燥音频对应的时长大于第一预设阈值的情况下,将所述去燥音频划分为连续的N个待增强音频;
对所述N个待增强音频进行音频增强处理,得到N个目标音频。
3.根据权利要求2所述的方法,其特征在于,所述对所述测试音频进行静音抑制处理,得到去燥音频之后,所述方法包括:
在所述去燥音频对应的时长小于或等于第一预设阈值的情况下,对所述去燥音频进行音频增强处理;
将音频增强处理后的去燥音频,确定为目标音频。
4.根据权利要求2-3中任一项所述的方法,其特征在于,所述对所述测试音频进行静音抑制处理,得到去燥音频包括:
使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频;所述第一音频对应的时长与所述滑动窗口的窗口长度相同,M为大于1的正整数;
对所述M个第一音频进行筛选,得到K个第二音频;所述第二音频包含的静音帧数量小于或等于第二预设阈值,K为小于或等于M的正整数;
按照所述预设顺序拼接所述K个第二音频,得到去燥音频。
5.根据权利要求4所述的方法,其特征在于,所述对所述M个第一音频进行筛选,得到K个第二音频包括:
确定每个第一音频包含的静音帧数量;
将静音帧数量大于第二预设阈值的第一音频,确定为静音音频;
去除所述M个第一音频中的静音音频,得到所述K个第二音频。
6.根据权利要求1所述的方法,其特征在于,所述基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量包括:
对所述注册声纹特征和所述N个目标声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数;
对所述N个相似度分数分别进行平均值计算和方差计算,得到相似度平均值和相似度方差;所述相似度平均值和所述相似度方差用于表征所述测试音频的质量。
7.根据权利要求6所述的方法,其特征在于,所述对所述注册声纹特征和所述N个目标声纹特征进行相似度计算,得到所述N个目标声纹特征一一对应的N个相似度分数包括:
对于任一目标声纹特征,对所述目标声纹特征进行归一化处理,得到目标特征向量;
对所述目标特征向量和注册特征向量进行点积运算,得到所述目标声纹特征对应的相似度分数;
其中,所述注册特征向量基于对所述注册声纹特征进行归一化处理得到。
8.一种音频质量评估装置,其特征在于,包括:
获取模块,用于获取测试音频;
第一处理模块,用于对所述测试音频进行预处理,得到N个目标音频,N为正整数;
第二处理模块,用于将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;
确定模块,用于基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一项所述的音频质量评估方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1-7中任一项所述的音频质量评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111060014.9A CN113782036B (zh) | 2021-09-10 | 2021-09-10 | 音频质量评估方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111060014.9A CN113782036B (zh) | 2021-09-10 | 2021-09-10 | 音频质量评估方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782036A true CN113782036A (zh) | 2021-12-10 |
CN113782036B CN113782036B (zh) | 2024-05-31 |
Family
ID=78842341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111060014.9A Active CN113782036B (zh) | 2021-09-10 | 2021-09-10 | 音频质量评估方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782036B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092482A (zh) * | 2023-04-12 | 2023-05-09 | 中国民用航空飞行学院 | 一套基于自注意力的实时管制语音质量计量方法及系统 |
CN117612566A (zh) * | 2023-11-16 | 2024-02-27 | 书行科技(北京)有限公司 | 音频质量评估方法及相关产品 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2388779A1 (en) * | 2010-05-21 | 2011-11-23 | SwissQual License AG | Method for estimating speech quality |
EP2595153A1 (en) * | 2011-11-18 | 2013-05-22 | Samsung Electronics Co., Ltd | Sound quality evaluation apparatus and method thereof |
CN108447489A (zh) * | 2018-04-17 | 2018-08-24 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
WO2019085575A1 (zh) * | 2017-11-02 | 2019-05-09 | 阿里巴巴集团控股有限公司 | 一种声纹认证方法、账号注册方法及装置 |
WO2020073743A1 (zh) * | 2018-10-10 | 2020-04-16 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN111312290A (zh) * | 2020-02-19 | 2020-06-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据音质检测方法及装置 |
CN111630934A (zh) * | 2018-01-22 | 2020-09-04 | 诺基亚技术有限公司 | 隐私保护的声纹认证装置和方法 |
CN112017693A (zh) * | 2019-05-30 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种音频质量评估方法及装置 |
CN112565242A (zh) * | 2020-12-02 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 基于声纹识别的远程授权方法、系统、设备及存储介质 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN113064994A (zh) * | 2021-03-25 | 2021-07-02 | 平安银行股份有限公司 | 会议质量评估方法、装置、设备及存储介质 |
CN113327621A (zh) * | 2021-06-09 | 2021-08-31 | 携程旅游信息技术(上海)有限公司 | 模型训练方法、用户识别方法、系统、设备及介质 |
-
2021
- 2021-09-10 CN CN202111060014.9A patent/CN113782036B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2388779A1 (en) * | 2010-05-21 | 2011-11-23 | SwissQual License AG | Method for estimating speech quality |
EP2595153A1 (en) * | 2011-11-18 | 2013-05-22 | Samsung Electronics Co., Ltd | Sound quality evaluation apparatus and method thereof |
WO2019085575A1 (zh) * | 2017-11-02 | 2019-05-09 | 阿里巴巴集团控股有限公司 | 一种声纹认证方法、账号注册方法及装置 |
CN111630934A (zh) * | 2018-01-22 | 2020-09-04 | 诺基亚技术有限公司 | 隐私保护的声纹认证装置和方法 |
CN108447489A (zh) * | 2018-04-17 | 2018-08-24 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
WO2020073743A1 (zh) * | 2018-10-10 | 2020-04-16 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN112017693A (zh) * | 2019-05-30 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种音频质量评估方法及装置 |
CN111312290A (zh) * | 2020-02-19 | 2020-06-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据音质检测方法及装置 |
CN112565242A (zh) * | 2020-12-02 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 基于声纹识别的远程授权方法、系统、设备及存储介质 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN113064994A (zh) * | 2021-03-25 | 2021-07-02 | 平安银行股份有限公司 | 会议质量评估方法、装置、设备及存储介质 |
CN113327621A (zh) * | 2021-06-09 | 2021-08-31 | 携程旅游信息技术(上海)有限公司 | 模型训练方法、用户识别方法、系统、设备及介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092482A (zh) * | 2023-04-12 | 2023-05-09 | 中国民用航空飞行学院 | 一套基于自注意力的实时管制语音质量计量方法及系统 |
US12051440B1 (en) | 2023-04-12 | 2024-07-30 | Civil Aviation Flight University Of China | Self-attention-based speech quality measuring method and system for real-time air traffic control |
CN117612566A (zh) * | 2023-11-16 | 2024-02-27 | 书行科技(北京)有限公司 | 音频质量评估方法及相关产品 |
CN117612566B (zh) * | 2023-11-16 | 2024-05-28 | 书行科技(北京)有限公司 | 音频质量评估方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113782036B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
US11527259B2 (en) | Learning device, voice activity detector, and method for detecting voice activity | |
CN113782036A (zh) | 音频质量评估方法、装置、电子设备和存储介质 | |
CN110175278B (zh) | 网络爬虫的检测方法及装置 | |
CN110875059B (zh) | 收音结束的判断方法、装置以及储存装置 | |
EP3989217A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
WO2021042537A1 (zh) | 语音识别认证方法及系统 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
CN110556098B (zh) | 语音识别结果测试方法、装置、计算机设备和介质 | |
CN113516994B (zh) | 实时语音识别方法、装置、设备及介质 | |
CN114694680A (zh) | 话务员的服务评估方法、装置、存储介质及电子设备 | |
CN112216285A (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
CN113921030B (zh) | 一种基于加权语音损失的语音增强神经网络训练方法及装置 | |
US11074917B2 (en) | Speaker identification | |
CN113421590B (zh) | 异常行为检测方法、装置、设备及存储介质 | |
CN113327618B (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
CN116129872A (zh) | 声纹特征构建方法、身份识别方法及相关装置 | |
CN116529812A (zh) | 用于针对由自动语音识别系统处理的语音命令检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
CN111354365B (zh) | 一种纯语音数据采样率识别方法、装置、系统 | |
CN112052994A (zh) | 客诉升级预测方法、装置及电子设备 | |
KR101804787B1 (ko) | 음질특징을 이용한 화자인식장치 및 방법 | |
JP7293826B2 (ja) | 問題検出装置、問題検出方法および問題検出プログラム | |
CN117727311B (zh) | 音频处理方法及装置、电子设备及计算机可读存储介质 | |
CN115457973B (zh) | 说话人分割方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |