CN108010539A - 一种基于语音激活检测的语音质量评估方法及装置 - Google Patents
一种基于语音激活检测的语音质量评估方法及装置 Download PDFInfo
- Publication number
- CN108010539A CN108010539A CN201711266177.6A CN201711266177A CN108010539A CN 108010539 A CN108010539 A CN 108010539A CN 201711266177 A CN201711266177 A CN 201711266177A CN 108010539 A CN108010539 A CN 108010539A
- Authority
- CN
- China
- Prior art keywords
- audio file
- clip
- clip audio
- frame
- energy value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 230000004913 activation Effects 0.000 title claims abstract description 59
- 238000001303 quality assessment method Methods 0.000 title claims abstract description 20
- 230000005236 sound signal Effects 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000013441 quality evaluation Methods 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 9
- 238000004321 preservation Methods 0.000 claims description 9
- 238000012372 quality testing Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000003825 pressing Methods 0.000 claims description 4
- 229910002056 binary alloy Inorganic materials 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种基于语音激活检测的语音质量评估方法及装置,对录入的样本音频文件进行分帧处理,得到短时平稳音频信号,对短时平稳音频信号进行语音激活检测,判断短时平稳音频信号对应的帧为语音帧或非语音帧,以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,仅保留质量合格的片段音频文件,舍弃不合格的片段音频文件,解决了只结合语音激活检测的方式,除了区分开语音和噪声以外,无法对语音的质量做评估,导致的不能量化控制录入语音质量的技术问题。
Description
技术领域
本发明涉及语音检测领域,尤其涉及一种基于语音激活检测的语音质量评估方法及装置。
背景技术
大数据时代的到来带来了海量的多媒体信息,在音频领域中,人们对现场录制的音频的要求越来越高,希望能够听到更加清晰以及完整的音频。
现在的常规录音方式多数是通过麦克风(数字麦克风或模拟麦克风)采集声源信号,配合录音软件在电脑端或移动终端直接录入音频的方式。但在实际的语音会话中,有效语音时长一般不超过总时长的40%,其中包括了大量的无意义片段,如静音、噪声或者停顿等。现有技术大多只结合了VAD(Voice Activty Detection,语音激活检测)算法,做了语音和噪声的区分,采集语音过程中只保留语音部分,剔除噪声部分。但实际录音环境千差万别,单靠语音激活检测来区分语音和噪声是不够的,客观因素和主观因素都会对最后的录音质量造成不同的影响。影响录音的客观因素包括使用场景(噪声类型不同),不同的录音硬件配置(如麦克风的类型)和主观因素包括录音距离等,这些都会对录音的语音质量带来不同程度的影响。
只结合语音激活检测的方式,除了区分开语音和噪声以外,无法对语音的质量做评估,导致了不能量化控制录入语音质量的技术问题。
发明内容
本发明提供了一种基于语音激活检测的语音质量评估方法及装置,解决了只结合语音激活检测的方式,除了区分开语音和噪声以外,无法对语音的质量做评估,导致的不能量化控制录入语音质量的技术问题。
本发明提供了一种基于语音激活检测的语音质量评估方法,包括:
S1、获取样本音频文件的PCM二进制数据;
S2、对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
S3、依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
S4、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
S5、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
作为优选,步骤S4中语音质量检测为:
S401、对片段音频文件进行削顶检测,并判断片段音频文件是否存在削顶失真,若是,则将片段音频文件舍弃,若否,则执行步骤S402;
S402、计算片段音频文件的信噪比,并判断片段音频文件的信噪比是否高于预置信噪比阈值,若是,则执行步骤S403,若否,则将片段音频文件舍弃;
S403、计算片段音频文件的有效时间占比,并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值,若是,则执行步骤S404,若否,则将片段音频文件舍弃;
S404、计算片段音频文件的平均能量值,并判断片段音频文件的平均能量值是否高于预置平均能量值阈值,若是,则确定片段音频质量合格,并保存片段音频文件,若否,则将片段音频文件舍弃。
作为优选,步骤S402中计算片段音频文件的信噪比具体为:
获取片段音频文件的语音平均幅值;
获取片段音频文件的噪声平均幅值;
以语音平均幅值与噪声平均幅值相除得到的比值为底数,e为对数进行对数运算,将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。
作为优选,步骤S403中计算片段音频文件的有效时间占比具体为:
获取片段音频文件中语音帧的总时长;
获取片段音频文件中所有帧的总时长;
将语音帧的总时长与所有帧的总时长相除,得到片段音频文件的有效时间占比。
作为优选,步骤S404中计算片段音频文件的平均能量值具体为:
获取片段音频文件中每帧语音帧的能量值的幅值;
将每帧语音帧的能量值的幅值进行加权计算,得到片段音频文件的能量值加权值;
获取片段音频文件中语音帧的帧数;
将能量值的加权值与语音帧的帧数相除,得到片段音频文件的平均能量值。
本发明提供了一种基于语音激活检测的语音质量评估装置,包括:
获取单元,用于获取样本音频文件的PCM二进制数据;
分帧单元,用于对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
语音激活检测单元,用于依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
质量检测单元,用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
音频拼接合成单元,用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
作为优选,质量检测单元包括:
削顶检测单元,用于对片段音频文件进行削顶检测,并判断片段音频文件是否存在削顶失真,若是,则将片段音频文件舍弃,若否,则跳转至信噪比计算判断单元;
信噪比计算判断单元,用于计算片段音频文件的信噪比,并判断片段音频文件的信噪比是否高于预置信噪比阈值,若是,则跳转至有效时间占比计算判断单元,若否,则将片段音频文件舍弃;
有效时间占比计算判断单元,用于计算片段音频文件的有效时间占比,并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值,若是,则跳转至平均能量值计算判断单元,若否,则将片段音频文件舍弃;
平均能量值计算判断单元,计算片段音频文件的平均能量值,并判断片段音频文件的平均能量值是否高于预置平均能量值阈值,若是,则确定片段音频质量合格,并保存片段音频文件,若否,则将片段音频文件舍弃。
作为优选,信噪比计算判断单元包括:
第一获取子单元,用于获取片段音频文件的语音平均幅值;
第二获取子单元,用于获取片段音频文件的噪声平均幅值;
信噪比计算子单元,用于以语音平均幅值与噪声平均幅值相除得到的比值为底数,e为对数进行对数运算,将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。
作为优选,有效时间占比计算判断单元包括:
第三获取子单元,用于获取片段音频文件中语音帧的总时长;
第四获取子单元,用于获取片段音频文件中所有帧的总时长;
有效时间占比计算子单元,用于将语音帧的总时长与所有帧的总时长相除,得到片段音频文件的有效时间占比。
作为优选,平均能量值计算判断单元包括:
第五获取子单元,用于获取片段音频文件中每帧语音帧的能量值的幅值;
加权计算子单元,用于将每帧语音帧的能量值的幅值进行加权计算,得到片段音频文件的能量值加权值;
第六获取子单元,用于获取片段音频文件中语音帧的帧数;
平均能量值计算子单元,用于将能量值的加权值与语音帧的帧数相除,得到片段音频文件的平均能量值。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种基于语音激活检测的语音质量评估方法,包括:S1、获取样本音频文件的PCM二进制数据;S2、对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;S3、依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;S4、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;S5、将保存的质量合格的片段音频文件合成为完整的音频文件。
本发明中,对录入的样本音频文件进行分帧处理,得到短时平稳音频信号,对短时平稳音频信号进行语音激活检测,判断短时平稳音频信号对应的帧为语音帧或非语音帧,以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,仅保留质量合格的片段音频文件,舍弃不合格的片段音频文件,解决了只结合语音激活检测的方式,除了区分开语音和噪声以外,无法对语音的质量做评估,导致的不能量化控制录入语音质量的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于语音激活检测的语音质量评估方法的一个实施例的流程示意图;
图2为本发明提供的一种基于语音激活检测的语音质量评估方法的另一个实施例的流程示意图;
图3为本发明提供的一种基于语音激活检测的语音质量评估装置的一个实施例的结构示意图;
图4为本发明提供的一种基于语音激活检测的语音质量评估装置的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种基于语音激活检测的语音质量评估方法及装置,解决了只结合语音激活检测的方式,除了区分开语音和噪声以外,无法对语音的质量做评估,导致的不能量化控制录入语音质量的技术问题。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于语音激活检测的语音质量评估方法的一个实施例,包括:
101、获取样本音频文件的PCM二进制数据;
需要说明的是,缓存音频采集装置(麦克风)采集得到的样本音频文件,获得样本音频文件的PCM二进制数据。
102、对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
需要说明的是,对获取到的样本音频文件的PCM二进制数据进行分帧处理,得到每帧的短时平稳音频信号,用于后续的检测。
103、依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
需要说明的是,依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧。
104、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
需要说明的是,以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,满足不存在削顶失真,且片段音频文件的信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,保存该片段音频文件。
105、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
需要说明的是,将确定质量合格的片段音频文件,按顺序拼接合成为完整的音频文件输出。
本发明实施例中,对录入的样本音频文件进行分帧处理,得到短时平稳音频信号,对短时平稳音频信号进行语音激活检测,判断短时平稳音频信号对应的帧为语音帧或非语音帧,以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,仅保留质量合格的片段音频文件,舍弃不合格的片段音频文件,解决了只结合语音激活检测的方式,除了区分开语音和噪声以外,无法对语音的质量做评估,导致的不能量化控制录入语音质量的技术问题。
以上是本发明提供的一种基于语音激活检测的语音质量评估方法的一个实施例进行说明,以下将说明本发明提供的一种基于语音激活检测的语音质量评估方法的另一个实施例进行说明。
请参阅图2,本发明实施例提供了一种基于语音激活检测的语音质量评估方法的另一个实施例,包括:
201、获取样本音频文件的PCM二进制数据;
需要说明的是,缓存音频采集装置(麦克风)采集得到的样本音频文件,获得样本音频文件的PCM二进制数据。
202、对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
需要说明的是,对获取到的样本音频文件的PCM二进制数据进行分帧处理,得到每帧的短时平稳音频信号,用于后续的检测。
203、依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
需要说明的是,依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧。
204、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测;
语音质量检测为:
2041、对片段音频文件进行削顶检测,并判断片段音频文件是否存在削顶失真,若是,则将片段音频文件舍弃,若否,则执行步骤2042;
2042、计算片段音频文件的信噪比,并判断片段音频文件的信噪比是否高于预置信噪比阈值,若是,则执行步骤2043,若否,则将片段音频文件舍弃;
其中,计算片段音频文件的信噪比具体为:
20421、获取片段音频文件的语音平均幅值;
20422、获取片段音频文件的噪声平均幅值;
20423、以语音平均幅值与噪声平均幅值相除得到的比值为底数,e为对数进行对数运算,将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比;
2043、计算片段音频文件的有效时间占比,并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值,若是,则执行步骤2044,若否,则将片段音频文件舍弃;
其中,计算片段音频文件的有效时间占比具体为:
20431、获取片段音频文件中语音帧的总时长;
20432、获取片段音频文件中所有帧的总时长;
20433、将语音帧的总时长与所有帧的总时长相除,得到片段音频文件的有效时间占比;
2044、计算片段音频文件的平均能量值,并判断片段音频文件的平均能量值是否高于预置平均能量值阈值,若是,则确定片段音频质量合格,并保存片段音频文件,若否,则将片段音频文件舍弃;
其中,计算片段音频文件的平均能量值具体为:
20441、获取片段音频文件中每帧语音帧的能量值的幅值;
20442、将每帧语音帧的能量值的幅值进行加权计算,得到片段音频文件的能量值加权值;
20443、获取片段音频文件中语音帧的帧数;
20444、将能量值的加权值与语音帧的帧数相除,得到片段音频文件的平均能量值。
205、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
需要说明的是,将确定质量合格的片段音频文件,按顺序拼接合成为完整的音频文件输出。
以上是对本发明提供的一种基于语音激活检测的语音质量评估方法的另一个实施例进行说明,以下将对本发明提供的一种基于语音激活检测的语音质量评估装置的一个实施例进行说明。
请参阅图3,本发明提供了一种基于语音激活检测的语音质量评估装置的一个实施例,包括:
获取单元301,用于获取样本音频文件的PCM二进制数据;
分帧单元302,用于对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
语音激活检测单元303,用于依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
质量检测单元304,用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
音频拼接合成单元305,用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
以上是对本发明提供的一种基于语音激活检测的语音质量评估装置的一个实施例进行说明,以下将对本发明提供的一种基于语音激活检测的语音质量评估装置的另一个实施例进行说明。
请参阅图4,本发明提供了一种基于语音激活检测的语音质量评估装置的另一个实施例,包括:
获取单元401,用于获取样本音频文件的PCM二进制数据;
分帧单元402,用于对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
语音激活检测单元403,用于依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
质量检测单元404,用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
质量检测单元404包括:
削顶检测单元4041,用于对片段音频文件进行削顶检测,并判断片段音频文件是否存在削顶失真,若是,则将片段音频文件舍弃,若否,则跳转至信噪比计算判断单元4042;
信噪比计算判断单元4042,用于计算片段音频文件的信噪比,并判断片段音频文件的信噪比是否高于预置信噪比阈值,若是,则跳转至有效时间占比计算判断单元4043,若否,则将片段音频文件舍弃;
信噪比计算判断单元4042包括:
第一获取子单元40421,用于获取片段音频文件的语音平均幅值;
第二获取子单元40422,用于获取片段音频文件的噪声平均幅值;
信噪比计算子单元40423,用于以语音平均幅值与噪声平均幅值相除得到的比值为底数,e为对数进行对数运算,将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比;
有效时间占比计算判断单元4043,用于计算片段音频文件的有效时间占比,并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值,若是,则跳转至平均能量值计算判断单元4044,若否,则将片段音频文件舍弃;
有效时间占比计算判断单元4043包括:
第三获取子单元40431,用于获取片段音频文件中语音帧的总时长;
第四获取子单元40432,用于获取片段音频文件中所有帧的总时长;
有效时间占比计算子单元40433,用于将语音帧的总时长与所有帧的总时长相除,得到片段音频文件的有效时间占比;
平均能量值计算判断单元4044,计算片段音频文件的平均能量值,并判断片段音频文件的平均能量值是否高于预置平均能量值阈值,若是,则确定片段音频质量合格,并保存片段音频文件,若否,则将片段音频文件舍弃;
平均能量值计算判断单元4044包括:
第五获取子单元40441,用于获取片段音频文件中每帧语音帧的能量值的幅值;
加权计算子单元40442,用于将每帧语音帧的能量值的幅值进行加权计算,得到片段音频文件的能量值加权值;
第六获取子单元40443,用于获取片段音频文件中语音帧的帧数;
平均能量值计算子单元40444,用于将能量值的加权值与语音帧的帧数相除,得到片段音频文件的平均能量值;
音频拼接合成单元405,用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语音激活检测的语音质量评估方法,其特征在于,包括:
S1、获取样本音频文件的PCM二进制数据;
S2、对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
S3、依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
S4、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
S5、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
2.根据权利要求1所述的基于语音激活检测的语音质量评估方法,其特征在于,步骤S4中语音质量检测为:
S401、对片段音频文件进行削顶检测,并判断片段音频文件是否存在削顶失真,若是,则将片段音频文件舍弃,若否,则执行步骤S402;
S402、计算片段音频文件的信噪比,并判断片段音频文件的信噪比是否高于预置信噪比阈值,若是,则执行步骤S403,若否,则将片段音频文件舍弃;
S403、计算片段音频文件的有效时间占比,并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值,若是,则执行步骤S404,若否,则将片段音频文件舍弃;
S404、计算片段音频文件的平均能量值,并判断片段音频文件的平均能量值是否高于预置平均能量值阈值,若是,则确定片段音频质量合格,并保存片段音频文件,若否,则将片段音频文件舍弃。
3.根据权利要求2所述的基于语音激活检测的语音质量评估方法,其特征在于,步骤S402中计算片段音频文件的信噪比具体为:
获取片段音频文件的语音平均幅值;
获取片段音频文件的噪声平均幅值;
以语音平均幅值与噪声平均幅值相除得到的比值为底数,e为对数进行对数运算,将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。
4.根据权利要求2所述的基于语音激活检测的语音质量评估方法,其特征在于,步骤S403中计算片段音频文件的有效时间占比具体为:
获取片段音频文件中语音帧的总时长;
获取片段音频文件中所有帧的总时长;
将语音帧的总时长与所有帧的总时长相除,得到片段音频文件的有效时间占比。
5.根据权利要求2所述的基于语音激活检测的语音质量评估方法,其特征在于,步骤S404中计算片段音频文件的平均能量值具体为:
获取片段音频文件中每帧语音帧的能量值的幅值;
将每帧语音帧的能量值的幅值进行加权计算,得到片段音频文件的能量值加权值;
获取片段音频文件中语音帧的帧数;
将能量值的加权值与语音帧的帧数相除,得到片段音频文件的平均能量值。
6.一种基于语音激活检测的语音质量评估装置,其特征在于,包括:
获取单元,用于获取样本音频文件的PCM二进制数据;
分帧单元,用于对样本音频文件的PCM二进制数据进行分帧处理,得到每帧PCM二进制数据对应的短时平稳音频信号;
语音激活检测单元,用于依次按帧对短时平稳音频信号进行语音激活检测,确定短时平稳音频信号对应的帧为语音帧或非语音帧;
质量检测单元,用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测,确定不存在削顶失真的片段音频,并计算片段音频文件的信噪比、有效时间占比和平均能量值,并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较,若信噪比、有效时间占比和平均能量值均高于对应的预设阈值,则确定片段音频文件质量合格,并保存片段音频文件;
音频拼接合成单元,用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。
7.根据权利要求6所述的基于语音激活检测的语音质量评估装置,其特征在于,质量检测单元包括:
削顶检测单元,用于对片段音频文件进行削顶检测,并判断片段音频文件是否存在削顶失真,若是,则将片段音频文件舍弃,若否,则跳转至信噪比计算判断单元;
信噪比计算判断单元,用于计算片段音频文件的信噪比,并判断片段音频文件的信噪比是否高于预置信噪比阈值,若是,则跳转至有效时间占比计算判断单元,若否,则将片段音频文件舍弃;
有效时间占比计算判断单元,用于计算片段音频文件的有效时间占比,并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值,若是,则跳转至平均能量值计算判断单元,若否,则将片段音频文件舍弃;
平均能量值计算判断单元,计算片段音频文件的平均能量值,并判断片段音频文件的平均能量值是否高于预置平均能量值阈值,若是,则确定片段音频质量合格,并保存片段音频文件,若否,则将片段音频文件舍弃。
8.根据权利要求7所述的基于语音激活检测的语音质量评估装置,其特征在于,信噪比计算判断单元包括:
第一获取子单元,用于获取片段音频文件的语音平均幅值;
第二获取子单元,用于获取片段音频文件的噪声平均幅值;
信噪比计算子单元,用于以语音平均幅值与噪声平均幅值相除得到的比值为底数,e为对数进行对数运算,将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。
9.根据权利要求7所述的基于语音激活检测的语音质量评估装置,其特征在于,有效时间占比计算判断单元包括:
第三获取子单元,用于获取片段音频文件中语音帧的总时长;
第四获取子单元,用于获取片段音频文件中所有帧的总时长;
有效时间占比计算子单元,用于将语音帧的总时长与所有帧的总时长相除,得到片段音频文件的有效时间占比。
10.根据权利要求7所述的基于语音激活检测的语音质量评估装置,其特征在于,平均能量值计算判断单元包括:
第五获取子单元,用于获取片段音频文件中每帧语音帧的能量值的幅值;
加权计算子单元,用于将每帧语音帧的能量值的幅值进行加权计算,得到片段音频文件的能量值加权值;
第六获取子单元,用于获取片段音频文件中语音帧的帧数;
平均能量值计算子单元,用于将能量值的加权值与语音帧的帧数相除,得到片段音频文件的平均能量值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711266177.6A CN108010539A (zh) | 2017-12-05 | 2017-12-05 | 一种基于语音激活检测的语音质量评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711266177.6A CN108010539A (zh) | 2017-12-05 | 2017-12-05 | 一种基于语音激活检测的语音质量评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108010539A true CN108010539A (zh) | 2018-05-08 |
Family
ID=62056700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711266177.6A Pending CN108010539A (zh) | 2017-12-05 | 2017-12-05 | 一种基于语音激活检测的语音质量评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108010539A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735221A (zh) * | 2018-05-28 | 2018-11-02 | 深圳市街角电子商务有限公司 | 一种基于深度学习的说话人识别系统及识别方法 |
CN110264999A (zh) * | 2019-03-27 | 2019-09-20 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN110580917A (zh) * | 2019-09-16 | 2019-12-17 | 数据堂(北京)科技股份有限公司 | 一种语音数据质量检测方法、装置、服务器及存储介质 |
CN111179973A (zh) * | 2020-01-06 | 2020-05-19 | 苏州思必驰信息科技有限公司 | 语音合成质量评价方法及系统 |
CN112712791A (zh) * | 2020-12-08 | 2021-04-27 | 深圳市优必选科技股份有限公司 | 静音语音检测方法、装置、终端设备及存储介质 |
CN112786066A (zh) * | 2020-12-24 | 2021-05-11 | 北京猿力未来科技有限公司 | 音频信号筛选方法、装置及电子设备 |
CN113744762A (zh) * | 2021-08-09 | 2021-12-03 | 杭州网易智企科技有限公司 | 一种信噪比确定方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1617222A (zh) * | 2003-06-25 | 2005-05-18 | 朗迅科技公司 | 客观语音质量评估中反映时间/语言失真的方法 |
CN1622193A (zh) * | 2004-12-24 | 2005-06-01 | 北京中星微电子有限公司 | 一种语音信号检测方法 |
CN101411171A (zh) * | 2006-01-31 | 2009-04-15 | 艾利森电话股份有限公司 | 非侵入信号质量评测 |
CN103632680A (zh) * | 2012-08-24 | 2014-03-12 | 华为技术有限公司 | 一种语音质量评估方法、网元及系统 |
CN103716470A (zh) * | 2012-09-29 | 2014-04-09 | 华为技术有限公司 | 语音质量监控的方法和装置 |
CN105810214A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
US20160261749A1 (en) * | 2015-03-05 | 2016-09-08 | Raytheon Company | Methods and apparatus for reducing audio conference noise using voice quality measures |
CN107221343A (zh) * | 2017-05-19 | 2017-09-29 | 北京市农林科学院 | 一种数据质量的评估方法及评估系统 |
CN107342079A (zh) * | 2017-07-05 | 2017-11-10 | 谌勋 | 一种基于互联网的真实人声的采集系统 |
-
2017
- 2017-12-05 CN CN201711266177.6A patent/CN108010539A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1617222A (zh) * | 2003-06-25 | 2005-05-18 | 朗迅科技公司 | 客观语音质量评估中反映时间/语言失真的方法 |
CN1622193A (zh) * | 2004-12-24 | 2005-06-01 | 北京中星微电子有限公司 | 一种语音信号检测方法 |
CN101411171A (zh) * | 2006-01-31 | 2009-04-15 | 艾利森电话股份有限公司 | 非侵入信号质量评测 |
CN103632680A (zh) * | 2012-08-24 | 2014-03-12 | 华为技术有限公司 | 一种语音质量评估方法、网元及系统 |
CN103716470A (zh) * | 2012-09-29 | 2014-04-09 | 华为技术有限公司 | 语音质量监控的方法和装置 |
CN105810214A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
US20160261749A1 (en) * | 2015-03-05 | 2016-09-08 | Raytheon Company | Methods and apparatus for reducing audio conference noise using voice quality measures |
CN107221343A (zh) * | 2017-05-19 | 2017-09-29 | 北京市农林科学院 | 一种数据质量的评估方法及评估系统 |
CN107342079A (zh) * | 2017-07-05 | 2017-11-10 | 谌勋 | 一种基于互联网的真实人声的采集系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735221A (zh) * | 2018-05-28 | 2018-11-02 | 深圳市街角电子商务有限公司 | 一种基于深度学习的说话人识别系统及识别方法 |
CN110264999A (zh) * | 2019-03-27 | 2019-09-20 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN110580917A (zh) * | 2019-09-16 | 2019-12-17 | 数据堂(北京)科技股份有限公司 | 一种语音数据质量检测方法、装置、服务器及存储介质 |
CN111179973A (zh) * | 2020-01-06 | 2020-05-19 | 苏州思必驰信息科技有限公司 | 语音合成质量评价方法及系统 |
CN111179973B (zh) * | 2020-01-06 | 2022-04-05 | 思必驰科技股份有限公司 | 语音合成质量评价方法及系统 |
CN112712791A (zh) * | 2020-12-08 | 2021-04-27 | 深圳市优必选科技股份有限公司 | 静音语音检测方法、装置、终端设备及存储介质 |
CN112712791B (zh) * | 2020-12-08 | 2024-01-12 | 深圳市优必选科技股份有限公司 | 静音语音检测方法、装置、终端设备及存储介质 |
CN112786066A (zh) * | 2020-12-24 | 2021-05-11 | 北京猿力未来科技有限公司 | 音频信号筛选方法、装置及电子设备 |
CN112786066B (zh) * | 2020-12-24 | 2023-03-14 | 北京猿力未来科技有限公司 | 音频信号筛选方法、装置及电子设备 |
CN113744762A (zh) * | 2021-08-09 | 2021-12-03 | 杭州网易智企科技有限公司 | 一种信噪比确定方法、装置、电子设备和存储介质 |
CN113744762B (zh) * | 2021-08-09 | 2023-10-27 | 杭州网易智企科技有限公司 | 一种信噪比确定方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108010539A (zh) | 一种基于语音激活检测的语音质量评估方法及装置 | |
CN108597498A (zh) | 一种多麦克风语音采集方法及装置 | |
US9190068B2 (en) | Signal presence detection using bi-directional communication data | |
Parchami et al. | Recent developments in speech enhancement in the short-time Fourier transform domain | |
US9269367B2 (en) | Processing audio signals during a communication event | |
US8005675B2 (en) | Apparatus and method for audio analysis | |
US9293133B2 (en) | Improving voice communication over a network | |
KR101038964B1 (ko) | 에코 제거/억제 방법 및 장치 | |
CN105118522B (zh) | 噪声检测方法及装置 | |
CN107578770A (zh) | 网络电话语音识别方法、装置、计算机设备和存储介质 | |
CN107580155B (zh) | 网络电话质量确定方法、装置、计算机设备和存储介质 | |
CN107863099A (zh) | 一种新型双麦克风语音检测和增强方法 | |
EP2529370B1 (en) | Systems and methods for speech extraction | |
US7167544B1 (en) | Telecommunication system with error messages corresponding to speech recognition errors | |
CN108152788A (zh) | 声源追踪方法、声源追踪设备及计算机可读存储介质 | |
JP6524674B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
FR3014237A1 (fr) | Procede de detection de la voix | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
Hansen et al. | Nonlinear waveform distortion: Assessment and detection of clipping on speech data and systems | |
JP2001520764A (ja) | スピーチ分析システム | |
Shamsoddini et al. | A sound segregation algorithm for reverberant conditions | |
JP6394103B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN115995234A (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN115101097A (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN106293607A (zh) | 自动切换音频输出模式的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180508 |