CN116597829B - 一种提高语音识别精度的降噪处理方法及系统 - Google Patents
一种提高语音识别精度的降噪处理方法及系统 Download PDFInfo
- Publication number
- CN116597829B CN116597829B CN202310877968.1A CN202310877968A CN116597829B CN 116597829 B CN116597829 B CN 116597829B CN 202310877968 A CN202310877968 A CN 202310877968A CN 116597829 B CN116597829 B CN 116597829B
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- voice data
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 75
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 24
- 230000002829 reductive effect Effects 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000008030 elimination Effects 0.000 abstract description 7
- 238000003379 elimination reaction Methods 0.000 abstract description 7
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 238000013480 data collection Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种提高语音识别精度的降噪处理方法及系统,涉及数据处理技术领域,通过根据两个位置数据的采集节点配置对齐认证窗口进行其一位置数据的特征提取,并基于特征提取结果的映射时间节点进行两个位置数据对齐,在对齐后基于噪声剔除获得噪声初始剔除数据;进一步通过获取噪声匹配结果执行噪声初始剔除数据的噪声剔除及增强混合后执行语音识别。解决了现有技术中存在进行语音降噪精度较低,导致降噪后语音中杂音过重或过度降噪导致语音内容缺失,影响后续基于降噪语音进行内容识别的识别精度的技术问题。达到了提高语音降噪精度,提高所获降噪后语音的完整度,为进行内容识别提供高保真语音记录的技术效果。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种提高语音识别精度的降噪处理方法及系统。
背景技术
随着语音技术在各行各业中的广泛应用,人们对于语音质量和准确性的要求也越来越高。由于很多环境下存在严重的噪声干扰,这给语音识别和语音交互提出了极大的挑战。因此,语音降噪技术成为当下研究的热点之一。
目前,传统的语音降噪技术依靠数字信号处理和滤波等方法,通过对语音信号进行去噪处理以改善语音品质和可懂度。然而,这些方法的精度有限,难以有效去除语音信号中的杂音,更不必说保留语音细节信息。甚至,过度降噪会导致语音内容缺失,影响后续基于降噪语音进行内容识别的识别精度。
现有技术中存在进行语音降噪精度较低,导致降噪后语音中杂音过重或过度降噪导致语音内容缺失,影响后续基于降噪语音进行内容识别的识别精度的技术问题。
发明内容
本申请提供了一种提高语音识别精度的降噪处理方法及系统,用于针对解决现有技术中存在进行语音降噪精度较低,导致降噪后语音中杂音过重或过度降噪导致语音内容缺失,影响后续基于降噪语音进行内容识别的识别精度的技术问题。
鉴于上述问题,本申请提供了一种提高语音识别精度的降噪处理方法及系统。
本申请的第一个方面,提供了一种提高语音识别精度的降噪处理方法,所述方法包括:通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口;基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点;配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐;基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据;将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。
本申请的第二个方面,提供了一种提高语音识别精度的降噪处理系统,所述系统包括:语音数据采集模块,用于通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;认证窗口配置模块,用于提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口;时间节点映射模块,用于基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点;关联系数配置模块,用于配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐;剔除数据获得模块,用于基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;降噪语音生成模块,用于交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据;语音识别执行模块,用于将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的方法通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口,基于所述对齐认证窗口实现约束进行多来源语音对齐和同步的时间区间,提高进行所述第一位置语音数据和所述第二位置语音数据的对齐同步准确度和效率;基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点,本实施例后续基于所述语音特征提取结果及所述映射时间节点执行所述第一位置语音数据和所述第二位置语音数据的对齐同步;配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐,实现消除语音数据不同步缺陷,为后续进行高精度的语音降噪处理及高保真语音转文字提供参考数据;基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据,提高对语音数据中环境噪声消除彻底性;将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。达到了提高语音降噪精度,提高所获降噪后语音的完整度,为进行内容识别提供高保真语音记录的技术效果。
附图说明
图1为本申请提供的一种提高语音识别精度的降噪处理方法流程示意图;
图2为本申请提供的一种提高语音识别精度的降噪处理方法中执行特征认证的流程示意图;
图3为本申请提供的一种提高语音识别精度的降噪处理方法中进行异常区间降噪处理的流程示意图;
图4为本申请提供的一种提高语音识别精度的降噪处理系统的结构示意图。
附图标记说明:语音数据采集模块1,认证窗口配置模块2,时间节点映射模块3,关联系数配置模块4,剔除数据获得模块5,降噪语音生成模块6,语音识别执行模块7。
具体实施方式
本申请提供了一种提高语音识别精度的降噪处理方法及系统,用于针对解决现有技术中存在进行语音降噪精度较低,导致降噪后语音中杂音过重或过度降噪导致语音内容缺失,影响后续基于降噪语音进行内容识别的识别精度的技术问题。达到了提高语音降噪精度,提高所获降噪后语音的完整度,为进行内容识别提供高保真语音记录的技术效果。
本发明技术方案中对数据的获取、存储、使用、处理等均符合相关规定。
下面,将参考附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部。
实施例一:
如图1所示,本申请提供了一种提高语音识别精度的降噪处理方法,所述方法包括:
S100:通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;
具体而言,在本实施中,发声用户在一个室内空间中进行诸如发表讲话、主持会议的语言活动,本实施例的目的为根据采集获取的发声用户的语音数据进行降噪,以获得完整、清晰无杂音的发声用户语音记录,以及基于发声用户语音记录进行文本识别,获得高准确率文本。
所述语音识别单元为固定布设于室内空间中间隔一定距离的第一语音识别装置和第二语音识别装置,两个语音识别装置分别具有第一位置标识和第二位置标识,所述语音识别装置用于进行现场录音。
在发声用户讲话过程中,所述语音识别单元的第一语音识别装置和第二语音识别装置执行语音数据采集,获得具有语音识别装置的位置标识的语音数据,所述语音数据具体包括第一位置语音数据和第二位置语音数据。
S200:提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口;
具体而言,在本实施例中,所述数据采集节点为所述语音数据的时间戳(语音采集的开始时间),由于声音在空气中传播的延迟性,且发声用户并不处于距离第一语音识别装置和第二语音识别装置相同处,因而所述第一位置语音数据与所述第二位置语音数据的音频存在微小偏差,因而本实施例基于所述数据采集节点进行多个来源语音的对齐同步。
在本实施例中,所述对齐认证窗口为以所述数据采集节点为中心进行前后时间跨度扩充,获得的一个时间窗口,基于所述对齐认证窗口实现约束进行多来源语音对齐和同步的时间区间,提高进行所述第一位置语音数据和所述第二位置语音数据的对齐同步准确度和效率。
S300:基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点;
具体而言,在本实施例中,基于所述对齐认证窗口对所述第一位置语音数据进行语音截取获得局部语音数据,将所述局部语音数据的声波信号转化为可视化的第一声谱图,第一声谱图横轴具有第一位置语音数据的数据采集节点标识。
由于人声相较于环境噪音分贝相对较高,因而本实施例在所述第一声谱图中选取距离所述数据采集节点标识的时间跨度最小且峰值最高的单峰或双峰,作为所述语音特征提取结果。
所述语音特征提取结果的映射时间节点,即为在第一声谱图中,所述语音特征提取结果的图像起点和终点对应的两个时间节点。本实施例后续基于所述语音特征提取结果及所述映射时间节点执行所述第一位置语音数据和所述第二位置语音数据的对齐同步。
S400:配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐;
在一个实施例中,本申请提供的方法步骤还包括:
S410:读取所述第一位置语音数据和所述第二位置语音数据的采集位置坐标;
S420:交互发声用户的用户初始位置坐标;
S430:依据所述采集位置坐标和所述初始位置坐标进行所述第一位置语音数据和所述第二位置语音数据的距离偏差计算,获得距离偏差计算结果;
S440:根据所述距离偏差计算结果匹配获得所述模糊关联系数,其中,所述模糊关联系数为时间节点对齐认证的宽容系数。
具体而言,在本实施例中,在发声用户所处室内空间中,以某一规则墙角为坐标原点,构建平面二维坐标系。基于平面二维坐标系进行第一语音识别装置和第二语音识别装置的空间定位,进而将获得的两个空间位置,作为所述第一位置语音数据和所述第二位置语音数据的第一采集位置坐标和第二采集位置坐标。基于平面二维坐标系获得表征所述发声用户在室内空间中所处位置的所述用户初始位置坐标。
依据第一采集位置坐标和所述初始位置坐标获得发声用户与第一语音识别装置的第一距离参数,依据第二采集位置坐标和所述初始位置坐标获得发声用户与第二语音识别装置的第二距离参数。
基于第一距离参数和第二距离参数,进行所述第一位置语音数据和所述第二位置语音数据的距离偏差计算,获得距离偏差计算结果,所述距离偏差计算结果为第一距离参数和第二距离参数的距离差。
以所述距离偏差计算结果为被除数,以声音在空气中传播速度为除数进行匹配计算,获得所述模糊关联系数,所述模糊关联系数为发声用户产生的声音传递至第一语音识别装置和第二语音识别装置的时间差,既就是所述第一位置语音数据和所述第二位置语音数据的同步性偏差时间。
将所述模糊关联系数作为所述第一位置语音数据和所述第二位置语音数据进行数据采集时间节点对齐认证的宽容系数。
根据所述模糊关联系数对所述映射时间节点进行前后时间跨度的模糊扩充,获得模糊节点扩充结果,所述模糊节点扩充结果为以所述映射时间节点的两端时间节点为延伸起点,以所述模糊关联系数为时间延伸长度的一个时间区间。
采用获得第一位置语音数据的第一声谱图相同方法,获得第二位置语音数据的第二声谱图,进一步基于所述模糊节点扩充结果进行第二声谱图的局部图像提取,获得局部声谱图。
将所述语音特征提取结果与所述局部声谱图进行图像重合遍历,获得能够重合的单峰或双峰,作为第一位置语音数据和第二位置语音数据的所述特征匹配结果,基于第二声谱图横轴获得所述特征匹配结果的第二映射时间节点。
基于映射时间节点和第二映射时间节点进行所述第一位置语音数据和所述第二位置语音数据对齐,从而消除由于发声用户与第一语音识别装置和第二语音识别装置的距离不同,造成的第一位置语音数据和第二位置语音数据不同步的缺陷。
本实施例达到了消除语音数据不同步缺陷,为后续进行高精度的语音降噪处理及高保真语音转文字提供参考数据的技术效果。
S500:基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;
在一个实施例中,如图2所示,本申请提供的方法步骤还包括:
S510:当所述第一位置语音数据和所述第二位置语音数据对齐后,生成对齐认证指令;
S520:基于所述对齐认证指令分布认证时间节点,对所述认证时间节点的用户语音特征认证;
S530:判断语音特征认证结果是否满足预设约束阈值;
S540:当所述语音特征认证结果可以满足所述预设约束阈值时,则直接执行同时间节点的特征认证。
在一个实施例中,本申请提供的方法步骤还包括:
S541:当所述语音特征认证结果不能满足所述预设约束阈值时,则生成关键帧插帧指令;
S542:根据所述语音特征认证结果匹配插帧密度;
S543:对所述第一位置语音数据执行语音特征识别,获得特征识别结果,其中,所述特征识别结果带有特征清晰标识和时间标识;
S544:基于所述插帧密度和所述特征识别结果配置关键帧;
S545:通过所述关键帧执行所述第一位置语音数据和所述第二位置语音数据的关键帧对齐,根据对齐结果执行同时间节点的特征认证。
具体而言,由于发声用户在室内空间中停留位置不固定,因而随着时间推移,所述第一位置语音数据和所述第二位置语音数据还存在二次甚至多次语音数据不同步的可能。因而本实施例在步骤S400完成所述第一位置语音数据和所述第二位置语音数据对齐后,生成对齐认证指令,所述对齐认证指令用于进行第一位置语音数据和所述第二位置语音数据的全局对齐与否的验证。
本实施例基于所述对齐认证指令在第一位置语音数据和所述第二位置语音数据的时间轴上分布所述认证时间节点,例如相邻两个认证时间节点间隔1min。基于所述认证时间节点对第一位置语音数据和所述第二位置语音数据的第一声谱图和第二声谱图进行多组声谱图像采集。应理解的,本实施例采集获得的多组局部声谱图像中每组局部声谱图像对应的音频采集时间相同。
对多组局部声谱图像进行声波波峰图像提取,获得多组声波波峰线条图像,对多组声波波峰图像进行组内两条声波波峰图像相交面积计算,获得多个相交面积。对多个相交面积进行均值计算,作为对所述发声用户进行用户语音特征认证获得的语音特征认证结果。
设定表征第一位置语音数据和所述第二位置语音数据在后续语音条中始终不存在不同步缺陷的所述预设约束阈值,所述预设约束阈值为声波波峰线条相交面积,本实施例对于所述预设约束阈值的数值设定不做限制,可在实际应用中根据降噪精度进行适应性赋值。
判断语音特征认证结果是否满足预设约束阈值,当所述语音特征认证结果可以满足所述预设约束阈值时,则直接基于第一声谱图和第二声谱图,按照声谱图的时间轴执行同时间节点的声谱波峰波谷图像重合特征认证。
获得所述未认证特征集合,所述未认证特征集合为第一声谱图和第二声谱图中未相互重合的波峰波谷图像。应理解的,第一语音识别装置和第二语音识别装置在室内空间布设位置不同,所处噪声环境也不同,因而两者在进行发声用户的语音收录时,收录到的噪声分贝、频率等参数必然存在差异性,因而所述未认证特征集合即为单独存在于所述第一位置语音数据或所述第二位置语音数据中的噪声数据。
本实施例基于所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据,所述噪声初始剔除数据为去除掉一部分环境噪声后的语音数据,所述噪声初始剔除数据包括映射于所述第一位置语音数据和所述第二位置语音数据的第一噪声剔除数据和第二噪声剔除数据。
本实施例基于双张声谱图的波峰波谷图像遍历重合,实现了快速定位录入声音中的噪声并进行噪声高效率剔除的技术效果。
判断语音特征认证结果是否满足预设约束阈值,若所述语音特征认证结果不能满足所述预设约束阈值,则表明所述第一位置语音数据和所述第二位置语音数据在后续语音记录中还存在二次甚至多次语音数据不同步,因而本实施例生成关键帧插帧指令,所述关键帧插帧指令用于对所述第一位置语音数据和所述第二位置语音数据采用步骤S400相同方法在所述第一位置语音数据和所述第二位置语音数据的时间轴上插入多个关键帧进行多轮次的语音数据对齐同步处理。
在本实施例中,预设插帧密度设置规则,所述插帧密度设置规则包括多个插帧密度和映射于多个插帧密度的相交面积阈值。基于所述语音特征认证结果遍历比对插帧密度设置规则,匹配获得适合本实施例的所述插帧密度,示例性的,所述插帧密度为30S/帧。
对所述第一位置语音数据的第一声谱图执行语音特征识别,获得特征识别结果,所述特征识别结果为所述第一声谱图中的多个波峰,所述特征识别结果带有特征清晰标识和时间标识,所述特征清晰标识为波峰和相邻波峰的频率差值,所述特征清晰标识表征一个波峰在所述第一声谱图的波峰中的明显程度。
基于所述插帧密度将所述第一声谱图拆分为多个30S的存在相邻衔接关系的若干个局部声谱图,基于若干个局部声谱图进行所述特征识别结果的拆分提取,获得每个局部声谱图中多个波峰的特征清晰标识和时间标识。
随机选取若干个局部声谱图中的第一局部声谱图,对第一局部声谱图中多个波峰的多个特征清晰标识序列化,以确定第一局部声谱图中最明显的波峰图像,将该波峰图像的时间标识作为第一关键帧,采用相同方法进行若干个局部声谱图的关键帧确定,完成配置关键帧。
通过所述关键帧,采用步骤S400相同方法,执行所述第一位置语音数据和所述第二位置语音数据的关键帧对齐,以消除第一位置语音数据和所述第二位置语音数据全局的同步性缺陷,获得所述对齐结果,所述对齐结果包括映射于第一位置语音数据和所述第二位置语音数据的第一对齐语音数据和第二对齐语音数据。
根据对齐结果执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据。
本实施例基于插帧实现了在发声用户在室内空间位置变化,导致语音数据发声二次不同步的场景中,进行录入噪声的有效剔除的技术效果。
S600:交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据;
在一个实施例中,本申请提供的方法步骤还包括:
S610:通过大数据采集环境位置的噪声数据,并依据噪声数据的数据频率执行当前环境位置的噪声数据频率关联;
S620:提取所述噪声数据的噪声特征和所述噪声数据频率关联构建所述噪声特征库。
具体而言,在本实施例中,获得多种环境位置的多种噪声数据,对于多种噪声数据生成多个噪声声谱图,其中,噪声声谱图为一条或多条具有不规则形状的线,这些线的宽度和亮度会随着时间和频率的变化而变化,将噪声声谱图作为所述噪声特征。
本实施例基于多个噪声声谱图进行线条变化情况分析,确定多个噪声声谱图的最低频率、最高频率及频带宽度作为多个所述噪声数据频率关联。所述噪声数据频率关联反映了某种特定环境位置中环境噪声的频率变化特征。
将多个环境位置、多个噪声特征和多个所述噪声数据频率关联基于多个噪声数据进行分组,获得多组噪声数据-环境位置-噪声数据频率关联作为所述噪声特征库。本实施例通过构建所述噪声特征库,实现了为后续基于环境位置快速调用噪声数据频率进行所述噪声初始剔除数据是残余噪声二次剔除提供参考信息。
在预构建所述噪声特征库后,交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库的多个环境位置,获得一组与所述数据采集环境相一致的一组噪声数据-环境位置-噪声数据频率关联。
基于该组数据提取噪声数据频率关联对所述噪声初始剔除数据进行噪声匹配,获得噪声匹配结果,所述噪声匹配结果为当前残留在所述噪声初始剔除数据中的噪声。根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,获得映射于第一噪声剔除数据和第二噪声剔除数据的第一降噪数据和第二降噪数据。
由于本实施例前期进行了语音数据的全局同步对齐,因而本实施例在此直接进行第一降噪数据和第二降噪数据的音轨合并,获得所述降噪语音数据,所述降噪语音数据为消除室内环境全部噪声的纯人声语音。本实施例通过基于噪声频谱特征进行语音数据的二次降噪,实现了提高语音数据中环境噪声消除彻底性的技术效果。
S700:将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。
在一个实施例中,如图3所示,所述基于增强混合结果执行语音识别,本申请提供的方法步骤S700还包括:
S710:获得初始语音识别结果;
S720:基于所述初始语音识别结果进行语音连续性评价,获得语音连续性评价结果;
S730:通过所述语音连续性评价结果定位异常区间;
S740:对所述异常区间重构未认证特征集合,根据重构结果重新进行所述异常区间的降噪处理。
在一个实施例中,本申请提供的方法步骤还包括:
S711:根据所述初始语音识别结果生成用户语音特征;
S712:在根据重构结果重新进行所述异常区间的降噪处理前,通过所述用户语音特征对所述异常区间内的语音数据进行用户语音关联识别,生成用户语音关联保护。
具体而言,所述增强混合为将所述降噪语音数据的整体音量归一化调整为合适的水平,使得不同时间的所述降噪语音数据具有相同的声音强度。
在本实施例中,对所述降噪语音数据进行增强混合,基于增强混合结果执行语音分贝识别,获得初始语音识别结果,所述初始语音识别结果为所述降噪语音数据的分贝随时间变化曲线,所述初始语音识别结果的分贝随时间变化曲线处于横轴为时间,纵轴为分贝的二维坐标系中。
所述语音连续性评价为在所处初始语音识别结果中定位分贝随时间变化曲线中分贝为0的多个局部曲线的多个时间区间作为所述语音连续性评价结果。
预设静音异常时间阈值,例如5S,基于静音异常时间阈值遍历所述语音连续性评价结果,定位异常区间,所述异常区间为无发声用户的声音的多个时间区间。所述异常区间出现原因为所述发声用户的声音被误认为噪音剔除。
本实施例基于所述异常区间在所述第一位置语音数据和所述第二位置语音数据进行多个局部语音数据提取,并构建未认证特征集合获得所述重构结果。基于所述重构结果重新进行所述异常区间的降噪处理,以恢复被误认为噪音剔除的发声用户的语音内容。
具体进行所述异常区间降噪处理的方法为,根据所述初始语音识别结果进行声谱图构建,获得初始语音声谱图,基于初始语音声谱图提取获得最低频率、最高频率及频带宽度,作为所述用户语音特征。
在根据重构结果重新进行所述异常区间的降噪处理前,通过所述用户语音特征对所述异常区间内的多个局部语音数据进行用户语音关联识别,生成用户语音关联保护,所述用户语音关联保护为对多个局部语音数据中符合所述用户语音特征,但被认定为噪声剔除的语音进行保留,并基于前述进行噪声剔除方法,进行多个局部语音数据的两次噪声剔除。将完成噪声剔除且恢复用户语音的异常区间进行初始语音识别结果中对应时间区间的语音内容替换,获得最终语音识别结果。
本实施例实现了根据语音分贝变化定位被误认为噪声去除的发声用户语音对应时间区间,并对该时间区间内的用户语音进行二次降噪处理,实现了提高语音降噪精度,提高所获降噪后语音的完整度,为进行内容识别提供高保真语音记录的技术效果。
实施例二:
基于与前述实施例中一种提高语音识别精度的降噪处理方法相同的发明构思,如图4所示,本申请提供了一种提高语音识别精度的降噪处理系统,其中,所述系统包括:
语音数据采集模块1,用于通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;
认证窗口配置模块2,用于提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口;
时间节点映射模块3,用于基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点;
关联系数配置模块4,用于配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐;
剔除数据获得模块5,用于基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;
降噪语音生成模块6,用于交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据;
语音识别执行模块7,用于将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。
在一个实施例中,所述系统还包括:
采集位置读取单元,用于读取所述第一位置语音数据和所述第二位置语音数据的采集位置坐标;
初始位置交互单元,用于交互发声用户的用户初始位置坐标;
距离偏差计算单元,用于依据所述采集位置坐标和所述初始位置坐标进行所述第一位置语音数据和所述第二位置语音数据的距离偏差计算,获得距离偏差计算结果;
宽容系数获取单元,用于根据所述距离偏差计算结果匹配获得所述模糊关联系数,其中,所述模糊关联系数为时间节点对齐认证的宽容系数。
在一个实施例中,所述系统还包括:
对齐认证获得单元,用于当所述第一位置语音数据和所述第二位置语音数据对齐后,生成对齐认证指令;
基于所述对齐认证指令分布认证时间节点,对所述认证时间节点的用户语音特征认证;
认证结果判断单元,用于判断语音特征认证结果是否满足预设约束阈值;
特征认证执行单元,用于当所述语音特征认证结果可以满足所述预设约束阈值时,则直接执行同时间节点的特征认证。
在一个实施例中,所述系统还包括:
插帧指令生成单元,用于当所述语音特征认证结果不能满足所述预设约束阈值时,则生成关键帧插帧指令;
插帧密度匹配单元,用于根据所述语音特征认证结果匹配插帧密度;
语音特征识别单元,用于对所述第一位置语音数据执行语音特征识别,获得特征识别结果,其中,所述特征识别结果带有特征清晰标识和时间标识;
关键帧配置单元,用于基于所述插帧密度和所述特征识别结果配置关键帧;
特征认证执行单元,用于通过所述关键帧执行所述第一位置语音数据和所述第二位置语音数据的关键帧对齐,根据对齐结果执行同时间节点的特征认证。
在一个实施例中,所述系统还包括:
初始语音识别单元,用于获得初始语音识别结果;
语音评价执行单元,用于基于所述初始语音识别结果进行语音连续性评价,获得语音连续性评价结果;
异常区间定位单元,用于通过所述语音连续性评价结果定位异常区间;
降噪处理执行单元,用于对所述异常区间重构未认证特征集合,根据重构结果重新进行所述异常区间的降噪处理。
在一个实施例中,所述系统还包括:
频率关联执行单元,用于通过大数据采集环境位置的噪声数据,并依据噪声数据的数据频率执行当前环境位置的噪声数据频率关联;
噪声特征库构建单元,用于提取所述噪声数据的噪声特征和所述噪声数据频率关联构建所述噪声特征库。
在一个实施例中,所述系统还包括:
语音特征生成单元,用于根据所述初始语音识别结果生成用户语音特征;
语音关联保护单元,用于在根据重构结果重新进行所述异常区间的降噪处理前,通过所述用户语音特征对所述异常区间内的语音数据进行用户语音关联识别,生成用户语音关联保护。
综上所述的任意一项方法或者步骤可作为计算机指令或程序存储在各种不限类型的计算机存储器中,通过各种不限类型的计算机处理器识别计算机指令或程序,进而实现上述任一项方法或者步骤。
基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (8)
1.一种提高语音识别精度的降噪处理方法,其特征在于,所述方法包括:
通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;
提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口;
基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点;
配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐;
基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;
交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据;
将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
读取所述第一位置语音数据和所述第二位置语音数据的采集位置坐标;
交互发声用户的用户初始位置坐标;
依据所述采集位置坐标和所述初始位置坐标进行所述第一位置语音数据和所述第二位置语音数据的距离偏差计算,获得距离偏差计算结果;
根据所述距离偏差计算结果匹配获得所述模糊关联系数,其中,所述模糊关联系数为时间节点对齐认证的宽容系数。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一位置语音数据和所述第二位置语音数据对齐后,生成对齐认证指令;
基于所述对齐认证指令分布认证时间节点,对所述认证时间节点的用户语音特征认证;
判断语音特征认证结果是否满足预设约束阈值;
当所述语音特征认证结果可以满足所述预设约束阈值时,则直接执行同时间节点的特征认证。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
当所述语音特征认证结果不能满足所述预设约束阈值时,则生成关键帧插帧指令;
根据所述语音特征认证结果匹配插帧密度;
对所述第一位置语音数据执行语音特征识别,获得特征识别结果,其中,所述特征识别结果带有特征清晰标识和时间标识;
基于所述插帧密度和所述特征识别结果配置关键帧;
通过所述关键帧执行所述第一位置语音数据和所述第二位置语音数据的关键帧对齐,根据对齐结果执行同时间节点的特征认证。
5.如权利要求1所述的方法,其特征在于,所述基于增强混合结果执行语音识别,还包括:
获得初始语音识别结果;
基于所述初始语音识别结果进行语音连续性评价,获得语音连续性评价结果;
通过所述语音连续性评价结果定位异常区间;
对所述异常区间重构未认证特征集合,根据重构结果重新进行所述异常区间的降噪处理。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过大数据采集环境位置的噪声数据,并依据噪声数据的数据频率执行当前环境位置的噪声数据频率关联;
提取所述噪声数据的噪声特征和所述噪声数据频率关联构建所述噪声特征库。
7.如权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述初始语音识别结果生成用户语音特征;
在根据重构结果重新进行所述异常区间的降噪处理前,通过所述用户语音特征对所述异常区间内的语音数据进行用户语音关联识别,生成用户语音关联保护。
8.一种提高语音识别精度的降噪处理系统,其特征在于,所述系统包括:
语音数据采集模块,用于通过语音识别单元执行语音数据采集,获得语音数据,其中,所述语音数据包括第一位置语音数据和第二位置语音数据;
认证窗口配置模块,用于提取所述第一位置语音数据和所述第二位置语音数据的数据采集节点,并配置对齐认证窗口;
时间节点映射模块,用于基于所述对齐认证窗口对所述第一位置语音数据执行语音特征提取,生成语音特征提取结果,并标识所述语音特征提取结果的映射时间节点;
关联系数配置模块,用于配置模糊关联系数,根据所述模糊关联系数对所述映射时间节点模糊扩充,获得模糊节点扩充结果,通过对应所述语音特征提取结果进行所述模糊节点扩充结果时间节点内所述第二位置语音数据特征匹配,根据特征匹配结果完成所述第一位置语音数据和所述第二位置语音数据对齐;
剔除数据获得模块,用于基于对齐后的所述第一位置语音数据和所述第二位置语音数据执行同时间节点的特征认证,确定未认证特征集合,通过所述未认证特征集合分别进行所述第一位置语音数据和所述第二位置语音数据的噪声剔除,获得噪声初始剔除数据;
降噪语音生成模块,用于交互所述语音数据的数据采集环境,通过所述数据采集环境匹配噪声特征库,通过所述噪声特征库对所述噪声初始剔除数据进行噪声匹配,根据噪声匹配结果执行所述噪声初始剔除数据的噪声剔除,生成降噪语音数据;
语音识别执行模块,用于将所述降噪语音数据进行增强混合,基于增强混合结果执行语音识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310877968.1A CN116597829B (zh) | 2023-07-18 | 2023-07-18 | 一种提高语音识别精度的降噪处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310877968.1A CN116597829B (zh) | 2023-07-18 | 2023-07-18 | 一种提高语音识别精度的降噪处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116597829A CN116597829A (zh) | 2023-08-15 |
CN116597829B true CN116597829B (zh) | 2023-09-08 |
Family
ID=87608454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310877968.1A Active CN116597829B (zh) | 2023-07-18 | 2023-07-18 | 一种提高语音识别精度的降噪处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597829B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005057551A1 (ja) * | 2003-12-09 | 2005-06-23 | National Institute Of Advanced Industrial Science And Technology | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6156012B2 (ja) * | 2013-09-20 | 2017-07-05 | 富士通株式会社 | 音声処理装置及び音声処理用コンピュータプログラム |
CN109903752B (zh) * | 2018-05-28 | 2021-04-20 | 华为技术有限公司 | 对齐语音的方法和装置 |
CN113938785A (zh) * | 2021-11-24 | 2022-01-14 | 英华达(上海)科技有限公司 | 降噪处理方法、装置、设备、耳机及存储介质 |
-
2023
- 2023-07-18 CN CN202310877968.1A patent/CN116597829B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005057551A1 (ja) * | 2003-12-09 | 2005-06-23 | National Institute Of Advanced Industrial Science And Technology | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
Multi Pattern Dynamic Time Warping for automatic speech recognition;Nishanth Ulhas Nair et al.;TENCON 2008 - 2008 IEEE Region 10 Conference;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116597829A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019148586A1 (zh) | 多人发言中发言人识别方法以及装置 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN106128451B (zh) | 用于语音识别的方法及装置 | |
CN111383646B (zh) | 一种语音信号变换方法、装置、设备和存储介质 | |
CN103871419A (zh) | 一种信息处理方法及电子设备 | |
JP2015069063A (ja) | 音声認識システム、音声認識方法、及び音声認識プログラム | |
JP2013037174A (ja) | 雑音/残響除去装置とその方法とプログラム | |
CN108922543A (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN111710332B (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN116597829B (zh) | 一种提高语音识别精度的降噪处理方法及系统 | |
CN110689885A (zh) | 机器合成语音识别方法、装置、存储介质及电子设备 | |
Zeremdini et al. | A comparison of several computational auditory scene analysis (CASA) techniques for monaural speech segregation | |
Enzinger et al. | Mismatched distances from speakers to telephone in a forensic-voice-comparison case | |
Nathwani et al. | Group delay based methods for speaker segregation and its application in multimedia information retrieval | |
CN112687274A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
US20120117087A1 (en) | Video editing apparatus | |
Slaney | Pattern playback from 1950 to 1995 | |
CN113436613A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN103297674A (zh) | 信号处理装置、系统和方法,程序,电子器件 | |
CN110827845B (zh) | 录音方法、装置、设备及存储介质 | |
Pérez-López et al. | Blind reverberation time estimation from ambisonic recordings | |
CN112398912A (zh) | 一种语音信号加速方法、装置、计算机设备及存储介质 | |
CN112951199B (zh) | 音频数据生成方法及装置、数据集构建方法、介质、设备 | |
Zhang et al. | Monaural voiced speech segregation based on dynamic harmonic function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |