CN115273876A - 一种用于ai语音通讯的语音数据增强方法、系统及装置 - Google Patents
一种用于ai语音通讯的语音数据增强方法、系统及装置 Download PDFInfo
- Publication number
- CN115273876A CN115273876A CN202210899007.6A CN202210899007A CN115273876A CN 115273876 A CN115273876 A CN 115273876A CN 202210899007 A CN202210899007 A CN 202210899007A CN 115273876 A CN115273876 A CN 115273876A
- Authority
- CN
- China
- Prior art keywords
- voice
- gray scale
- segment
- pixel point
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004891 communication Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 275
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 230000001131 transforming effect Effects 0.000 claims abstract description 10
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 230000003044 adaptive effect Effects 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本申请涉及装置智能控制领域,具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置,包括:获取语音信号,将语音信号转化为语音数字信号,利用该语音数字信号得到其声波图和语谱图,利用跨模态思想将一维的声波图转换为二维的语谱灰度图,获取声波图和语谱灰度图的变化时间段,对两者变化时间段求并集得到组合时间段,组合时间段将语谱灰度图分为多个语谱灰度图段,计算每个语谱灰度图段内每个像素点的自适应窗口及衰减系数,利用每个语谱灰度图段内每个像素点的自适应窗口及衰减系数得到去噪后的灰度值,进而得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到增强后的语音信号,本发明实现了语音信号的增强。
Description
技术领域
本申请涉及装置智能控制领域,具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置。
背景技术
近年来,语音通讯技术发展的越来越迅速。然而在进行语音通讯过程中,语音往往会受到环境噪声的影响。因此语音数据的增强对于语音通讯技术的发展极为重要。
语音增强是在复杂的背景环境下获得清晰语音的一种数据处理技术。传统的语音数据增强方法往往是谱减法、维纳滤波、小波去噪方法,在利用谱减法时,由于使用静音段的噪声作为当前帧的噪声,因此部分语音区域会出现较大的残留噪声;而维纳滤波的噪声功率谱是通过对静音段估计得到的,所以滤波效果不佳;小波的去噪变化的阈值设置不当,影响理想的降噪效果;因此,亟待一种用于AI语音通讯的语音数据增强方法、系统及装置解决现有去噪方法存在较大残留噪声,降噪效果不佳的问题。
发明内容
本发明提供基于大数据的图像智能压缩方法,以解决现有去噪方法存在较大残留噪声、降噪效果不佳的问题。
本发明的一种用于AI语音通讯的语音数据增强方法,采用如下技术方案:
S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
进一步的,所述获取语谱灰度图的分割时间区间段的方法是:
获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;
利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
进一步的,所述获取语谱灰度图的分割时间区间段的方法是:
获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;
利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;
对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。
进一步的,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
当语谱灰度图段内的最大灰度值大于阈值时,该语谱灰度图段为正常语音语谱灰度图段;
当语谱灰度图段内的最大灰度值小于阈值时,该语谱灰度图段为噪声语谱灰度图段。进一步的,所述每个像素点的初始窗口的分布度的具体表达式为:
γpq=th(0.6εpq+0.4δpq)
式中:γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,εpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值,δpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差。
进一步的,所述得到每个像素点的自适应窗口的具体表达式为:
若语谱灰度图段为正常语音语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
式中:ω2pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,10表示正常语音语谱灰度图段内像素点的初始窗口尺寸。
若语谱灰度图段为噪声语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
式中:ω1pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,3表示噪声数字信号像素点的初始窗口尺寸。
进一步的,所述每个像素点的衰减系数的表达式为:
一种用于AI语音通讯的语音数据增强系统,包括:
语音采集模块、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
信号判定模块、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
获取自适应窗口模块、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
语音去噪模块、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
一种用于AI语音通讯的语音数据增强装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序,语音数据增强程序被所述处理器执行时实现如说明书中S1-S5任一项所述的用于AI语音通讯的语音数据增强方法的步骤。
本发明的有益效果是:将一维的仅具有幅值大小的语音数字信号转换为二维的同时具有频率与幅值的语谱灰度图,语谱灰度图可将语音数字信号量化,便于分析计算;将图像中的暗通道先验去雾算法引入到语谱灰度图去噪过程,结合声波图和语谱灰度图的特征,自适应获取暗通道先验算法中的统计窗口即自适应窗口进行去雾运算,得到去雾后的语谱灰度图,自适应窗口结合语谱灰度图的自身特征,使去雾后的结果更加准确;对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号,实现了语音数据的增强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种用于AI语音通讯的语音数据增强方法的流程图;
图2为本发明的一种用于AI语音通讯的语音数据增强系统的结构框图。
具体实施方式
本发明引入数据跨模态处理思想,将一维的仅具有幅值大小的语音信号转换为二维的同时具有频率与幅值的语谱图。将图像中的暗通道先验去雾算法引入到语谱图去噪过程,结合声波图和语谱图的特征,自适应获取暗通道先验算法中的统计窗口进行去雾运算,从而实现语音数据的增强。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种用于AI语音通讯的语音数据增强方法的实施例,如图1所示,包括:
S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值。
采集一段语音信号的具体步骤为:设置相应平台,包括麦克风、数字信号处理单元、数据传输系统、语音数据增强系统、数存储模块和支撑支架,利用平台中麦克风设备采集一定时段语音信号。
将语音信号利用数字信号处理单元的模数转换功能转换为语音数字信号,根据语音数字信号中的时间和幅值绘制该语音数字信号的声波图,对该语音数字信号进行傅里叶变换得到语音信号的语谱图。
其中,将一维的仅具有幅值大小的语音信号转换为二维的同时具有频率与幅值的语谱图,语谱图中的颜色值代表信号能量的强弱,颜色越深,能量越大,颜色仅具有语义含义,具体的颜色值三通道大小(R,G,B)并无指代含义,因此,在本发明中为了更加有利于量化能量的大小,将能量值归一化至0~255范围内。
获取语谱图中所有能量值,将每个能量值作为灰度值构建语谱图灰度图的具体步骤为:对每个能量值归一化,具体表达式为:
式中,E(d,t)表示第d帧语音数字信号中第t个频率归一化的能量值,max(E)表示该段语音数字信号内最大能量值,min(E)表示该段语音数字信号内最小能量值,255表示灰度值分布范围,使得归一化结果在0~255范围内。
至此,可以将带颜色语谱图转换为语谱图灰度图,且每个像素点的灰度值大小可以代表能量值的大小;其中像素点的灰度值越大,图像中亮度越亮,代表能量越大。
S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段。
其中,获取语谱灰度图的分割时间区间段的第一种方法是:
获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
获取语谱灰度图的分割时间区间段的第二种方法是:获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段得到语谱灰度图的分割时间区间段。
本发明采用第二种方法,具体的是:获取声波图的变化时间段的具体步骤为:根据现有技术可知噪声的幅值范围与正常的干净语音信号的幅值范围存在较大差异,因此通过声波图中当前帧i的幅值fi与前一帧(i-1)的幅值fi-1之间差异Δfi=|fi-fi-1|,通过设置幅值阈值fT,确定该时间段内Δf大于幅值阈值fT对应的各个时间帧,记为JH={j1,j2,j3…jh}。将集合J中的每个时间帧按顺序前一时间帧jh-1与后一时间帧jh结合为变化时间段LK={l1,l2,…,lk},其中,l1为第0帧和j1帧组合得到,例如:j1和j2两个时间帧组合为l2,j2和j3两个时间帧组合为l3。至此,得到声波图中的每个变化时间段。其中,幅值阈值fT可根据实施者具体实施情况而定,本发明给出经验参考值fT=0.4。
其中,获取语谱灰度图的变化时间段的具体步骤为:根据现有技术可得知噪声的能量均匀的分布在语谱灰度图中,且能量值较小;而语音信号在语谱灰度图中有规律的变化,且能量值较大,因此,能量越大的地方越有可能为语音信号所在时间段。根据语音信号的基频属性,通过当前帧i下的100HZ到400HZ范围内的最大能量值,与前一帧(i-1)下的100HZ到400HZ范围内的最大能量值计算能量差异ΔEi=|maxHZ∈B Ei-maxHZ∈B Ei-1|,其中B表示基频频率区间[100,400],通过设置能量阈值ET确定该时间段内ΔE大于幅值阈值ET的各个时间帧,记为WR={w1,w2,w3…wr}。将集合W中的每个时间帧按顺序,即前一时间帧wr-1与后一时间帧wr结合为变化时间段UO={u1,u2,…,uo},其中,u1为第0帧和w1帧组合得到,例如:w1和w2两个时间帧组合为u2,w2和w3两个时间帧组合为u3。至此得到语谱灰度图中的每个变化时间段。其中能量阈值ET可根据实施者具体实施情况而定,本发明给出经验参考值ET=30。
由于声波图与语谱灰度图是对同一段语音信号的两种不同模态的表示,因此对声波图中的变化时间段集合LK与语谱图中的变化时间段集合UO中的每个变化时间段进行并集运算,即将对应顺序的变化时间段两两组合,组合为更大的变化时间段I,且下一个组合时间段从组合时间段I的最大范围开始计算,依次计算,得到所有组合时间段。
获取组合时间段的方法是:集合L中的第1个变化时间段L1范围[0,180],与集合U中第1个变化时间段U1范围[0,200],两者进行交集运算组合形成更大的组合时间段范围为[0,200];集合L中的第2个变化时间段L2范围[180,380],与集合U中第2个变化时间段U2范围[200,400],由于第一个组合时间段范围的最大范围为200,因此第二个组合时间段范围为[200,400]。
至此,得到了组合时间段,该组合时间段作为语谱灰度图的分割时间区间段可以将语谱灰度图整个横轴分为多个语谱灰度图段。
统计语谱灰度图中语音数字信号像素点的最大灰度值,即获取多段清晰的语音数字信号数据中的最大灰度值均值,根据最大灰度值均值设置阈值,根据所设该阈值区分每个语谱灰度图段内的正常数字信号和噪声数字信号的具体步骤为:根据正常数字信号中能量值较大的特点,对应到语谱灰度图中正常数字信号的灰度值较大,噪声数字信号的灰度值较小,通过统计语谱灰度图中每个语谱灰度图段内信号所对应的灰度值的大小来确定每个语谱灰度图段内主要为正常语音语谱灰度图段还是噪声语谱灰度图段,根据经验值设置阈值T=130,若语谱灰度图段内语音数字信号的最大灰度值大于阈值T,则将该语谱灰度图段设置为正常语音语谱灰度图段,若语谱灰度图段内语音数字信号的最大灰度值小于阈值T,则将该语谱灰度图段设置为噪声语谱灰度图段。
S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度。
S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口。
在所有语谱灰度图段中,统计语谱灰度图中第p段语谱灰度图段横坐标的范围最大值Xp,纵坐标的范围最大值Yp,其中,纵坐标的范围每个语谱灰度图段都相同,即语谱图中频率的最大值;横坐标和纵坐标的范围即为第p段语谱灰度图段内像素点的自适应窗口ω的最大值,按照语谱灰度图中频率从小到大可知,频率低的像素点的灰度值大于频率高的像素点的灰度值。因此综合考虑计算量的大小以及结果的准确性,为了得到该语谱灰度图段内每个像素点的自适应窗口ω,对于噪声语谱灰度图段而言,由于噪声像素点的灰度值较低,较小的ω值就可以得到最优的暗通道。对于正常语音语谱灰度图段而言,由于语音像素点的灰度值较高,因此需要较大的ω值才可以得到最优的暗通道。因此,对于正常语音语谱灰度图段以3×3大小为初始窗口,对于噪声语谱灰度图段以10×10大小为初始窗口。在不同语谱灰度图段内计算对应窗口内各像素点的灰度值的分布度γpq,从而得到自适应的窗口。其中,第p段语谱灰度图段内第q个像素点初始窗口的分布度γpq的具体表达式为:
γpq=th(0.6εpq+0.4δpq)
式中:γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,εpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的均值,δpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差,th(·)为双曲正切函数。
该公式的逻辑为:语谱灰度图的每个语谱灰度图段内每个像素点的初始窗口内灰度值的均值越小,则该窗口内含有较优的暗通道的概率就越大,但是均值越小,该窗口内也可能含有较大的灰度值,因此同时满足均值小,和方差小的窗口,含有暗通道的概率就越大。本发明中窗口分布度计算窗口内的均值的权重大于方差的权重,因此发分别对均值和方差设置权重为0.6和0.4。
根据第p段语谱灰度图段内第q个像素点初始窗口的分布度获取第p段语谱灰度图段内第q个像素点的自适应窗口,若第p个语谱灰度图段为正常语音语谱灰度图段,则第p段语谱灰度图段内第q个像素点的自适应窗口的表达式为:
式中:ω2pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口的长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口的宽的超参数,10表示正常语音语谱灰度图段初始窗口大小。
若第p个语谱灰度图段为噪声语谱灰度图段,则第p段语谱灰度图段内第q个像素点的自适应窗口的表达式为:
式中:ω1pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口的长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口的宽的超参数,3表示噪声语谱灰度图段初始窗口大小。
公式逻辑为:窗口内γpq越小,表明窗口内的均值和方差越小,该窗口内含有暗通道的概率就越大,为了减少计算量需要调整的步长就越小;yq越大,表明像素点q的频率越大,像素点的灰度值越小,则其窗口附近的暗通道的概率越大,需要调整的步长就越小,μ1p和μ2p用于调整步长值,可根据实施者具体实施情况而定。其中,对于噪声语谱灰度图段:对于语音语谱灰度图段:其中,Xp和Yp为第p段语谱灰度图段内横坐标的范围最大值和纵坐标的范围最大值,若重新计算得到的自适应窗口ωpq,计算得到的值不能超过第p段语谱灰度图段内内横坐标的范围最大值和纵坐标的范围最大值,若超过,则将窗口大小设置为[Xp,Yp],Xp和Yp可在语谱灰度图中直接获取。
至此,得到了每个语谱灰度图段中每个像素点的自适应窗口即自适应暗通道先验去雾算法的统计窗口。
S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
获取每个像素点的衰减系数的具体步骤为:引入跨模态处理的思想,通过将一维的语音信号转换至二维语谱灰度图像,实现从数字转换为图像的模态转换。通现有技术得知,正常数字信号在语谱图中有很明显的“横纹”和“竖纹”,且每个“竖纹”之间距离即采样时间点较为平均,且能量值较高;噪声数字信号通常在语谱图中表现分布均匀,且能量较为连贯、能量值较低。当语音数字信号中存在噪声数字信号时,会在语谱灰度图中呈现出明显的雾状。通过得到的自适应暗通道先验去雾算法的统计窗口,即自适应窗口,对语谱灰度图进行自适应去雾算法,实现去噪处理,并进行数据模态转换,得到增强后的语音数据。
因此本发明采用得到的自适应暗通道先验去雾算法的统计窗口,对语谱图进行自适应去雾算法,通过对语谱图进行去雾处理,得到“较为清晰”的语谱图,并对语谱图进行映射变换即将图像转换为数字,从而得到去噪后的语音信号。
本发明中描述“雾状”的语谱灰度图的模型可以表示为:
G(x)=α(x)×g(x)+A(1-α(x))#
式中:G(x)表示“雾状”的语谱灰度图中像素点x的灰度值,g(x)表示“无雾”的语谱灰度图中像素点x的灰度值,A表示全局信息变量即语谱灰度图中最大灰度值,α(x)表示语谱灰度图中像素点x的灰度值的衰减系数。
其中,衰减系数α(x)表示“无雾”的语谱灰度图中像素点x的灰度值在噪声遮盖下显示的非遮盖比例大小,α(x)越大表明噪声数字信号的遮盖程度越小。A表示全局信息变量,即用来表示当前帧的语音信号除α(x)×g(x)外的由于背景影响的部分能量信息,(1-α(x))表示该部分灰度占当前帧正常数字信号的灰度的比例。
根据“雾状”的语谱灰度图的模型可以得到现有的衰减系数α(x)的计算表达式:
式中:ω(x)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗口,G(b)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗中b点的灰度值,整体表示暗通道图像,即取“雾状”的语谱灰度图中灰度值的最小值,并以像素点x为中心取ω大小的窗口,并取窗口内灰度值最小值代替中心像素点x的灰度值,即暗通道,A表示全局信息变量。
因此,通过计算得到自适应的统计的局部区域的窗口大小,即得到像素点x的自适应ω窗口,其中窗口内的像素点的灰度值越低,构建得到的暗通道就越好。该窗口影响着暗通道的构建,进而影响着“去雾”暗通道先验算法的效果,其中,根据算法原理得到最好的暗通道为纯黑色。因此本案通过实现“去雾”暗通道先验算法的自适应参数,实现语谱图的“去雾”处理。
根据语谱灰度图每个语谱灰度图段内每个像素点的自适应窗口、对应像素点的衰减系数、对应像素点的频率及“雾状”的语谱灰度图的模型得到“去雾”后的语谱灰度图中像素点的灰度值的计算表达式为:
式中:G(x)表示“雾状”的语谱灰度图像中像素点x的灰度值;g(x)表示“无雾”的语谱灰度图中像素点x的灰度值;A表示全局信息变量,α(x)表示像素点x的灰度值的衰减系数,α0为避免衰减系数过小而设置的阈值且α0=0.1。
利用“去雾”后的语谱灰度图中像素点的灰度值得到“去雾”后的语谱灰度图。
对得到的“去雾”后的语谱灰度图进行映射变换得到处理后的语音信号,具体过程为:“去雾”后的语谱灰度图可以表示为行为N,列为M的矩阵P,Pnm表示第n行和第m列点的灰度值,则对于P中的第m列“去雾”后的语谱灰度图到语音信号的映射可表示为:
式中:Q(t)为时间索引出映射的语音信号,βn和τn分别为第n个角频率和初始相位,25为帧长,其对应的语音长度为25m,N表示“去雾”后的语谱灰度图矩阵的行数。
对得到的“去雾”后的语谱灰度图进行映射变换得到去噪后的语音信号,即得到去噪后的语音信号。
一种用于AI语音通讯的语音数据增强系统,如图2所示,包括:
语音采集模块、利用麦克风设备采集一段语音信号,将所采集的语音信号利用数字信号处理单元转换为语音数字信号,绘制该语音数字信号的声波图,获取该语音数字信号的语谱图,将语谱图中所有能量值转换为灰度值构建语谱灰度图。
信号判定模块、用于获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段。
获取自适应窗口模块、用于分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口。
语音去噪模块、用于根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
一种用于AI语音通讯的语音数据增强装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序,语音数据增强程序被所述处理器执行时实现如说明书中S1-S5所述的用于AI语音通讯的语音数据增强方法的步骤。
本发明的有益效果是:将一维的仅具有幅值大小的语音数字信号转换为二维的同时具有频率与幅值的语谱灰度图,语谱灰度图可将语音数字信号量化,便于分析计算;将图像中的暗通道先验去雾算法引入到语谱灰度图去噪过程,结合声波图和语谱灰度图的特征,自适应获取暗通道先验算法中的统计窗口即自适应窗口进行去雾运算,得到去雾后的语谱灰度图,自适应窗口结合语谱灰度图的自身特征,使去雾后的结果更加准确;对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号,实现了语音数据的增强。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于AI语音通讯的语音数据增强方法,其特征在于,包括:
S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
2.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述获取语谱灰度图的分割时间区间段的方法是:
获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;
利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
3.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述获取语谱灰度图的分割时间区间段的方法是:
获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;
利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;
对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。
4.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
当语谱灰度图段内的最大灰度值大于阈值时,该语谱灰度图段为正常语音语谱灰度图段;
当语谱灰度图段内的最大灰度值小于阈值时,该语谱灰度图段为噪声语谱灰度图段。
5.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
设置阈值,若语谱灰度图段内语音信号的最大灰度值大于阈值,则将该语谱灰度图段作为正常语音语谱灰度图段,若语谱灰度图段内语音信号的最大灰度值小于阈值T,则将该语谱灰度图段作为噪声语谱灰度图段。
6.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述每个像素点的初始窗口的分布度的具体表达式为:
γpq=th(0.6εpq+0.4δpq)
式中:γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,εpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值,δpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差。
7.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述得到每个像素点的自适应窗口的具体表达式为:
若语谱灰度图段为正常语音语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
式中:ω2pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,10表示正常语音语谱灰度图段内像素点的初始窗口尺寸;
若语谱灰度图段为噪声语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
式中:ω1pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,3表示噪声数字信号像素点的初始窗口尺寸。
9.一种用于AI语音通讯的语音数据增强系统,其特征在于,包括:
语音采集模块、用于采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
信号判定模块、用于获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
获取自适应窗口模块、用于分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
语音去噪模块、用于根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
10.一种用于AI语音通讯的语音数据增强装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序,语音数据增强程序被所述处理器执行时实现如权利要求1至8中任一项所述的用于AI语音通讯的语音数据增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210899007.6A CN115273876A (zh) | 2022-07-28 | 2022-07-28 | 一种用于ai语音通讯的语音数据增强方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210899007.6A CN115273876A (zh) | 2022-07-28 | 2022-07-28 | 一种用于ai语音通讯的语音数据增强方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273876A true CN115273876A (zh) | 2022-11-01 |
Family
ID=83771578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210899007.6A Pending CN115273876A (zh) | 2022-07-28 | 2022-07-28 | 一种用于ai语音通讯的语音数据增强方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273876A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115775562A (zh) * | 2023-02-13 | 2023-03-10 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的声音外泄检测方法 |
CN116129926A (zh) * | 2023-04-19 | 2023-05-16 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
CN117995193A (zh) * | 2024-04-02 | 2024-05-07 | 山东天意装配式建筑装备研究院有限公司 | 一种基于自然语言处理的智能机器人语音交互方法 |
-
2022
- 2022-07-28 CN CN202210899007.6A patent/CN115273876A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115775562A (zh) * | 2023-02-13 | 2023-03-10 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的声音外泄检测方法 |
CN115775562B (zh) * | 2023-02-13 | 2023-04-07 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的声音外泄检测方法 |
CN116129926A (zh) * | 2023-04-19 | 2023-05-16 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
CN116129926B (zh) * | 2023-04-19 | 2023-06-09 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
CN117995193A (zh) * | 2024-04-02 | 2024-05-07 | 山东天意装配式建筑装备研究院有限公司 | 一种基于自然语言处理的智能机器人语音交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115273876A (zh) | 一种用于ai语音通讯的语音数据增强方法、系统及装置 | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN105654436B (zh) | 一种基于前景背景分离的背光图像增强去噪方法 | |
CN110634499A (zh) | 用深特征损失训练的用于语音去噪的神经网络 | |
CN111028163A (zh) | 一种基于卷积神经网络的联合图像去噪与弱光增强方法 | |
CN110400267A (zh) | 一种基于巡检图像的预处理方法 | |
CN110428364B (zh) | 帕金森声纹语谱图样本扩充方法、装置及计算机存储介质 | |
CN109377464B (zh) | 一种红外图像的双平台直方图均衡化方法及其应用系统 | |
CN113808607A (zh) | 基于神经网络的语音增强方法、装置及电子设备 | |
CN110223708A (zh) | 基于语音处理的语音增强方法及相关设备 | |
CN111681180A (zh) | 先验驱动的深度学习图像去雾方法 | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN109389569A (zh) | 基于改进DehazeNet的监控视频实时去雾方法 | |
CN108847252A (zh) | 基于声信号语谱图纹理分布的声特征提取方法 | |
CN111145102A (zh) | 一种基于卷积神经网络的合成孔径雷达图像去噪方法 | |
CN115409872B (zh) | 一种水下摄像机图像优化方法 | |
CN116363021A (zh) | 一种创伤患者护理评估智能采集系统 | |
CN117828333A (zh) | 一种基于信号混合增强和cnn的电缆局放特征提取方法 | |
CN113674231B (zh) | 基于图像增强的轧制过程中氧化铁皮检测方法与系统 | |
CN113450340B (zh) | 一种皮肤纹理检测系统 | |
CN109034070B (zh) | 一种置换混叠图像盲分离方法及装置 | |
CN115511722A (zh) | 基于深浅特征融合网络及联合损失函数的遥感图像去噪方法 | |
CN111754412B (zh) | 构建数据对的方法、装置及终端设备 | |
CN110490824A (zh) | 图像去噪的方法及装置 | |
Huang et al. | An efficient single image enhancement approach using luminance perception transformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |