CN115273876A

CN115273876A - 一种用于ai语音通讯的语音数据增强方法、系统及装置

Info

Publication number: CN115273876A
Application number: CN202210899007.6A
Authority: CN
Inventors: 孙立民; 李曙东; 马斌
Original assignee: Tianjin Zhongke Listening Core Technology Co ltd
Current assignee: Tianjin Zhongke Listening Core Technology Co ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-01

Abstract

本申请涉及装置智能控制领域，具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置，包括：获取语音信号，将语音信号转化为语音数字信号，利用该语音数字信号得到其声波图和语谱图，利用跨模态思想将一维的声波图转换为二维的语谱灰度图，获取声波图和语谱灰度图的变化时间段，对两者变化时间段求并集得到组合时间段，组合时间段将语谱灰度图分为多个语谱灰度图段，计算每个语谱灰度图段内每个像素点的自适应窗口及衰减系数，利用每个语谱灰度图段内每个像素点的自适应窗口及衰减系数得到去噪后的灰度值，进而得到去雾后的语谱灰度图，对去雾后的语谱灰度图进行映射变换得到增强后的语音信号，本发明实现了语音信号的增强。

Description

一种用于AI语音通讯的语音数据增强方法、系统及装置

技术领域

本申请涉及装置智能控制领域，具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置。

背景技术

近年来，语音通讯技术发展的越来越迅速。然而在进行语音通讯过程中，语音往往会受到环境噪声的影响。因此语音数据的增强对于语音通讯技术的发展极为重要。

语音增强是在复杂的背景环境下获得清晰语音的一种数据处理技术。传统的语音数据增强方法往往是谱减法、维纳滤波、小波去噪方法，在利用谱减法时，由于使用静音段的噪声作为当前帧的噪声，因此部分语音区域会出现较大的残留噪声；而维纳滤波的噪声功率谱是通过对静音段估计得到的，所以滤波效果不佳；小波的去噪变化的阈值设置不当，影响理想的降噪效果；因此，亟待一种用于AI语音通讯的语音数据增强方法、系统及装置解决现有去噪方法存在较大残留噪声，降噪效果不佳的问题。

发明内容

本发明提供基于大数据的图像智能压缩方法，以解决现有去噪方法存在较大残留噪声、降噪效果不佳的问题。

本发明的一种用于AI语音通讯的语音数据增强方法，采用如下技术方案：

S1、采集语音信号，并获取该语音信号的语谱图，将该语谱图转化为语谱灰度图，其中，将该语谱图中的能量值作为语谱灰度图的灰度值；

S2、获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段；

S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口，分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点，利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度；

S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口；

S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数，利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值，利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图，对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。

进一步的，所述获取语谱灰度图的分割时间区间段的方法是：

获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值；

设置阈值，获取大于阈值的最大灰度值差值所对应的时间帧集合；

利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。

获取声波图中每两个相邻时间帧的幅值差值，获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值；

对幅值差值和最大灰度值差值分别设置差值阈值，获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合；

利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合；

对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段，利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。

进一步的，所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是：

当语谱灰度图段内的最大灰度值大于阈值时，该语谱灰度图段为正常语音语谱灰度图段；

当语谱灰度图段内的最大灰度值小于阈值时，该语谱灰度图段为噪声语谱灰度图段。进一步的，所述每个像素点的初始窗口的分布度的具体表达式为：

γ_pq＝th(0.6ε_pq+0.4δ_pq)

式中：γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，ε_pq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值，δ_pq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差。

进一步的，所述得到每个像素点的自适应窗口的具体表达式为：

若语谱灰度图段为正常语音语谱灰度图段，则该语谱灰度图段内每个像素点的自适应窗口的表达式为：

式中：ω2_pq表示第p段语谱灰度图段内第q个像素点的自适应窗口，γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，y_q表示第p段语谱灰度图段内第q个像素点的频率，μ_1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数，μ_2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数，10表示正常语音语谱灰度图段内像素点的初始窗口尺寸。

若语谱灰度图段为噪声语谱灰度图段，则该语谱灰度图段内每个像素点的自适应窗口的表达式为：

式中：ω1_pq表示第p段语谱灰度图段内第q个像素点的自适应窗口，γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，y_q表示第p段语谱灰度图段内第q个像素点的频率，μ_1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数，μ_2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数，3表示噪声数字信号像素点的初始窗口尺寸。

进一步的，所述每个像素点的衰减系数的表达式为：

式中：ω(x)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗口，G(b)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗中b点的灰度值，

整体表示暗通道图像，A表示全局信息变量。

一种用于AI语音通讯的语音数据增强系统，包括：

语音采集模块、采集语音信号，并获取该语音信号的语谱图，将该语谱图转化为语谱灰度图，其中，将该语谱图中的能量值作为语谱灰度图的灰度值；

信号判定模块、获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段；

获取自适应窗口模块、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口，分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点，利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度；

利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口；

语音去噪模块、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数，利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值，利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图，对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。

一种用于AI语音通讯的语音数据增强装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序，语音数据增强程序被所述处理器执行时实现如说明书中S1-S5任一项所述的用于AI语音通讯的语音数据增强方法的步骤。

本发明的有益效果是：将一维的仅具有幅值大小的语音数字信号转换为二维的同时具有频率与幅值的语谱灰度图，语谱灰度图可将语音数字信号量化，便于分析计算；将图像中的暗通道先验去雾算法引入到语谱灰度图去噪过程，结合声波图和语谱灰度图的特征，自适应获取暗通道先验算法中的统计窗口即自适应窗口进行去雾运算，得到去雾后的语谱灰度图，自适应窗口结合语谱灰度图的自身特征，使去雾后的结果更加准确；对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号，实现了语音数据的增强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种用于AI语音通讯的语音数据增强方法的流程图；

图2为本发明的一种用于AI语音通讯的语音数据增强系统的结构框图。

具体实施方式

本发明引入数据跨模态处理思想，将一维的仅具有幅值大小的语音信号转换为二维的同时具有频率与幅值的语谱图。将图像中的暗通道先验去雾算法引入到语谱图去噪过程，结合声波图和语谱图的特征，自适应获取暗通道先验算法中的统计窗口进行去雾运算，从而实现语音数据的增强。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种用于AI语音通讯的语音数据增强方法的实施例，如图1所示，包括：

S1、采集语音信号，并获取该语音信号的语谱图，将该语谱图转化为语谱灰度图，其中，将该语谱图中的能量值作为语谱灰度图的灰度值。

采集一段语音信号的具体步骤为：设置相应平台，包括麦克风、数字信号处理单元、数据传输系统、语音数据增强系统、数存储模块和支撑支架，利用平台中麦克风设备采集一定时段语音信号。

将语音信号利用数字信号处理单元的模数转换功能转换为语音数字信号，根据语音数字信号中的时间和幅值绘制该语音数字信号的声波图，对该语音数字信号进行傅里叶变换得到语音信号的语谱图。

其中，将一维的仅具有幅值大小的语音信号转换为二维的同时具有频率与幅值的语谱图，语谱图中的颜色值代表信号能量的强弱，颜色越深，能量越大，颜色仅具有语义含义，具体的颜色值三通道大小(R,G,B)并无指代含义，因此，在本发明中为了更加有利于量化能量的大小，将能量值归一化至0～255范围内。

获取语谱图中所有能量值，将每个能量值作为灰度值构建语谱图灰度图的具体步骤为：对每个能量值归一化，具体表达式为：

式中，E(d,t)表示第d帧语音数字信号中第t个频率归一化的能量值，max(E)表示该段语音数字信号内最大能量值，min(E)表示该段语音数字信号内最小能量值，255表示灰度值分布范围，使得归一化结果在0～255范围内。

至此，可以将带颜色语谱图转换为语谱图灰度图，且每个像素点的灰度值大小可以代表能量值的大小；其中像素点的灰度值越大，图像中亮度越亮，代表能量越大。

S2、获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段。

其中，获取语谱灰度图的分割时间区间段的第一种方法是：

获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值；设置阈值，获取大于阈值的最大灰度值差值所对应的时间帧集合；利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。

获取语谱灰度图的分割时间区间段的第二种方法是：获取声波图中每两个相邻时间帧的幅值差值，获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值；对幅值差值和最大灰度值差值分别设置差值阈值，获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合；利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合；对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段，利用组合时间段得到语谱灰度图的分割时间区间段。

本发明采用第二种方法，具体的是：获取声波图的变化时间段的具体步骤为：根据现有技术可知噪声的幅值范围与正常的干净语音信号的幅值范围存在较大差异，因此通过声波图中当前帧i的幅值f_i与前一帧(i-1)的幅值f_i-1之间差异Δf_i＝|f_i-f_i-1|，通过设置幅值阈值f_T，确定该时间段内Δf大于幅值阈值f_T对应的各个时间帧，记为J_H＝{j₁,j₂,j₃…j_h}。将集合J中的每个时间帧按顺序前一时间帧j_h-1与后一时间帧j_h结合为变化时间段L_K＝{l₁,l₂,…,l_k}，其中，l₁为第0帧和j₁帧组合得到，例如：j₁和j₂两个时间帧组合为l₂，j₂和j₃两个时间帧组合为l₃。至此，得到声波图中的每个变化时间段。其中，幅值阈值f_T可根据实施者具体实施情况而定，本发明给出经验参考值f_T＝0.4。

其中，获取语谱灰度图的变化时间段的具体步骤为：根据现有技术可得知噪声的能量均匀的分布在语谱灰度图中，且能量值较小；而语音信号在语谱灰度图中有规律的变化，且能量值较大，因此，能量越大的地方越有可能为语音信号所在时间段。根据语音信号的基频属性，通过当前帧i下的100HZ到400HZ范围内的最大能量值，与前一帧(i-1)下的100HZ到400HZ范围内的最大能量值计算能量差异ΔE_i＝|max_HZ∈B E_i-max_HZ∈B E_i-1|，其中B表示基频频率区间[100,400]，通过设置能量阈值E_T确定该时间段内ΔE大于幅值阈值E_T的各个时间帧，记为W_R＝{w₁,w₂,w₃…w_r}。将集合W中的每个时间帧按顺序，即前一时间帧w_r-1与后一时间帧w_r结合为变化时间段U_O＝{u₁,u₂,…,u_o}，其中，u₁为第0帧和w₁帧组合得到，例如：w₁和w₂两个时间帧组合为u₂，w₂和w₃两个时间帧组合为u₃。至此得到语谱灰度图中的每个变化时间段。其中能量阈值E_T可根据实施者具体实施情况而定，本发明给出经验参考值E_T＝30。

由于声波图与语谱灰度图是对同一段语音信号的两种不同模态的表示，因此对声波图中的变化时间段集合L_K与语谱图中的变化时间段集合U_O中的每个变化时间段进行并集运算，即将对应顺序的变化时间段两两组合，组合为更大的变化时间段I，且下一个组合时间段从组合时间段I的最大范围开始计算，依次计算，得到所有组合时间段。

获取组合时间段的方法是：集合L中的第1个变化时间段L₁范围[0,180],与集合U中第1个变化时间段U₁范围[0,200]，两者进行交集运算组合形成更大的组合时间段范围为[0,200]；集合L中的第2个变化时间段L₂范围[180,380],与集合U中第2个变化时间段U₂范围[200,400]，由于第一个组合时间段范围的最大范围为200，因此第二个组合时间段范围为[200,400]。

至此，得到了组合时间段，该组合时间段作为语谱灰度图的分割时间区间段可以将语谱灰度图整个横轴分为多个语谱灰度图段。

统计语谱灰度图中语音数字信号像素点的最大灰度值，即获取多段清晰的语音数字信号数据中的最大灰度值均值，根据最大灰度值均值设置阈值，根据所设该阈值区分每个语谱灰度图段内的正常数字信号和噪声数字信号的具体步骤为：根据正常数字信号中能量值较大的特点，对应到语谱灰度图中正常数字信号的灰度值较大，噪声数字信号的灰度值较小，通过统计语谱灰度图中每个语谱灰度图段内信号所对应的灰度值的大小来确定每个语谱灰度图段内主要为正常语音语谱灰度图段还是噪声语谱灰度图段，根据经验值设置阈值T＝130，若语谱灰度图段内语音数字信号的最大灰度值大于阈值T，则将该语谱灰度图段设置为正常语音语谱灰度图段，若语谱灰度图段内语音数字信号的最大灰度值小于阈值T，则将该语谱灰度图段设置为噪声语谱灰度图段。

S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口，分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点，利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度。

S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口。

在所有语谱灰度图段中，统计语谱灰度图中第p段语谱灰度图段横坐标的范围最大值X_p，纵坐标的范围最大值Y_p，其中，纵坐标的范围每个语谱灰度图段都相同，即语谱图中频率的最大值；横坐标和纵坐标的范围即为第p段语谱灰度图段内像素点的自适应窗口ω的最大值，按照语谱灰度图中频率从小到大可知，频率低的像素点的灰度值大于频率高的像素点的灰度值。因此综合考虑计算量的大小以及结果的准确性，为了得到该语谱灰度图段内每个像素点的自适应窗口ω，对于噪声语谱灰度图段而言，由于噪声像素点的灰度值较低，较小的ω值就可以得到最优的暗通道。对于正常语音语谱灰度图段而言，由于语音像素点的灰度值较高，因此需要较大的ω值才可以得到最优的暗通道。因此，对于正常语音语谱灰度图段以3×3大小为初始窗口，对于噪声语谱灰度图段以10×10大小为初始窗口。在不同语谱灰度图段内计算对应窗口内各像素点的灰度值的分布度γ_pq，从而得到自适应的窗口。其中，第p段语谱灰度图段内第q个像素点初始窗口的分布度γ_pq的具体表达式为：

γ_pq＝th(0.6ε_pq+0.4δ_pq)

式中：γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，ε_pq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的均值，δ_pq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差，th(·)为双曲正切函数。

该公式的逻辑为：语谱灰度图的每个语谱灰度图段内每个像素点的初始窗口内灰度值的均值越小，则该窗口内含有较优的暗通道的概率就越大，但是均值越小，该窗口内也可能含有较大的灰度值，因此同时满足均值小，和方差小的窗口，含有暗通道的概率就越大。本发明中窗口分布度计算窗口内的均值的权重大于方差的权重，因此发分别对均值和方差设置权重为0.6和0.4。

根据第p段语谱灰度图段内第q个像素点初始窗口的分布度获取第p段语谱灰度图段内第q个像素点的自适应窗口，若第p个语谱灰度图段为正常语音语谱灰度图段，则第p段语谱灰度图段内第q个像素点的自适应窗口的表达式为：

式中：ω2_pq表示第p段语谱灰度图段内第q个像素点的自适应窗口，γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，y_q表示第p段语谱灰度图段内第q个像素点的频率，μ_1p表示第p段语谱灰度图段内第q个像素点初始窗口的长的超参数，μ_2p表示第p段语谱灰度图段内第q个像素点初始窗口的宽的超参数，10表示正常语音语谱灰度图段初始窗口大小。

若第p个语谱灰度图段为噪声语谱灰度图段，则第p段语谱灰度图段内第q个像素点的自适应窗口的表达式为：

式中：ω1_pq表示第p段语谱灰度图段内第q个像素点的自适应窗口，γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，y_q表示第p段语谱灰度图段内第q个像素点的频率，μ_1p表示第p段语谱灰度图段内第q个像素点初始窗口的长的超参数，μ_2p表示第p段语谱灰度图段内第q个像素点初始窗口的宽的超参数，3表示噪声语谱灰度图段初始窗口大小。

公式逻辑为：窗口内γ_pq越小，表明窗口内的均值和方差越小，该窗口内含有暗通道的概率就越大，为了减少计算量需要调整的步长就越小；y_q越大，表明像素点q的频率越大，像素点的灰度值越小，则其窗口附近的暗通道的概率越大，需要调整的步长就越小，μ_1p和μ_2p用于调整步长值，可根据实施者具体实施情况而定。其中，对于噪声语谱灰度图段：

对于语音语谱灰度图段：

其中，X_p和Y_p为第p段语谱灰度图段内横坐标的范围最大值和纵坐标的范围最大值，若重新计算得到的自适应窗口ω_pq，计算得到的值不能超过第p段语谱灰度图段内内横坐标的范围最大值和纵坐标的范围最大值，若超过，则将窗口大小设置为[X_p,Y_p]，X_p和Y_p可在语谱灰度图中直接获取。

至此，得到了每个语谱灰度图段中每个像素点的自适应窗口即自适应暗通道先验去雾算法的统计窗口。

获取每个像素点的衰减系数的具体步骤为：引入跨模态处理的思想，通过将一维的语音信号转换至二维语谱灰度图像，实现从数字转换为图像的模态转换。通现有技术得知，正常数字信号在语谱图中有很明显的“横纹”和“竖纹”，且每个“竖纹”之间距离即采样时间点较为平均，且能量值较高；噪声数字信号通常在语谱图中表现分布均匀，且能量较为连贯、能量值较低。当语音数字信号中存在噪声数字信号时，会在语谱灰度图中呈现出明显的雾状。通过得到的自适应暗通道先验去雾算法的统计窗口，即自适应窗口，对语谱灰度图进行自适应去雾算法，实现去噪处理，并进行数据模态转换，得到增强后的语音数据。

因此本发明采用得到的自适应暗通道先验去雾算法的统计窗口，对语谱图进行自适应去雾算法，通过对语谱图进行去雾处理，得到“较为清晰”的语谱图，并对语谱图进行映射变换即将图像转换为数字，从而得到去噪后的语音信号。

本发明中描述“雾状”的语谱灰度图的模型可以表示为：

G(x)＝α(x)×g(x)+A(1-α(x))#

式中：G(x)表示“雾状”的语谱灰度图中像素点x的灰度值，g(x)表示“无雾”的语谱灰度图中像素点x的灰度值，A表示全局信息变量即语谱灰度图中最大灰度值，α(x)表示语谱灰度图中像素点x的灰度值的衰减系数。

其中，衰减系数α(x)表示“无雾”的语谱灰度图中像素点x的灰度值在噪声遮盖下显示的非遮盖比例大小，α(x)越大表明噪声数字信号的遮盖程度越小。A表示全局信息变量，即用来表示当前帧的语音信号除α(x)×g(x)外的由于背景影响的部分能量信息，(1-α(x))表示该部分灰度占当前帧正常数字信号的灰度的比例。

根据“雾状”的语谱灰度图的模型可以得到现有的衰减系数α(x)的计算表达式：

整体表示暗通道图像，即取“雾状”的语谱灰度图中灰度值的最小值，并以像素点x为中心取ω大小的窗口，并取窗口内灰度值最小值代替中心像素点x的灰度值，即暗通道，A表示全局信息变量。

因此，通过计算得到自适应的统计的局部区域的窗口大小，即得到像素点x的自适应ω窗口，其中窗口内的像素点的灰度值越低，构建得到的暗通道就越好。该窗口影响着暗通道的构建，进而影响着“去雾”暗通道先验算法的效果，其中，根据算法原理得到最好的暗通道为纯黑色。因此本案通过实现“去雾”暗通道先验算法的自适应参数，实现语谱图的“去雾”处理。

根据语谱灰度图每个语谱灰度图段内每个像素点的自适应窗口、对应像素点的衰减系数、对应像素点的频率及“雾状”的语谱灰度图的模型得到“去雾”后的语谱灰度图中像素点的灰度值的计算表达式为：

式中：G(x)表示“雾状”的语谱灰度图像中像素点x的灰度值；g(x)表示“无雾”的语谱灰度图中像素点x的灰度值；A表示全局信息变量，α(x)表示像素点x的灰度值的衰减系数，α₀为避免衰减系数过小而设置的阈值且α₀＝0.1。

利用“去雾”后的语谱灰度图中像素点的灰度值得到“去雾”后的语谱灰度图。

对得到的“去雾”后的语谱灰度图进行映射变换得到处理后的语音信号，具体过程为：“去雾”后的语谱灰度图可以表示为行为N，列为M的矩阵P，P_nm表示第n行和第m列点的灰度值，则对于P中的第m列“去雾”后的语谱灰度图到语音信号的映射可表示为：

式中：Q(t)为时间索引出映射的语音信号，β_n和τ_n分别为第n个角频率和初始相位，25为帧长，其对应的语音长度为25m，N表示“去雾”后的语谱灰度图矩阵的行数。

对得到的“去雾”后的语谱灰度图进行映射变换得到去噪后的语音信号，即得到去噪后的语音信号。

一种用于AI语音通讯的语音数据增强系统，如图2所示，包括：

语音采集模块、利用麦克风设备采集一段语音信号，将所采集的语音信号利用数字信号处理单元转换为语音数字信号，绘制该语音数字信号的声波图，获取该语音数字信号的语谱图，将语谱图中所有能量值转换为灰度值构建语谱灰度图。

信号判定模块、用于获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段。

获取自适应窗口模块、用于分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口，分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点，利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度；

利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口。

语音去噪模块、用于根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数，利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值，利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图，对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。

一种用于AI语音通讯的语音数据增强装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序，语音数据增强程序被所述处理器执行时实现如说明书中S1-S5所述的用于AI语音通讯的语音数据增强方法的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于AI语音通讯的语音数据增强方法，其特征在于，包括：

2.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述获取语谱灰度图的分割时间区间段的方法是：

3.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述获取语谱灰度图的分割时间区间段的方法是：

4.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是：

当语谱灰度图段内的最大灰度值小于阈值时，该语谱灰度图段为噪声语谱灰度图段。

5.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是：

设置阈值，若语谱灰度图段内语音信号的最大灰度值大于阈值，则将该语谱灰度图段作为正常语音语谱灰度图段，若语谱灰度图段内语音信号的最大灰度值小于阈值T，则将该语谱灰度图段作为噪声语谱灰度图段。

6.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述每个像素点的初始窗口的分布度的具体表达式为：

γ_pq＝th(0.6ε_pq+0.4δ_pq)

7.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述得到每个像素点的自适应窗口的具体表达式为：

式中：ω2_pq表示第p段语谱灰度图段内第q个像素点的自适应窗口，γ_pq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，y_q表示第p段语谱灰度图段内第q个像素点的频率，μ_1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数，μ_2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数，10表示正常语音语谱灰度图段内像素点的初始窗口尺寸；

8.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述每个像素点的衰减系数的表达式为：

整体表示暗通道图像，A表示全局信息变量。

9.一种用于AI语音通讯的语音数据增强系统，其特征在于，包括：

语音采集模块、用于采集语音信号，并获取该语音信号的语谱图，将该语谱图转化为语谱灰度图，其中，将该语谱图中的能量值作为语谱灰度图的灰度值；

信号判定模块、用于获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段；

10.一种用于AI语音通讯的语音数据增强装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序，语音数据增强程序被所述处理器执行时实现如权利要求1至8中任一项所述的用于AI语音通讯的语音数据增强方法的步骤。