CN115273876A - 一种用于ai语音通讯的语音数据增强方法、系统及装置 - Google Patents

一种用于ai语音通讯的语音数据增强方法、系统及装置 Download PDF

Info

Publication number
CN115273876A
CN115273876A CN202210899007.6A CN202210899007A CN115273876A CN 115273876 A CN115273876 A CN 115273876A CN 202210899007 A CN202210899007 A CN 202210899007A CN 115273876 A CN115273876 A CN 115273876A
Authority
CN
China
Prior art keywords
voice
gray scale
segment
pixel point
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210899007.6A
Other languages
English (en)
Inventor
孙立民
李曙东
马斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zhongke Listening Core Technology Co ltd
Original Assignee
Tianjin Zhongke Listening Core Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Zhongke Listening Core Technology Co ltd filed Critical Tianjin Zhongke Listening Core Technology Co ltd
Priority to CN202210899007.6A priority Critical patent/CN115273876A/zh
Publication of CN115273876A publication Critical patent/CN115273876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及装置智能控制领域,具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置,包括:获取语音信号,将语音信号转化为语音数字信号,利用该语音数字信号得到其声波图和语谱图,利用跨模态思想将一维的声波图转换为二维的语谱灰度图,获取声波图和语谱灰度图的变化时间段,对两者变化时间段求并集得到组合时间段,组合时间段将语谱灰度图分为多个语谱灰度图段,计算每个语谱灰度图段内每个像素点的自适应窗口及衰减系数,利用每个语谱灰度图段内每个像素点的自适应窗口及衰减系数得到去噪后的灰度值,进而得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到增强后的语音信号,本发明实现了语音信号的增强。

Description

一种用于AI语音通讯的语音数据增强方法、系统及装置
技术领域
本申请涉及装置智能控制领域,具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置。
背景技术
近年来,语音通讯技术发展的越来越迅速。然而在进行语音通讯过程中,语音往往会受到环境噪声的影响。因此语音数据的增强对于语音通讯技术的发展极为重要。
语音增强是在复杂的背景环境下获得清晰语音的一种数据处理技术。传统的语音数据增强方法往往是谱减法、维纳滤波、小波去噪方法,在利用谱减法时,由于使用静音段的噪声作为当前帧的噪声,因此部分语音区域会出现较大的残留噪声;而维纳滤波的噪声功率谱是通过对静音段估计得到的,所以滤波效果不佳;小波的去噪变化的阈值设置不当,影响理想的降噪效果;因此,亟待一种用于AI语音通讯的语音数据增强方法、系统及装置解决现有去噪方法存在较大残留噪声,降噪效果不佳的问题。
发明内容
本发明提供基于大数据的图像智能压缩方法,以解决现有去噪方法存在较大残留噪声、降噪效果不佳的问题。
本发明的一种用于AI语音通讯的语音数据增强方法,采用如下技术方案:
S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
进一步的,所述获取语谱灰度图的分割时间区间段的方法是:
获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;
利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
进一步的,所述获取语谱灰度图的分割时间区间段的方法是:
获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;
利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;
对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。
进一步的,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
当语谱灰度图段内的最大灰度值大于阈值时,该语谱灰度图段为正常语音语谱灰度图段;
当语谱灰度图段内的最大灰度值小于阈值时,该语谱灰度图段为噪声语谱灰度图段。进一步的,所述每个像素点的初始窗口的分布度的具体表达式为:
γpq=th(0.6εpq+0.4δpq)
式中:γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,εpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值,δpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差。
进一步的,所述得到每个像素点的自适应窗口的具体表达式为:
若语谱灰度图段为正常语音语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
Figure BDA0003770174140000031
式中:ω2pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,10表示正常语音语谱灰度图段内像素点的初始窗口尺寸。
若语谱灰度图段为噪声语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
Figure BDA0003770174140000032
式中:ω1pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,3表示噪声数字信号像素点的初始窗口尺寸。
进一步的,所述每个像素点的衰减系数的表达式为:
Figure BDA0003770174140000033
式中:ω(x)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗口,G(b)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗中b点的灰度值,
Figure BDA0003770174140000041
整体表示暗通道图像,A表示全局信息变量。
一种用于AI语音通讯的语音数据增强系统,包括:
语音采集模块、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
信号判定模块、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
获取自适应窗口模块、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
语音去噪模块、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
一种用于AI语音通讯的语音数据增强装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序,语音数据增强程序被所述处理器执行时实现如说明书中S1-S5任一项所述的用于AI语音通讯的语音数据增强方法的步骤。
本发明的有益效果是:将一维的仅具有幅值大小的语音数字信号转换为二维的同时具有频率与幅值的语谱灰度图,语谱灰度图可将语音数字信号量化,便于分析计算;将图像中的暗通道先验去雾算法引入到语谱灰度图去噪过程,结合声波图和语谱灰度图的特征,自适应获取暗通道先验算法中的统计窗口即自适应窗口进行去雾运算,得到去雾后的语谱灰度图,自适应窗口结合语谱灰度图的自身特征,使去雾后的结果更加准确;对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号,实现了语音数据的增强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种用于AI语音通讯的语音数据增强方法的流程图;
图2为本发明的一种用于AI语音通讯的语音数据增强系统的结构框图。
具体实施方式
本发明引入数据跨模态处理思想,将一维的仅具有幅值大小的语音信号转换为二维的同时具有频率与幅值的语谱图。将图像中的暗通道先验去雾算法引入到语谱图去噪过程,结合声波图和语谱图的特征,自适应获取暗通道先验算法中的统计窗口进行去雾运算,从而实现语音数据的增强。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种用于AI语音通讯的语音数据增强方法的实施例,如图1所示,包括:
S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值。
采集一段语音信号的具体步骤为:设置相应平台,包括麦克风、数字信号处理单元、数据传输系统、语音数据增强系统、数存储模块和支撑支架,利用平台中麦克风设备采集一定时段语音信号。
将语音信号利用数字信号处理单元的模数转换功能转换为语音数字信号,根据语音数字信号中的时间和幅值绘制该语音数字信号的声波图,对该语音数字信号进行傅里叶变换得到语音信号的语谱图。
其中,将一维的仅具有幅值大小的语音信号转换为二维的同时具有频率与幅值的语谱图,语谱图中的颜色值代表信号能量的强弱,颜色越深,能量越大,颜色仅具有语义含义,具体的颜色值三通道大小(R,G,B)并无指代含义,因此,在本发明中为了更加有利于量化能量的大小,将能量值归一化至0~255范围内。
获取语谱图中所有能量值,将每个能量值作为灰度值构建语谱图灰度图的具体步骤为:对每个能量值归一化,具体表达式为:
Figure BDA0003770174140000061
式中,E(d,t)表示第d帧语音数字信号中第t个频率归一化的能量值,max(E)表示该段语音数字信号内最大能量值,min(E)表示该段语音数字信号内最小能量值,255表示灰度值分布范围,使得归一化结果在0~255范围内。
至此,可以将带颜色语谱图转换为语谱图灰度图,且每个像素点的灰度值大小可以代表能量值的大小;其中像素点的灰度值越大,图像中亮度越亮,代表能量越大。
S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段。
其中,获取语谱灰度图的分割时间区间段的第一种方法是:
获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
获取语谱灰度图的分割时间区间段的第二种方法是:获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段得到语谱灰度图的分割时间区间段。
本发明采用第二种方法,具体的是:获取声波图的变化时间段的具体步骤为:根据现有技术可知噪声的幅值范围与正常的干净语音信号的幅值范围存在较大差异,因此通过声波图中当前帧i的幅值fi与前一帧(i-1)的幅值fi-1之间差异Δfi=|fi-fi-1|,通过设置幅值阈值fT,确定该时间段内Δf大于幅值阈值fT对应的各个时间帧,记为JH={j1,j2,j3…jh}。将集合J中的每个时间帧按顺序前一时间帧jh-1与后一时间帧jh结合为变化时间段LK={l1,l2,…,lk},其中,l1为第0帧和j1帧组合得到,例如:j1和j2两个时间帧组合为l2,j2和j3两个时间帧组合为l3。至此,得到声波图中的每个变化时间段。其中,幅值阈值fT可根据实施者具体实施情况而定,本发明给出经验参考值fT=0.4。
其中,获取语谱灰度图的变化时间段的具体步骤为:根据现有技术可得知噪声的能量均匀的分布在语谱灰度图中,且能量值较小;而语音信号在语谱灰度图中有规律的变化,且能量值较大,因此,能量越大的地方越有可能为语音信号所在时间段。根据语音信号的基频属性,通过当前帧i下的100HZ到400HZ范围内的最大能量值,与前一帧(i-1)下的100HZ到400HZ范围内的最大能量值计算能量差异ΔEi=|maxHZ∈B Ei-maxHZ∈B Ei-1|,其中B表示基频频率区间[100,400],通过设置能量阈值ET确定该时间段内ΔE大于幅值阈值ET的各个时间帧,记为WR={w1,w2,w3…wr}。将集合W中的每个时间帧按顺序,即前一时间帧wr-1与后一时间帧wr结合为变化时间段UO={u1,u2,…,uo},其中,u1为第0帧和w1帧组合得到,例如:w1和w2两个时间帧组合为u2,w2和w3两个时间帧组合为u3。至此得到语谱灰度图中的每个变化时间段。其中能量阈值ET可根据实施者具体实施情况而定,本发明给出经验参考值ET=30。
由于声波图与语谱灰度图是对同一段语音信号的两种不同模态的表示,因此对声波图中的变化时间段集合LK与语谱图中的变化时间段集合UO中的每个变化时间段进行并集运算,即将对应顺序的变化时间段两两组合,组合为更大的变化时间段I,且下一个组合时间段从组合时间段I的最大范围开始计算,依次计算,得到所有组合时间段。
获取组合时间段的方法是:集合L中的第1个变化时间段L1范围[0,180],与集合U中第1个变化时间段U1范围[0,200],两者进行交集运算组合形成更大的组合时间段范围为[0,200];集合L中的第2个变化时间段L2范围[180,380],与集合U中第2个变化时间段U2范围[200,400],由于第一个组合时间段范围的最大范围为200,因此第二个组合时间段范围为[200,400]。
至此,得到了组合时间段,该组合时间段作为语谱灰度图的分割时间区间段可以将语谱灰度图整个横轴分为多个语谱灰度图段。
统计语谱灰度图中语音数字信号像素点的最大灰度值,即获取多段清晰的语音数字信号数据中的最大灰度值均值,根据最大灰度值均值设置阈值,根据所设该阈值区分每个语谱灰度图段内的正常数字信号和噪声数字信号的具体步骤为:根据正常数字信号中能量值较大的特点,对应到语谱灰度图中正常数字信号的灰度值较大,噪声数字信号的灰度值较小,通过统计语谱灰度图中每个语谱灰度图段内信号所对应的灰度值的大小来确定每个语谱灰度图段内主要为正常语音语谱灰度图段还是噪声语谱灰度图段,根据经验值设置阈值T=130,若语谱灰度图段内语音数字信号的最大灰度值大于阈值T,则将该语谱灰度图段设置为正常语音语谱灰度图段,若语谱灰度图段内语音数字信号的最大灰度值小于阈值T,则将该语谱灰度图段设置为噪声语谱灰度图段。
S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度。
S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口。
在所有语谱灰度图段中,统计语谱灰度图中第p段语谱灰度图段横坐标的范围最大值Xp,纵坐标的范围最大值Yp,其中,纵坐标的范围每个语谱灰度图段都相同,即语谱图中频率的最大值;横坐标和纵坐标的范围即为第p段语谱灰度图段内像素点的自适应窗口ω的最大值,按照语谱灰度图中频率从小到大可知,频率低的像素点的灰度值大于频率高的像素点的灰度值。因此综合考虑计算量的大小以及结果的准确性,为了得到该语谱灰度图段内每个像素点的自适应窗口ω,对于噪声语谱灰度图段而言,由于噪声像素点的灰度值较低,较小的ω值就可以得到最优的暗通道。对于正常语音语谱灰度图段而言,由于语音像素点的灰度值较高,因此需要较大的ω值才可以得到最优的暗通道。因此,对于正常语音语谱灰度图段以3×3大小为初始窗口,对于噪声语谱灰度图段以10×10大小为初始窗口。在不同语谱灰度图段内计算对应窗口内各像素点的灰度值的分布度γpq,从而得到自适应的窗口。其中,第p段语谱灰度图段内第q个像素点初始窗口的分布度γpq的具体表达式为:
γpq=th(0.6εpq+0.4δpq)
式中:γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,εpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的均值,δpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差,th(·)为双曲正切函数。
该公式的逻辑为:语谱灰度图的每个语谱灰度图段内每个像素点的初始窗口内灰度值的均值越小,则该窗口内含有较优的暗通道的概率就越大,但是均值越小,该窗口内也可能含有较大的灰度值,因此同时满足均值小,和方差小的窗口,含有暗通道的概率就越大。本发明中窗口分布度计算窗口内的均值的权重大于方差的权重,因此发分别对均值和方差设置权重为0.6和0.4。
根据第p段语谱灰度图段内第q个像素点初始窗口的分布度获取第p段语谱灰度图段内第q个像素点的自适应窗口,若第p个语谱灰度图段为正常语音语谱灰度图段,则第p段语谱灰度图段内第q个像素点的自适应窗口的表达式为:
Figure BDA0003770174140000091
式中:ω2pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口的长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口的宽的超参数,10表示正常语音语谱灰度图段初始窗口大小。
若第p个语谱灰度图段为噪声语谱灰度图段,则第p段语谱灰度图段内第q个像素点的自适应窗口的表达式为:
Figure BDA0003770174140000092
式中:ω1pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口的长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口的宽的超参数,3表示噪声语谱灰度图段初始窗口大小。
公式逻辑为:窗口内γpq越小,表明窗口内的均值和方差越小,该窗口内含有暗通道的概率就越大,为了减少计算量需要调整的步长就越小;yq越大,表明像素点q的频率越大,像素点的灰度值越小,则其窗口附近的暗通道的概率越大,需要调整的步长就越小,μ1p和μ2p用于调整步长值,可根据实施者具体实施情况而定。其中,对于噪声语谱灰度图段:
Figure BDA0003770174140000101
对于语音语谱灰度图段:
Figure BDA0003770174140000102
其中,Xp和Yp为第p段语谱灰度图段内横坐标的范围最大值和纵坐标的范围最大值,若重新计算得到的自适应窗口ωpq,计算得到的值不能超过第p段语谱灰度图段内内横坐标的范围最大值和纵坐标的范围最大值,若超过,则将窗口大小设置为[Xp,Yp],Xp和Yp可在语谱灰度图中直接获取。
至此,得到了每个语谱灰度图段中每个像素点的自适应窗口即自适应暗通道先验去雾算法的统计窗口。
S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
获取每个像素点的衰减系数的具体步骤为:引入跨模态处理的思想,通过将一维的语音信号转换至二维语谱灰度图像,实现从数字转换为图像的模态转换。通现有技术得知,正常数字信号在语谱图中有很明显的“横纹”和“竖纹”,且每个“竖纹”之间距离即采样时间点较为平均,且能量值较高;噪声数字信号通常在语谱图中表现分布均匀,且能量较为连贯、能量值较低。当语音数字信号中存在噪声数字信号时,会在语谱灰度图中呈现出明显的雾状。通过得到的自适应暗通道先验去雾算法的统计窗口,即自适应窗口,对语谱灰度图进行自适应去雾算法,实现去噪处理,并进行数据模态转换,得到增强后的语音数据。
因此本发明采用得到的自适应暗通道先验去雾算法的统计窗口,对语谱图进行自适应去雾算法,通过对语谱图进行去雾处理,得到“较为清晰”的语谱图,并对语谱图进行映射变换即将图像转换为数字,从而得到去噪后的语音信号。
本发明中描述“雾状”的语谱灰度图的模型可以表示为:
G(x)=α(x)×g(x)+A(1-α(x))#
式中:G(x)表示“雾状”的语谱灰度图中像素点x的灰度值,g(x)表示“无雾”的语谱灰度图中像素点x的灰度值,A表示全局信息变量即语谱灰度图中最大灰度值,α(x)表示语谱灰度图中像素点x的灰度值的衰减系数。
其中,衰减系数α(x)表示“无雾”的语谱灰度图中像素点x的灰度值在噪声遮盖下显示的非遮盖比例大小,α(x)越大表明噪声数字信号的遮盖程度越小。A表示全局信息变量,即用来表示当前帧的语音信号除α(x)×g(x)外的由于背景影响的部分能量信息,(1-α(x))表示该部分灰度占当前帧正常数字信号的灰度的比例。
根据“雾状”的语谱灰度图的模型可以得到现有的衰减系数α(x)的计算表达式:
Figure BDA0003770174140000111
式中:ω(x)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗口,G(b)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗中b点的灰度值,
Figure BDA0003770174140000112
整体表示暗通道图像,即取“雾状”的语谱灰度图中灰度值的最小值,并以像素点x为中心取ω大小的窗口,并取窗口内灰度值最小值代替中心像素点x的灰度值,即暗通道,A表示全局信息变量。
因此,通过计算得到自适应的统计的局部区域的窗口大小,即得到像素点x的自适应ω窗口,其中窗口内的像素点的灰度值越低,构建得到的暗通道就越好。该窗口影响着暗通道的构建,进而影响着“去雾”暗通道先验算法的效果,其中,根据算法原理得到最好的暗通道为纯黑色。因此本案通过实现“去雾”暗通道先验算法的自适应参数,实现语谱图的“去雾”处理。
根据语谱灰度图每个语谱灰度图段内每个像素点的自适应窗口、对应像素点的衰减系数、对应像素点的频率及“雾状”的语谱灰度图的模型得到“去雾”后的语谱灰度图中像素点的灰度值的计算表达式为:
Figure BDA0003770174140000121
式中:G(x)表示“雾状”的语谱灰度图像中像素点x的灰度值;g(x)表示“无雾”的语谱灰度图中像素点x的灰度值;A表示全局信息变量,α(x)表示像素点x的灰度值的衰减系数,α0为避免衰减系数过小而设置的阈值且α0=0.1。
利用“去雾”后的语谱灰度图中像素点的灰度值得到“去雾”后的语谱灰度图。
对得到的“去雾”后的语谱灰度图进行映射变换得到处理后的语音信号,具体过程为:“去雾”后的语谱灰度图可以表示为行为N,列为M的矩阵P,Pnm表示第n行和第m列点的灰度值,则对于P中的第m列“去雾”后的语谱灰度图到语音信号的映射可表示为:
Figure BDA0003770174140000122
式中:Q(t)为时间索引出映射的语音信号,βn和τn分别为第n个角频率和初始相位,25为帧长,其对应的语音长度为25m,N表示“去雾”后的语谱灰度图矩阵的行数。
对得到的“去雾”后的语谱灰度图进行映射变换得到去噪后的语音信号,即得到去噪后的语音信号。
一种用于AI语音通讯的语音数据增强系统,如图2所示,包括:
语音采集模块、利用麦克风设备采集一段语音信号,将所采集的语音信号利用数字信号处理单元转换为语音数字信号,绘制该语音数字信号的声波图,获取该语音数字信号的语谱图,将语谱图中所有能量值转换为灰度值构建语谱灰度图。
信号判定模块、用于获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段。
获取自适应窗口模块、用于分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口。
语音去噪模块、用于根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
一种用于AI语音通讯的语音数据增强装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序,语音数据增强程序被所述处理器执行时实现如说明书中S1-S5所述的用于AI语音通讯的语音数据增强方法的步骤。
本发明的有益效果是:将一维的仅具有幅值大小的语音数字信号转换为二维的同时具有频率与幅值的语谱灰度图,语谱灰度图可将语音数字信号量化,便于分析计算;将图像中的暗通道先验去雾算法引入到语谱灰度图去噪过程,结合声波图和语谱灰度图的特征,自适应获取暗通道先验算法中的统计窗口即自适应窗口进行去雾运算,得到去雾后的语谱灰度图,自适应窗口结合语谱灰度图的自身特征,使去雾后的结果更加准确;对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号,实现了语音数据的增强。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于AI语音通讯的语音数据增强方法,其特征在于,包括:
S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
2.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述获取语谱灰度图的分割时间区间段的方法是:
获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;
利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
3.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述获取语谱灰度图的分割时间区间段的方法是:
获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;
利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;
对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。
4.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
当语谱灰度图段内的最大灰度值大于阈值时,该语谱灰度图段为正常语音语谱灰度图段;
当语谱灰度图段内的最大灰度值小于阈值时,该语谱灰度图段为噪声语谱灰度图段。
5.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
设置阈值,若语谱灰度图段内语音信号的最大灰度值大于阈值,则将该语谱灰度图段作为正常语音语谱灰度图段,若语谱灰度图段内语音信号的最大灰度值小于阈值T,则将该语谱灰度图段作为噪声语谱灰度图段。
6.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述每个像素点的初始窗口的分布度的具体表达式为:
γpq=th(0.6εpq+0.4δpq)
式中:γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,εpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值,δpq表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差。
7.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述得到每个像素点的自适应窗口的具体表达式为:
若语谱灰度图段为正常语音语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
Figure FDA0003770174130000021
式中:ω2pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,10表示正常语音语谱灰度图段内像素点的初始窗口尺寸;
若语谱灰度图段为噪声语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
Figure FDA0003770174130000031
式中:ω1pq表示第p段语谱灰度图段内第q个像素点的自适应窗口,γpq表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,yq表示第p段语谱灰度图段内第q个像素点的频率,μ1p表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ2p表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,3表示噪声数字信号像素点的初始窗口尺寸。
8.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述每个像素点的衰减系数的表达式为:
Figure FDA0003770174130000032
式中:ω(x)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗口,G(b)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗中b点的灰度值,
Figure FDA0003770174130000033
整体表示暗通道图像,A表示全局信息变量。
9.一种用于AI语音通讯的语音数据增强系统,其特征在于,包括:
语音采集模块、用于采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
信号判定模块、用于获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
获取自适应窗口模块、用于分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
语音去噪模块、用于根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
10.一种用于AI语音通讯的语音数据增强装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音数据增强程序,语音数据增强程序被所述处理器执行时实现如权利要求1至8中任一项所述的用于AI语音通讯的语音数据增强方法的步骤。
CN202210899007.6A 2022-07-28 2022-07-28 一种用于ai语音通讯的语音数据增强方法、系统及装置 Pending CN115273876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210899007.6A CN115273876A (zh) 2022-07-28 2022-07-28 一种用于ai语音通讯的语音数据增强方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210899007.6A CN115273876A (zh) 2022-07-28 2022-07-28 一种用于ai语音通讯的语音数据增强方法、系统及装置

Publications (1)

Publication Number Publication Date
CN115273876A true CN115273876A (zh) 2022-11-01

Family

ID=83771578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210899007.6A Pending CN115273876A (zh) 2022-07-28 2022-07-28 一种用于ai语音通讯的语音数据增强方法、系统及装置

Country Status (1)

Country Link
CN (1) CN115273876A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115775562A (zh) * 2023-02-13 2023-03-10 深圳市深羽电子科技有限公司 一种用于蓝牙耳机的声音外泄检测方法
CN116129926A (zh) * 2023-04-19 2023-05-16 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法
CN117995193A (zh) * 2024-04-02 2024-05-07 山东天意装配式建筑装备研究院有限公司 一种基于自然语言处理的智能机器人语音交互方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115775562A (zh) * 2023-02-13 2023-03-10 深圳市深羽电子科技有限公司 一种用于蓝牙耳机的声音外泄检测方法
CN115775562B (zh) * 2023-02-13 2023-04-07 深圳市深羽电子科技有限公司 一种用于蓝牙耳机的声音外泄检测方法
CN116129926A (zh) * 2023-04-19 2023-05-16 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法
CN116129926B (zh) * 2023-04-19 2023-06-09 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法
CN117995193A (zh) * 2024-04-02 2024-05-07 山东天意装配式建筑装备研究院有限公司 一种基于自然语言处理的智能机器人语音交互方法

Similar Documents

Publication Publication Date Title
CN115273876A (zh) 一种用于ai语音通讯的语音数据增强方法、系统及装置
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN105654436B (zh) 一种基于前景背景分离的背光图像增强去噪方法
CN110634499A (zh) 用深特征损失训练的用于语音去噪的神经网络
CN111028163A (zh) 一种基于卷积神经网络的联合图像去噪与弱光增强方法
CN110400267A (zh) 一种基于巡检图像的预处理方法
CN110428364B (zh) 帕金森声纹语谱图样本扩充方法、装置及计算机存储介质
CN109377464B (zh) 一种红外图像的双平台直方图均衡化方法及其应用系统
CN113808607A (zh) 基于神经网络的语音增强方法、装置及电子设备
CN110223708A (zh) 基于语音处理的语音增强方法及相关设备
CN111681180A (zh) 先验驱动的深度学习图像去雾方法
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN109389569A (zh) 基于改进DehazeNet的监控视频实时去雾方法
CN108847252A (zh) 基于声信号语谱图纹理分布的声特征提取方法
CN111145102A (zh) 一种基于卷积神经网络的合成孔径雷达图像去噪方法
CN115409872B (zh) 一种水下摄像机图像优化方法
CN116363021A (zh) 一种创伤患者护理评估智能采集系统
CN117828333A (zh) 一种基于信号混合增强和cnn的电缆局放特征提取方法
CN113674231B (zh) 基于图像增强的轧制过程中氧化铁皮检测方法与系统
CN113450340B (zh) 一种皮肤纹理检测系统
CN109034070B (zh) 一种置换混叠图像盲分离方法及装置
CN115511722A (zh) 基于深浅特征融合网络及联合损失函数的遥感图像去噪方法
CN111754412B (zh) 构建数据对的方法、装置及终端设备
CN110490824A (zh) 图像去噪的方法及装置
Huang et al. An efficient single image enhancement approach using luminance perception transformation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination