CN110223708B - 基于语音处理的语音增强方法及相关设备 - Google Patents
基于语音处理的语音增强方法及相关设备 Download PDFInfo
- Publication number
- CN110223708B CN110223708B CN201910375361.7A CN201910375361A CN110223708B CN 110223708 B CN110223708 B CN 110223708B CN 201910375361 A CN201910375361 A CN 201910375361A CN 110223708 B CN110223708 B CN 110223708B
- Authority
- CN
- China
- Prior art keywords
- voice signal
- subspace
- voice
- original
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000009432 framing Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000010410 layer Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明涉及人工智能领域,尤其涉及一种基于语音处理的语音增强方法及相关设备,基于语音处理的语音增强方法包括:获取原始语音信号,将原始语音信号依次输入滤波器和麦克风阵列,得到原始语音信号的固定波束麦克风阵列;根据固定波束麦克风阵列,将原始语音信号分割成N个子空间语音信号;从每一子空间语音信号中提取若干唤醒词,并进行分帧加窗处理;根据每一子空间语音信号对应的分帧加窗处理后的唤醒词,计算对应子空间语音信号的置信度;根据置信度的计算结果,选取置信度最高的子空间语音信号作为最终输出语音信号。本发明分散了噪音的方向性,减少了噪音的方向数量,提取有效语音较强且噪音较弱的子空间语音信号,从而达到语音增强的效果。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语音处理的语音增强方法及相关设备。
背景技术
随着科技的发展,智能语音对话和语音通信技术已运用到人们的日常生活当中,但是在嘈杂语音环境下,如多人会话噪声(Babble Noise),汽车噪声和风噪声等,都会降低语音质量,极大影响到用户体验,很多情况下容易导致语音噪音干扰用户对语音内容的理解,甚至在一些情况下影响到用户的判断。例如,在语音通信时,噪声会干扰甚至掩盖对方的声音,降低通话质量;在语音识别系统中,噪声会使得语音识别率下降,甚至使识别系统完全失效。因此,根据观测到的带噪语音信号,估计纯净语音具有十分重要的意义,我们称此为语音增强。
目前,在语音对话和通信系统中,会采用多通道麦克风阵列方法进行语音增强,采用麦克风阵列进行语音增强,往往需要语音方位(甚至是噪声方位)已知。但实际情况下,由于真实环境中方向性噪声的存在,声源方位往往并不固定,且噪声和混响下的声源方位难以估计。因此,传统的基于麦克风阵列的语音增强算法在对多方向性噪声声源的语音信号进行增强时效果不佳。
发明内容
有鉴于此,有必要针对现有技术中通过麦克风阵列进行语音增强效果不佳存在的问题,提供一种基于语音处理的语音增强方法及相关设备。
一种基于语音处理的语音增强方法,包括:
获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列;
根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号;
从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理;
根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度;
根据计算得到的每一子空间语音信号的置信度,选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。
在其中一个可能的实施例中,所述获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列,包括:
获取带有方向性噪音的原始语音信号;
将所述原始语音信号输入所述滤波器,进行固定波束形成计算,所述固定波束形成计算公式如下:
将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列。
在其中一个可能的实施例中,所述根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号,包括:
将所述固定波束麦克风阵列划分为N个子阵列;
给所有子阵列中的每一向量赋予不同的权重,根据所述权重计算每一子阵列的方向性加权向量,每一所述方向性加权向量为对应子阵列的中心指向性向量;
以每一所述方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
在其中一个可能的实施例中,所述从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理,包括:
将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段,对每一语音子片段进行傅里叶变换,得到每一语音子片段的声音频谱,其中,傅里叶变换的公式为:
上式中,Y(n)表示经过傅里叶变换后的声音频谱,y(n)表示原声音频谱,f表示频率分辨率,n表示声波波长,N表示汉宁窗长度;
将每一语音子片段的声音频谱放在同一个坐标系下,所述坐标系以频率为横坐标,以振幅为纵坐标;
提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词,并对所述唤醒词分别进行分帧加窗处理。
在其中一个可能的实施例中,所述根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度,包括:
分别将每一子空间语音信号中的所述唤醒词输入到训练好的神经网络模型中,计算每一子空间语音信号的后验概率,计算公式为:
hsmooth=max{1,j-wsmooth+1}
上式中,P为唤醒词的后验概率,j为唤醒词的帧,k为隐藏层,i为唤醒词,wsmooth为滑动窗口,hsmooth为滑动窗口内帧的索引;
根据每一子空间语音信号的后验概率,计算对应子空间语音信号的置信度,计算公式为:
hmax=max{1,j-wmax+1}
上式中,S为置信度,i为唤醒词,j为唤醒词的帧,P为唤醒词的后验概率,wmax为滑动窗口,hsmooth为滑动窗口内帧的索引。
一种基于语音处理的语音增强装置,包括如下模块:
预处理模块,用于获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列;
分割模块,用于根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号;
提取模块,用于从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理;
计算模块,用于根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度;
输出模块,用于根据计算得到的每一子空间语音信号的置信度,选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。
在其中一个可能的实施例中,所述预处理模块还用于:
获取带有方向性噪音的原始语音信号;
将所述原始语音信号输入所述滤波器,进行固定波束形成计算;
将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列。
在其中一个可能的实施例中,所述分割模块还用于:
将所述固定波束麦克风阵列划分为N个子阵列;
给所有子阵列中的每一向量赋予不同的权重,根据所述权重计算每一子阵列的方向性加权向量,每一所述方向性加权向量为对应子阵列的中心指向性向量;
以每一所述方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
基于相同的构思,本发明提出了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述基于语音处理的语音增强方法的步骤。
基于相同的构思,本发明提出了一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行上述基于语音处理的语音增强方法的步骤。
有益技术效果:
(1)将麦克风阵列平均划分为若干子阵列,进而将语音信号按照麦克风子阵列的方向性加权向量分割成若干子空间语音信号,分散了噪音的方向性,减少了噪音的方向数量,有利于提取方向性噪音最弱的子空间语音信号;
(2)根据声音频谱提取每个子空间语音信号音高较高的若干唤醒词,从而计算每个子空间语音信号的置信度,有利于提取有效语音较强且噪音较弱的子空间语音信号,从而达到对被多方向性噪音干扰的语音信号进行语音增强的效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明实施例中的一种基于语音处理的语音增强方法的整体流程图;
图2为本发明实施例中的一种基于语音处理的语音增强方法中的预处理过程的示意图;
图3为本发明实施例中的一种基于语音处理的语音增强方法中的子空间语音信号分割过程的示意图;
图4为本发明实施例中的一种基于语音处理的语音增强方法中的唤醒词提取过程的示意图;
图5为本发明实施例中的一种基于语音处理的语音增强方法中的置信度计算过程的示意图;
图6为本发明实施例中的一种基于语音处理的语音增强装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本发明实施例中的一种基于语音处理的语音增强方法的整体流程图,如图1所示,一种基于语音处理的语音增强方法,包括:
步骤S1,获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列。
本步骤中,首先获取带有方向性噪音的原始语音信号,带有方向性噪音的原始语音信号是指被来自多个方向的噪声源干扰的原始语音信号。先将所述带有方向性噪音的原始语音信号输入滤波器进行固定波速形成计算,形成所述带有方向性噪音的原始语音信号的固定波速,再将形成固定波速的原始语音信号输入由多个麦克风组成的麦克风阵列中,得到所述原始语音信号的固定波束麦克风阵列。
步骤S2,根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号。
本步骤执行时,首先将所述固定波束麦克风阵列划分为N个子阵列,其中,N为大于1的整数。具体的,每个子阵列由若干向量组成,划分子阵列后,给每个子阵列中的不同向量赋予不同的权重。根据被赋予的权重计算每个子阵列的方向性加权向量,每个方向性加权向量为对应子阵列的中心指向性向量。再以每个方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
步骤S3,从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理。
本步骤执行时,先将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段,所述预设的语音分析时长一般为2秒到5秒。分割完成后再对每一语音子片段进行傅里叶变换,得到每一语音子片段的声音频谱。将每一语音子片段的声音频谱放在同一个坐标系下,所述坐标系以频率为横坐标,以振幅为纵坐标。提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词,并对所述唤醒词分别进行分帧和加窗处理。
步骤S4,根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度。
本步骤执行时,首先分别将各个子空间语音信号中的所有唤醒词输入到训练好的神经网络模型中,分别计算各个子空间语音信号的后验概率。再根据各个子空间语音信号的后验概率,计算对应子空间语音信号的置信度。
步骤S5,根据计算得到的每一子空间语音信号的置信度,选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。
本步骤中,根据各个子空间语音信号的唤醒词计算得到的最高置信度代表着该子空间语音信号的噪音最少,有效语音最多。具体的,选取置信度最高的方式可以通过给每个子空间语音信号进行编号,再以各个子空间语音信号的编号为横坐标,以置信度为纵坐标,建立一个置信度坐标系,将各子空间语音信号的置信度放到所述置信度坐标系,纵坐标最大的即为置信度最高的子空间语音信号。
本实施例,将麦克风阵列平均划分为若干子阵列,进而将语音信号按照麦克风子阵列的方向性加权向量分割成若干子空间语音信号,分散了噪音的方向性,减少了噪音的方向数量,有利于提取方向性噪音最弱的子空间语音信号;根据声音频谱提取每个子空间语音信号音高较高的若干唤醒词,从而计算每个子空间语音信号的置信度,有利于提取有效语音较强且噪音较弱的子空间语音信号,从而达到从而达到对被多方向性噪音干扰的语音信号进行语音增强的效果。
在一个实施例中,图2为本发明实施例中的一种基于语音处理的语音增强方法中的预处理过程的示意图,如图2所示,所述步骤S1,获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列,包括:
步骤S101,获取带有方向性噪音的原始语音信号;
本步骤中,从具有多个方向性噪声源环境的语音通话或视频通话中提取带有方向性噪音的语音信号作为原始语音信号。
步骤S102,将所述原始语音信号输入所述滤波器,进行固定波束形成计算,所述固定波束形成计算公式如下:
其中,k为频点,c为原始语音信号的帧编号,Zc(k)为c的固定波速,P~(k)为原始语音信号,Wc H(k)为滤波器的系数,每帧的滤波器的系数为预设的不同常数,H为帧的数量;
步骤S103,将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列。
本步骤执行时,将经过固定波速形成计算的所述原始语音信号输入由多个个麦克风组成的麦克风阵列,把所述原始语音信号进行时域对齐,再使用短时离散傅里叶变换将对齐后的原始语音信号表示成复数值的频率信号形式,计算麦克风阵列原始语音信号的功率谱矩阵,并对该功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵,即所述原始语音信号的固定波束麦克风阵列。
本实施例,将原始语音信号输入滤波器,在一定程度上减少了原始语音信号的噪音,输入麦克风阵列,得到特征值矩阵和特征向量矩阵,便于后续根据麦克风阵列划分子空间。
在一个实施例中,图3为本发明实施例中的一种基于语音处理的语音增强方法中的子空间语音信号分割过程的示意图,如图2所示,所述步骤S2,根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号,包括:
步骤S201,将所述固定波束麦克风阵列划分为N个子阵列。
本步骤中,固定波束麦克风阵列,是一个线性均匀分布的麦克风阵列,它包含多个阵元,即子阵列,经由分帧加窗转化为频域信号,计算麦克风阵列原始语音信号的功率谱矩阵,并对该功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵,划分时,以等同大小为划分依据,即每个子阵列的向量数相等。
步骤S202,给所有子阵列中的每一向量赋予不同的权重,根据所述权重计算每一子阵列的方向性加权向量,每一所述方向性加权向量为对应子阵列的中心指向性向量。
本步骤执行时,计算出每个子阵列的方向性加权向量,首先,选取一个子阵列A,给子阵列A的各个向量赋予不同的权重,权重的赋予规则为从子阵列A的边缘向量到中间向量,其权重值逐渐递增。根据这些权重值对应的向量计算子阵列A的方向性加权向量,方向性加权向量B的计算公式为:B=α1B1+α2B2+…+αnB3n,其中,B1、B2、Bn为子阵列A的向量,α1、α2、αn分别为向量B1、B2、Bn的权重。这样计算得到的方向性加权向量即为子阵列A的中心指向性向量。其他子阵列的方向性加权向量也按照此方法计算得到。
步骤S203,以每一所述方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
本步骤中,以每一所述方向性加权向量的指向为分割依据,在360度的空间中将原始语音信号分割成N个子空间语音信号。比如,假设每个方向性加权向量的有效覆盖范围为45度,360度的空间被平均划分为八个子空间,八个固定波束麦克风子阵列的中心指向分别为45度、90度、135度、180度、225度、270度、315度、360度。
本实施例,以方向性加权向量的指向为分割依据,将原始语音信号分割成N个子空间语音信号,使分割具有针对性和依据,提高了分割的效率。
在一个实施例中,图4为本发明实施例中的一种基于语音处理的语音增强方法中的唤醒词提取过程的示意图,如图3所示,所述步骤S3,从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理,包括:
步骤S301,将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段,对每一语音子片段进行傅里叶变换,得到每一语音子片段的声音频谱,其中,傅里叶变换的公式为:
上式中,Y(n)表示经过傅里叶变换后的声音频谱,y(n)表示原声音频谱,f表示频率分辨率,n表示声波波长,N表示汉宁窗长度。
本步骤中,唤醒词是指语音信号中的一些音比较高的关键词的发音。在提取唤醒词之前,将子空间语音信号按照预设的语音分析时长分割成若干语音子片段,分割规则为每一语音子片段的时长相等。
其中,傅立叶变换是一种分析信号的方法,它可分析信号的成分,也可用这些成分合成信号。许多波形可作为信号的成分,比如正弦波、方波、锯齿波等,傅立叶变换用正弦波作为信号的成分。例如在信号处理中,傅里叶变换的典型用途是将信号分解成频率谱,显示与频率对应的幅值大小。
步骤S302,将每一语音子片段的声音频谱放在同一个坐标系下,所述坐标系以频率为横坐标,以振幅为纵坐标。
本步骤执行时,以频率为横坐标,以振幅为纵坐标建立一个声音频谱坐标系,在该声音频谱坐标系下,将每个语音子片段放进来进行唤醒词的提取。
步骤S303,提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词,并对所述唤醒词分别进行分帧加窗处理。
本实施例,将子空间语音信号按照预设的语音分析时长分割成若干语音子片段,从而提取唤醒词,减少误差的出现,提高了唤醒词提取的准确度。
在一个实施例中,图5为本发明实施例中的一种基于语音处理的语音增强方法中的置信度计算过程的示意图,如图5所示,所述步骤S4,根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度,包括:
步骤S401,分别将每一子空间语音信号中的所述唤醒词输入到训练好的神经网络模型中,计算每一子空间语音信号的后验概率,计算公式为:
hsmooth=max{1,j-wsmooth+1}
上式中,P为唤醒词的后验概率,j为唤醒词的帧,k为隐藏层,i为唤醒词,wsmooth为滑动窗口,hsmooth为滑动窗口内帧的索引;
本步骤中,神经网络包括n个隐藏层,每个隐藏层有若干个节点,在最后一层输出每个子空间语音信号的后验概率P。神经网络可以采用卷积神经网络、BP神经网络、记忆神经网络中的一种或多种,优选地采用卷积神经网络,卷积神经网络仿造生物的视知觉机制构建,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程。
步骤S402,根据每一子空间语音信号的后验概率,计算对应子空间语音信号的置信度,计算公式为:
hmax=max{1,j-wmax+1}
上式中,S为置信度,i为唤醒词,j为唤醒词的帧,P为唤醒词的后验概率,wmax为滑动窗口,hsmooth为滑动窗口内帧的索引。
本实施例,通过将唤醒词入参至神经网络模型中计算后验概率,提高了后续置信度计算的准确性和高效性,从而更好的达到了语音增强的目的。
在一个实施例中,提出一种基于语音处理的语音增强装置,如图6所示,包括预处理模块10、分割模块20、提取模块30、计算模块40、输出模块50,具体的:
预处理模块10,用于获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列;
分割模块20,用于根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号;
提取模块30,用于从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理;
计算模块40,用于根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度;
输出模块50,用于根据计算得到的每一子空间语音信号的置信度,选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。
在一个实施例中,所述预处理模块10还用于:
获取带有方向性噪音的原始语音信号;
将所述原始语音信号输入所述滤波器,进行固定波束形成计算;
将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列。
在一个实施例中,所述分割模块20还用于:
将所述固定波束麦克风阵列划分为N个子阵列;
给所有子阵列中的每一向量赋予不同的权重,根据所述权重计算每一子阵列的方向性加权向量,每一所述方向性加权向量为对应子阵列的中心指向性向量;
以每一所述方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
在一个实施例中,提出一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行计算机可读指令时实现上述各实施例中所述的基于语音处理的语音增强方法的步骤。
在一个实施例中,提出一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中所述的基于语音处理的语音增强方法的步骤。其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于语音处理的语音增强方法,其特征在于,包括:
获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列;
根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号;
从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理;
根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度;
根据计算得到的每一子空间语音信号的置信度,选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。
3.根据权利要求1所述的基于语音处理的语音增强方法,其特征在于,所述根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号,包括:
将所述固定波束麦克风阵列划分为N个子阵列;
给所有子阵列中的每一向量赋予不同的权重,根据所述权重计算每一子阵列的方向性加权向量,每一所述方向性加权向量为对应子阵列的中心指向性向量;
以每一所述方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
4.根据权利要求1所述的基于语音处理的语音增强方法,其特征在于,所述从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理,包括:
将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段,对每一语音子片段进行傅里叶变换,得到每一语音子片段的声音频谱,其中,傅里叶变换的公式为:
上式中,Y(n)表示经过傅里叶变换后的声音频谱,y(n)表示原声音频谱,f表示频率分辨率,n表示声波波长,N表示汉宁窗长度;
将每一语音子片段的声音频谱放在同一个坐标系下,所述坐标系以频率为横坐标,以振幅为纵坐标;
提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词,并对所述唤醒词分别进行分帧加窗处理。
5.根据权利要求1所述的基于语音处理的语音增强方法,其特征在于,所述根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度,包括:
分别将每一子空间语音信号中的所述唤醒词输入到训练好的神经网络模型中,计算每一子空间语音信号的后验概率,计算公式为:
hsmooth=max{1,j-wsmooth+1}
上式中,P为唤醒词的后验概率,j为唤醒词的帧,k为隐藏层,i为唤醒词,wsmooth为滑动窗口,hsmooth为滑动窗口内帧的索引;
根据每一子空间语音信号的后验概率,计算对应子空间语音信号的置信度,计算公式为:
hmax=max{1,j-wmax+1}
上式中,S为置信度,i为唤醒词,j为唤醒词的帧,P为唤醒词的后验概率,wmax为滑动窗口,hsmooth为滑动窗口内帧的索引。
6.一种基于语音处理的语音增强装置,其特征在于,包括如下模块:
预处理模块,用于获取带有方向性噪音的原始语音信号,将所述原始语音信号依次输入滤波器和麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列;
分割模块,用于根据所述固定波束麦克风阵列,将所述原始语音信号分割成N个子空间语音信号;
提取模块,用于从每一子空间语音信号中提取若干唤醒词,并对所述唤醒词分别进行分帧加窗处理;
计算模块,用于根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词,计算对应子空间语音信号的置信度;
输出模块,用于根据计算得到的每一子空间语音信号的置信度,选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。
7.根据权利要求6所述的基于语音处理的语音增强装置,其特征在于,所述预处理模块还用于:
获取带有方向性噪音的原始语音信号;
将所述原始语音信号输入所述滤波器,进行固定波束形成计算;
将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列,得到所述原始语音信号的固定波束麦克风阵列。
8.根据权利要求6所述的基于语音处理的语音增强装置,其特征在于,所述分割模块还用于:
将所述固定波束麦克风阵列划分为N个子阵列;
给所有子阵列中的每一向量赋予不同的权重,根据所述权重计算每一子阵列的方向性加权向量,每一所述方向性加权向量为对应子阵列的中心指向性向量;
以每一所述方向性加权向量的指向为分割依据,将所述原始语音信号分割成N个子空间语音信号。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至5中任一项所述的基于语音处理的语音增强方法的步骤。
10.一种存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行如权利要求1至5中任一项所述的基于语音处理的语音增强方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910375361.7A CN110223708B (zh) | 2019-05-07 | 2019-05-07 | 基于语音处理的语音增强方法及相关设备 |
PCT/CN2019/118677 WO2020224226A1 (zh) | 2019-05-07 | 2019-11-15 | 基于语音处理的语音增强方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910375361.7A CN110223708B (zh) | 2019-05-07 | 2019-05-07 | 基于语音处理的语音增强方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223708A CN110223708A (zh) | 2019-09-10 |
CN110223708B true CN110223708B (zh) | 2023-05-30 |
Family
ID=67820652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910375361.7A Active CN110223708B (zh) | 2019-05-07 | 2019-05-07 | 基于语音处理的语音增强方法及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110223708B (zh) |
WO (1) | WO2020224226A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223708B (zh) * | 2019-05-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于语音处理的语音增强方法及相关设备 |
CN110600051B (zh) * | 2019-11-12 | 2020-03-31 | 乐鑫信息科技(上海)股份有限公司 | 用于选择麦克风阵列的输出波束的方法 |
CN111161750B (zh) * | 2019-12-13 | 2022-09-06 | 西安讯飞超脑信息科技有限公司 | 语音处理方法及相关装置 |
CN111583947A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音增强方法和装置以及设备 |
CN113744732A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 设备唤醒相关方法、装置及故事机 |
CN113409804B (zh) * | 2020-12-22 | 2024-08-09 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
CN112634931B (zh) * | 2020-12-22 | 2024-05-14 | 北京声智科技有限公司 | 语音增强方法及装置 |
CN117939360B (zh) * | 2024-03-22 | 2024-06-07 | 广州伟仕达电子科技有限公司 | 一种用于蓝牙音箱的音频增益控制方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN107424625A (zh) * | 2017-06-27 | 2017-12-01 | 南京邮电大学 | 一种基于向量机框架的多通道语音活动检测方法 |
CN108538306A (zh) * | 2017-12-29 | 2018-09-14 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108877827A (zh) * | 2017-05-15 | 2018-11-23 | 福州瑞芯微电子股份有限公司 | 一种语音增强交互方法及系统、存储介质及电子设备 |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
CN109285557A (zh) * | 2017-07-19 | 2019-01-29 | 杭州海康威视数字技术股份有限公司 | 一种定向拾音方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8249867B2 (en) * | 2007-12-11 | 2012-08-21 | Electronics And Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN110223708B (zh) * | 2019-05-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于语音处理的语音增强方法及相关设备 |
-
2019
- 2019-05-07 CN CN201910375361.7A patent/CN110223708B/zh active Active
- 2019-11-15 WO PCT/CN2019/118677 patent/WO2020224226A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN108877827A (zh) * | 2017-05-15 | 2018-11-23 | 福州瑞芯微电子股份有限公司 | 一种语音增强交互方法及系统、存储介质及电子设备 |
CN107424625A (zh) * | 2017-06-27 | 2017-12-01 | 南京邮电大学 | 一种基于向量机框架的多通道语音活动检测方法 |
CN109285557A (zh) * | 2017-07-19 | 2019-01-29 | 杭州海康威视数字技术股份有限公司 | 一种定向拾音方法、装置及电子设备 |
CN108538306A (zh) * | 2017-12-29 | 2018-09-14 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110223708A (zh) | 2019-09-10 |
WO2020224226A1 (zh) | 2020-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223708B (zh) | 基于语音处理的语音增强方法及相关设备 | |
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
Wang et al. | Deep learning assisted time-frequency processing for speech enhancement on drones | |
US11393488B2 (en) | Systems and methods for enhancing audio signals | |
US11636866B2 (en) | Transform ambisonic coefficients using an adaptive network | |
WO2016050725A1 (en) | Method and apparatus for speech enhancement based on source separation | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
Şimşekli et al. | Non-negative tensor factorization models for Bayesian audio processing | |
CN111341339A (zh) | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 | |
Girin et al. | Audio source separation into the wild | |
Aroudi et al. | DBNET: DOA-driven beamforming network for end-to-end farfield sound source separation | |
CN113241090B (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
Chowdhury et al. | Speech enhancement using k-sparse autoencoder techniques | |
US20230178091A1 (en) | Wpe-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network | |
CN112687284B (zh) | 混响语音的混响抑制方法及装置 | |
Li et al. | Speech separation based on reliable binaural cues with two-stage neural network in noisy-reverberant environments | |
CN108257607B (zh) | 一种多通道语音信号处理方法 | |
CN117037836B (zh) | 基于信号协方差矩阵重构的实时声源分离方法和装置 | |
Toma et al. | Efficient Detection and Localization of Acoustic Sources with a low complexity CNN network and the Diagonal Unloading Beamforming | |
Ozamoto et al. | Noise-tolerant time-domain speech separation with noise bases | |
US20240212701A1 (en) | Estimating an optimized mask for processing acquired sound data | |
CN108133711B (zh) | 具有降噪模块的数字信号监测设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |