CN110808061A - 语音分离方法、装置、移动终端及计算机可读存储介质 - Google Patents
语音分离方法、装置、移动终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110808061A CN110808061A CN201911098898.XA CN201911098898A CN110808061A CN 110808061 A CN110808061 A CN 110808061A CN 201911098898 A CN201911098898 A CN 201911098898A CN 110808061 A CN110808061 A CN 110808061A
- Authority
- CN
- China
- Prior art keywords
- noise
- time domain
- voice
- voice information
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000001228 spectrum Methods 0.000 claims abstract description 50
- 238000012805 post-processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000002156 mixing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 19
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音分离方法、装置、移动终端及计算机可读存储介质,所述语音分离方法包括:获取带噪语音信息,并提取所述带噪语音信息的特征向量,将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱,对所述目标振幅谱进行后处理,以获取目标语音信息,可有效快速地将噪声从带噪语音中分离出来,以获取干净的语音信息。
Description
技术领域
本发明涉及语音分离领域,尤其涉及一种语音分离方法、装置、移动终端及计算机可读存储介质。
背景技术
在嘈杂的环境中,往往同时存在着许多不同的声源,且在声波的传递过程中,不同声源所发出的声波之间以及直达声和反射声之间会在传播介质中相叠加而形成复杂的混合声波。因此,在语音识别领域,如何能够实现在嘈杂环境中分离出干净的语音信息是目前亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音分离方法、装置、移动终端及计算机可读存储介质,旨在解决从带噪语音信息中获取干净的语音信息的技术问题。
为实现上述目的,本发明提供一种语音分离方法,所述语音分离方法包括以下步骤:
获取带噪语音信息,并提取所述带噪语音信息的特征向量;
将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
对所述目标振幅谱进行后处理,以获取目标语音信息。
优选地,获取所述带噪语音信息的时域信号和频域信号;
分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征;
基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量。
优选地,获取带噪语音信息的时域信号;
对所述带噪语音信息的时域信号进行滤波处理,以获取所述带噪语音信息的滤波时域信号;
将所述带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
优选地,对所述带噪语音信息的时域信号进行短时能量分析,以获取所述时域信号的第一时域特征;
对所述带噪语音信息的时域信号进行短时平均幅度值分析,以获取所述时域信号的第二时域特征;
对所述带噪语音信息的时域信号进行过零率分析,以获取所述时域信号的第三时域特征;
对所述带噪语音信息的频域信号进行小波分解,以获取所述频域信号的频域特征。
优选地,基于主成分分析函数,对所述带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,所述目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征;
基于线性判别分析函数,对所述带噪语音信息的频域特征进行特征抽取,以获取目标频域特征;
将所述目标时域特征与所述目标频域特征进行结合,以获取所述带噪语音信息的特征向量。
优选地,对所述目标振幅谱进行掩模处理,以获取掩模的目标振幅谱;
对所述掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
优选地,获取标识的语音与标识的噪声,并对所述标识的语音与标识的噪声进行特征提取,以获取标识的语音特征与标识的噪声特征;
将所述标识的语音与标识的噪声均匀混合,以获取带噪语音,并对所述带噪语音进行特征提取,以获取带噪语音特征;
基于所述标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取所述语音分离模型。
优选地,第一获取模块,用于获取带噪语音信息,并提取所述带噪语音信息的特征向量;
第二获取模块,用于将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
处理模块,用于对所述目标振幅谱进行后处理,以获取目标语音信息。
此外,为实现上述目的,本发明还提供一种语音分离装置,所述监控场景下语音分离装置包括:
第一获取模块,用于获取带噪语音信息,并提取所述带噪语音信息的特征向量;
第二获取模块,用于将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
处理模块,用于对所述目标振幅谱进行后处理,以获取目标语音信息。
优选地,所述第一获取模块还用于,
获取所述带噪语音信息的时域信号和频域信号;
分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征;
基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量。
优选地,所述第一获取模块还用于,
获取带噪语音信息的时域信号;
对所述带噪语音信息的时域信号进行滤波处理,以获取所述带噪语音信息的滤波时域信号;
将所述带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
优选地,所述第一获取模块还用于,
对所述带噪语音信息的时域信号进行短时能量分析,以获取所述时域信号的第一时域特征;
对所述带噪语音信息的时域信号进行短时平均幅度值分析,以获取所述时域信号的第二时域特征;
对所述带噪语音信息的时域信号进行过零率分析,以获取所述时域信号的第三时域特征;
对所述带噪语音信息的频域信号进行小波分解,以获取所述频域信号的频域特征。
优选地,所述第一获取模块还用于,
基于主成分分析函数,对所述带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,所述目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征;
基于线性判别分析函数,对所述带噪语音信息的频域特征进行特征抽取,以获取目标频域特征;
将所述目标时域特征与所述目标频域特征进行结合,以获取所述带噪语音信息的特征向量。
优选地,所述处理模块还用于,
对所述目标振幅谱进行掩模处理,以获取掩模的目标振幅谱;
对所述掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
优选地,所述第二获取模块还用于,
获取标识的语音与标识的噪声,并对所述标识的语音与标识的噪声进行特征提取,以获取标识的语音特征与标识的噪声特征;
将所述标识的语音与标识的噪声均匀混合,以获取带噪语音,并对所述带噪语音进行特征提取,以获取带噪语音特征;
基于所述标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取所述语音分离模型。
此外,为实现上述目的,本发明还提供一种移动终端,所述移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音分离程序,所述语音分离程序被所述处理器执行时实现以上所述的语音分离方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音分离程序,所述语音分离程序被处理器执行时实现以上所述的语音分离方法的步骤。
本发明通过获取带噪语音信息,并提取带噪语音信息的特征向量,接着将特征向量输入至语音分离模型,并获取特征向量对应的目标振幅谱,对目标振幅谱进行后处理,以获取目标语音信息,可有效快速地将噪声从带噪语音中分离出来,以获取干净的语音信息。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的移动终端结构示意图;
图2为本发明语音分离方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的移动终端结构示意图。
本发明实施例移动终端可以是PC,也可以是智能手机、平板电脑等具有语音分离功能的可移动式终端设备。
如图1所示,该移动终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,移动终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音分离程序。
在图1所示的移动终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音分离程序。
在本实施例中,语音分离装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的语音分离程序,其中,处理器1001调用存储器1005中存储的语音分离程序时,并执行以下操作:
获取带噪语音信息,并提取所述带噪语音信息的特征向量;
将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
对所述目标振幅谱进行后处理,以获取目标语音信息。
进一步地,处理器1001可以调用存储器1005中存储的语音分离程序,还执行以下操作:
获取所述带噪语音信息的时域信号和频域信号;
分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征;
基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量。
进一步地,处理器1001可以调用存储器1005中存储的语音分离程序,还执行以下操作:
获取带噪语音信息的时域信号;
对所述带噪语音信息的时域信号进行滤波处理,以获取所述带噪语音信息的滤波时域信号;
将所述带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
进一步地,处理器1001可以调用存储器1005中存储的语音分离程序,还执行以下操作:
对所述带噪语音信息的时域信号进行短时能量分析,以获取所述时域信号的第一时域特征;
对所述带噪语音信息的时域信号进行短时平均幅度值分析,以获取所述时域信号的第二时域特征;
对所述带噪语音信息的时域信号进行过零率分析,以获取所述时域信号的第三时域特征;
对所述带噪语音信息的频域信号进行小波分解,以获取所述频域信号的频域特征。
进一步地,处理器1001可以调用存储器1005中存储的语音分离程序,还执行以下操作:
基于主成分分析函数,对所述带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,所述目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征;
基于线性判别分析函数,对所述带噪语音信息的频域特征进行特征抽取,以获取目标频域特征;
将所述目标时域特征与所述目标频域特征进行结合,以获取所述带噪语音信息的特征向量。
进一步地,处理器1001可以调用存储器1005中存储的语音分离程序,还执行以下操作:
对所述目标振幅谱进行掩模处理,以获取掩模的目标振幅谱;
对所述掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
进一步地,处理器1001可以调用存储器1005中存储的语音分离程序,还执行以下操作:
获取标识的语音与标识的噪声,并对所述标识的语音与标识的噪声进行特征提取,以获取标识的语音特征与标识的噪声特征;
将所述标识的语音与标识的噪声均匀混合,以获取带噪语音,并对所述带噪语音进行特征提取,以获取带噪语音特征;
基于所述标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取所述语音分离模型。
本发明还提供一种语音分离方法,参照图2,图2为本发明语音分离方法第一实施例的流程示意图。
语音分离方法包括以下步骤:
步骤S100,获取带噪语音信息,并提取所述带噪语音信息的特征向量;
在本实施例中,可以理解地,在识别用户说话的语音信息时,由于用户所在场景背景噪声的影响,或则采集用户说话的语音信息的采集设备的机器噪声的影响,对用户说话的语音信息的识别有很大的影响,因此在识别用户说话的语音信息时,需先将带噪语音信息进行分离,其中,本发明方法通过语音分离模型对采集的带噪语音进行分离,具体地,获取带噪语音信息,并提取带噪语音信息的特征向量。
进一步地,步骤S100包括,
步骤S110,获取所述带噪语音信息的时域信号和频域信号;
步骤S120,分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征;
步骤S130,基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量。
该步骤中,可以理解地,语音信号基于时域信号表征该语音信息,也可基于频域信号表征该语音信息,具体不作限制,在本发明方法中,同时基于带噪语音的时域信号与频域信号表征该带噪语音信息,并分别提取带噪语音的时域信号与频域信号的时域特征和频域特征,最后融合该带噪语音信息的时域特征和频域特征,以获取带噪语音信息的特征向量。
具体地,先将带噪语音信息进行预处理,即将采集的带噪语音信息进行3层小波包分解,以获取若干个高频信号与若干个低频信号,并计算每一层的高频信号的小波分解系数与低频信号的小波分解系数,可以理解地,高频信号一般为噪声信号,而低频信号一般为平稳地语音信号,因此接着采用阈值法对高频信号的小波分解系数进行处理,以获取初步消除带噪语音信息的噪声的语音信息,接着根据每一层高频信号的小波分解系数与低频信号的小波分解系数,对处理之后的若干个高频信号与若干个低频信号进行信号重建,以获取预处理的带噪语音信号,接着获取预处理的带噪语音信号的时域信号,并将预处理的带噪语音信号的时域信号进行滤波处理,以获取带噪语音信息的滤波时域信号,最后将带噪语音信息的滤波时域信号进行傅立叶变换,以获取带噪语音信息的频域信号。
接着,分别对带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征,并基于带噪语音信息的时域特征和频域特征,获取带噪语音信息的特征向量。
步骤S200,将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
在本实施例中,可以理解地,在获取带噪语音信息的特征向量之后,将带噪语信息的特征向量输入至语音分离模型中,通过该语音分离模型的若干个神经元的计算传递,获取输入的特征向量对应的目标振幅谱。
进一步地,在将带噪语信息的特征向量输入至语音分离模型之前,还包括,
步骤S210,获取标识的语音与标识的噪声,并对所述标识的语音与标识的噪声进行特征提取,以获取标识的语音特征与标识的噪声特征;
步骤S220,将所述标识的语音与标识的噪声均匀混合,以获取带噪语音,并对所述带噪语音进行特征提取,以获取带噪语音特征;
步骤S230,基于所述标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取所述语音分离模型。
该步骤中,可以理解地,本发明方法中使用的语音分离模型是基于标识的语音与标识的噪声,训练神经网络,以获取语音分离模型,具体地,获取标识的语音与标识的噪声,并对标识的语音进行特征提取,以获取标识的语音特征,对标识的噪声进行特征提取,以获取标识的噪声特征,接着将标识的语音与标识的噪声均匀混合,以获取带噪语音,并对带噪语音进行特征提取,以获取带噪语音特征,最后,基于标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取语音分离模型,即将带噪语音特征输入至神经网络,获取输入的带噪语音特征对应的输出向量,并基于损失函数计算该输出向量与标识的语音特征、标识的噪声特征之间的损失偏差,并逐渐修改该神经网络的权重值,直至损失偏差在预设偏差范围内,以获取语音分离模型。
步骤S300,对所述目标振幅谱进行后处理,以获取目标语音信息。
在本实施例中,可以理解地,语音分离模型的输出结果为目标振幅谱,该目标振幅谱就是目标语音信息对应的振幅谱,因此在获取目标振幅谱之后,进一步地对该目标振幅谱进行后处理,以获取目标语音信息。
具体地,该步骤S300包括,
步骤S210,对所述目标振幅谱进行掩模处理,以获取掩模的目标振幅谱;
步骤S220,对所述掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
该步骤中,在获取目标振幅谱之后,基于掩摸函数对目标振幅谱进行掩摸处理,以获取掩模的目标振幅谱,接着,对掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
本实施例提出的语音分离方法,通过获取带噪语音信息,并提取带噪语音信息的特征向量,将特征向量输入至语音分离模型,并获取特征向量对应的目标振幅谱,对目标振幅谱进行后处理,以获取目标语音信息,可有效快速地将噪声从带噪语音中分离出来,以获取干净的语音信息。
基于第一实施例,提出本发明语音分离方法的第二实施例,在本实施例中,步骤S110包括,
步骤S111,获取带噪语音信息的时域信号;
步骤S112,对所述带噪语音信息的时域信号进行滤波处理,以获取所述带噪语音信息的滤波时域信号;
步骤S113,将所述带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
在本实施例中,可以理解地,可以通过时间轴表征动态信号,也可以通过频率轴表征动态信号,在本发明方法中,将带噪语音信息转化为时间的函数,即将带噪语音信息通过时间轴表征带噪语音动态信号,以获取带噪语音信息的时域信号,接着对带噪语音信息的时域信号进行滤波处理,以获取带噪语音的滤波时域信号,具体地,将带噪语音信息的时域信号通过一个高通滤波器,以获取带噪语音的滤波时域信号,最后将带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
本实施例提出的语音分离方法,通过将带噪语音信息转化为时间的函数,以获取带噪语音信息的时域信号,接着对带噪语音信息的时域信号进行滤波处理,以获取带噪语音信息的滤波时域信号,最后将带噪语音信息的滤波时域信号进行傅立叶变换,以获取带噪语音信息的频域信号,以备后续获取更准确的特征,进一步获取干净的语音信息。
基于第一实施例,提出本发明语音分离方法的第三实施例,在本实施例中,步骤S120包括,
步骤S121,对所述带噪语音信息的时域信号进行短时能量分析,以获取所述时域信号的第一时域特征;
步骤S122,对所述带噪语音信息的时域信号进行短时平均幅度值分析,以获取所述时域信号的第二时域特征;
步骤S123,对所述带噪语音信息的时域信号进行过零率分析,以获取所述时域信号的第三时域特征;
步骤S124,对所述带噪语音信息的频域信号进行小波分解,以获取所述频域信号的频域特征。
在本实施例中,由于不同类别的声音信号之间的能量差异较大,因此可将短时能量作为信号的特征,对带噪语音信息的时域信号进行短时能量分析,以获取时域信号的第一时域特征,具体地,将带噪语音信息的时域信号以每帧预设帧长分为若干帧,对每一帧的时域信号的每隔预设时间点采样,并获取每个预设时点的采样点的幅值平方,以获取每个预设时点的采样点的能量,最后求取每一帧的所有采样点的能量之和,以获取每一帧的短时能量,将每一帧的短时能量作为时域信号的第一时域特征。
短时平均幅度值也是一帧信号能量大小的表征,也是语音类别判断的重要特征,因此对带噪语音信息的时域信号进行短时平均幅度值分析,以获取时域信号的第二时域特征,具体地,将带噪语音信息的时域信号以每帧预设帧长分为若干帧,对每一帧的时域信号的每隔预设时间点采样,并获取每个预设时点的采样点的幅值绝对值,并求取每一帧的所有采样点的幅值绝对值之和,以获取每一帧的短时平均幅度值,将每一帧的短时平均幅度值作为时域信号的第二时域特征。
由于不同类别的信号在过零率的分布上有较大的的差异,因此可以在时域对信号的幅值进行判别,通过检测信号过零率变化规律获得有效的信号特征,即对带噪语音信息的时域信号进行过零率分析,以获取时域信号的第三时域特征。
由于小波分解可获得原始信号不同频带信号的构成特征,获取各尺度空间内的时频局部信息,因此可对带噪语音信息的频域信号进行小波分解,以获取频域信号的频域特征,具体地,将进行3层小波包分解,以获取若干个高频信号与若干个低频信号,并计算每一层的高频信号的小波分解系数与低频信号的小波分解系数,接着,利用小波分解系数进行信号重构,并求解重构之后各频带能量,最后进行归一化处理,以获取频域信号的频域特征。
本实施例提出的语音分离方法,通过对带噪语音信息的时域信号进行短时能量分析,以获取时域信号的第一时域特征,然后对带噪语音信息的时域信号进行短时平均幅度值分析,以获取时域信号的第二时域特征,接着对带噪语音信息的时域信号进行过零率分析,以获取时域信号的第三时域特征,最后对带噪语音信息的频域信号进行小波分解,以获取频域信号的频域特征,以获取更加准确的特征,进一步获取干净的语音信息。
基于第一实施例,提出本发明语音分离方法的第四实施例,在本实施例中,步骤S130包括,
步骤S131,基于主成分分析函数,对所述带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,所述目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征;
步骤S132,基于线性判别分析函数,对所述带噪语音信息的频域特征进行特征抽取,以获取目标频域特征;
步骤S133,将所述目标时域特征与所述目标频域特征进行结合,以获取所述带噪语音信息的特征向量。
在本实施例中,在获取大量的时域特征和频域特征之后,对大量的时域特征和频域特征进行特征筛选,以获取更加准确的特征向量,具体地,基于主成分分析函数,对带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,带噪语音信息的时域特征包括:第一时域特征、第二时域特征与第三时域特征,即对带噪语音信息的时域特征进行数据标准化,接着求取任意两个特征之间的协方差矩阵,然后求取协方差矩阵的协方差矩阵特征值和特征向量,将特征值从大到小排序,之后选取其中最大的k个目标特征值,然后将k个目标特征值对应的k个目标特征向量组成特征向量矩阵w,其中k是特征子空间的维度,最后将带噪语音信息的时域特征通过投影矩阵w转换到k维特征子空间上,以获取目标时域特征,目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征。
在获取目标时域特征之后,接着基于线性判别分析函数,对带噪语音信息的频域特征进行特征抽取,以获取目标频域特征,具体地,先获取投影矩阵G,接着将带噪语音信息的频域特征基于投影矩阵G进行投影,以获取降维后的目标频域特征。
在获取目标时域特征和目标频域特征之后,将目标时域特征与目标频域特征进行结合,以获取带噪语音信息的特征向量。
本实施例提出的语音分离方法,通过基于主成分分析函数,对带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,接着基于线性判别分析函数,对带噪语音信息的频域特征进行特征抽取,以获取目标频域特征,最后将目标时域特征与目标频域特征进行结合,以获取带噪语音信息的特征向量,获取更加准确的特征,进一步获取干净的语音信息。
此外,本发明实施例还提出一种语音分离装置,所述语音分离装置包括:
第一获取模块,用于获取带噪语音信息,并提取所述带噪语音信息的特征向量;
第二获取模块,用于将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
处理模块,用于对所述目标振幅谱进行后处理,以获取目标语音信息。
进一步地,所述第一获取模块还用于,
获取所述带噪语音信息的时域信号和频域信号;
分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征;
基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量。
进一步地,所述第一获取模块还用于,
获取带噪语音信息的时域信号;
对所述带噪语音信息的时域信号进行滤波处理,以获取所述带噪语音信息的滤波时域信号;
将所述带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
进一步地,所述第一获取模块还用于,
对所述带噪语音信息的时域信号进行短时能量分析,以获取所述时域信号的第一时域特征;
对所述带噪语音信息的时域信号进行短时平均幅度值分析,以获取所述时域信号的第二时域特征;
对所述带噪语音信息的时域信号进行过零率分析,以获取所述时域信号的第三时域特征;
对所述带噪语音信息的频域信号进行小波分解,以获取所述频域信号的频域特征。
进一步地,所述第一获取模块还用于,
基于主成分分析函数,对所述带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,所述目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征;
基于线性判别分析函数,对所述带噪语音信息的频域特征进行特征抽取,以获取目标频域特征;
将所述目标时域特征与所述目标频域特征进行结合,以获取所述带噪语音信息的特征向量。
进一步地,所述处理模块还用于,
对所述目标振幅谱进行掩模处理,以获取掩模的目标振幅谱;
对所述掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
进一步地,所述第二获取模块还用于,
获取标识的语音与标识的噪声,并对所述标识的语音与标识的噪声进行特征提取,以获取标识的语音特征与标识的噪声特征;
将所述标识的语音与标识的噪声均匀混合,以获取带噪语音,并对所述带噪语音进行特征提取,以获取带噪语音特征;
基于所述标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取所述语音分离模型。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音分离程序,所述语音分离程序被处理器执行时实现以上语音分离方法各个步骤的操作。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音分离方法,其特征在于,所述语音分离方法包括以下步骤:
获取带噪语音信息,并提取所述带噪语音信息的特征向量;
将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
对所述目标振幅谱进行后处理,以获取目标语音信息。
2.如权利要求1所述的语音分离方法,其特征在于,所述提取所述带噪语音信息的特征向量的步骤包括:
获取所述带噪语音信息的时域信号和频域信号;
分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征;
基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量。
3.如权利要求2所述的语音分离方法,其特征在于,所述获取所述带噪语音信息的时域信号和频域信号的步骤包括:
获取带噪语音信息的时域信号;
对所述带噪语音信息的时域信号进行滤波处理,以获取所述带噪语音信息的滤波时域信号;
将所述带噪语音信息的滤波时域信号进行傅立叶变换,以获取所述带噪语音信息的频域信号。
4.如权利要求2所述的语音分离方法,其特征在于,所述时域特征包括:第一时域特征、第二时域特征与第三时域特征,所述分别对所述带噪语音信息的时域信号和频域信号进行特征提取,以获取带噪语音信息的时域特征和频域特征的步骤包括:
对所述带噪语音信息的时域信号进行短时能量分析,以获取所述时域信号的第一时域特征;
对所述带噪语音信息的时域信号进行短时平均幅度值分析,以获取所述时域信号的第二时域特征;
对所述带噪语音信息的时域信号进行过零率分析,以获取所述时域信号的第三时域特征;
对所述带噪语音信息的频域信号进行小波分解,以获取所述频域信号的频域特征。
5.如权利要求2所述的语音分离方法,其特征在于,所述基于所述带噪语音信息的时域特征和频域特征,获取所述带噪语音信息的特征向量的步骤包括:
基于主成分分析函数,对所述带噪语音信息的时域特征进行特征抽取,以获取目标时域特征,其中,所述目标时域特征包括:第一目标时域特征、第二目标时域特征与第三目标时域特征;
基于线性判别分析函数,对所述带噪语音信息的频域特征进行特征抽取,以获取目标频域特征;
将所述目标时域特征与所述目标频域特征进行结合,以获取所述带噪语音信息的特征向量。
6.如权利要求1所述的语音分离方法,其特征在于,所述对所述目标振幅谱进行后处理,以获取目标语音信息的步骤包括:
对所述目标振幅谱进行掩模处理,以获取掩模的目标振幅谱;
对所述掩模的目标振幅谱进行短时傅立叶逆变换,以获取目标语音信息。
7.如权利要求1至6任一权利要求所述的语音分离方法,其特征在于,所述将所述特征向量输入至语音分离模型的步骤之前,还包括:
获取标识的语音与标识的噪声,并对所述标识的语音与标识的噪声进行特征提取,以获取标识的语音特征与标识的噪声特征;
将所述标识的语音与标识的噪声均匀混合,以获取带噪语音,并对所述带噪语音进行特征提取,以获取带噪语音特征;
基于所述标识的语音特征、标识的噪声特征与带噪语音特征训练神经网络,以获取所述语音分离模型。
8.一种语音分离装置,其特征在于,所述语音分离装置包括:
第一获取模块,用于获取带噪语音信息,并提取所述带噪语音信息的特征向量;
第二获取模块,用于将所述特征向量输入至语音分离模型,并获取所述特征向量对应的目标振幅谱;
处理模块,用于对所述目标振幅谱进行后处理,以获取目标语音信息。
9.一种移动终端,其特征在于,所述移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音分离程序,所述语音分离程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音分离方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音分离程序,所述语音分离程序被处理器执行时实现如权利要求1至7中任一项所述的语音分离方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098898.XA CN110808061B (zh) | 2019-11-11 | 2019-11-11 | 语音分离方法、装置、移动终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098898.XA CN110808061B (zh) | 2019-11-11 | 2019-11-11 | 语音分离方法、装置、移动终端及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110808061A true CN110808061A (zh) | 2020-02-18 |
CN110808061B CN110808061B (zh) | 2022-03-15 |
Family
ID=69502147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911098898.XA Active CN110808061B (zh) | 2019-11-11 | 2019-11-11 | 语音分离方法、装置、移动终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110808061B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113099348A (zh) * | 2021-04-09 | 2021-07-09 | 泰凌微电子(上海)股份有限公司 | 降噪方法、降噪装置和耳机 |
CN113113041A (zh) * | 2021-04-29 | 2021-07-13 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN113345464A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音提取方法、系统、设备及存储介质 |
CN113345464B (zh) * | 2021-05-31 | 2024-07-12 | 平安科技(深圳)有限公司 | 语音提取方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049197A (ja) * | 1996-08-06 | 1998-02-20 | Denso Corp | 音声復元装置及び音声復元方法 |
KR100348899B1 (ko) * | 2000-09-19 | 2002-08-14 | 한국전자통신연구원 | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN108198547A (zh) * | 2018-01-18 | 2018-06-22 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
CN110223680A (zh) * | 2019-05-21 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
-
2019
- 2019-11-11 CN CN201911098898.XA patent/CN110808061B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049197A (ja) * | 1996-08-06 | 1998-02-20 | Denso Corp | 音声復元装置及び音声復元方法 |
KR100348899B1 (ko) * | 2000-09-19 | 2002-08-14 | 한국전자통신연구원 | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
CN108198547A (zh) * | 2018-01-18 | 2018-06-22 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN110223680A (zh) * | 2019-05-21 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
Non-Patent Citations (2)
Title |
---|
崔建峰等: "《基于非负矩阵分解和长短时记忆网络的单通道语音分离》", 《科学技术与工程》 * |
罗敏娜等: "《MATLAB在数字语音课程教学中的应用》", 《沈阳师范大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113099348A (zh) * | 2021-04-09 | 2021-07-09 | 泰凌微电子(上海)股份有限公司 | 降噪方法、降噪装置和耳机 |
CN113113041A (zh) * | 2021-04-29 | 2021-07-13 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN113113041B (zh) * | 2021-04-29 | 2022-10-11 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN113345464A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音提取方法、系统、设备及存储介质 |
CN113345464B (zh) * | 2021-05-31 | 2024-07-12 | 平安科技(深圳)有限公司 | 语音提取方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110808061B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160071526A1 (en) | Acoustic source tracking and selection | |
US20170178664A1 (en) | Apparatus, systems and methods for providing cloud based blind source separation services | |
CN107247572B (zh) | 音频播放方法、终端及计算机可读存储介质 | |
CN110808061B (zh) | 语音分离方法、装置、移动终端及计算机可读存储介质 | |
US11289109B2 (en) | Systems and methods for audio signal processing using spectral-spatial mask estimation | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
CN110473568B (zh) | 场景识别方法、装置、存储介质及电子设备 | |
US20190156846A1 (en) | Creating device, creating method, and non-transitory computer readable storage medium | |
US20180033427A1 (en) | Speech recognition transformation system | |
CN110970051A (zh) | 语音数据采集方法、终端及可读存储介质 | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
EP2945156A1 (en) | Audio signal recognition method and electronic device supporting the same | |
CN112102851A (zh) | 语音端点检测方法、装置、设备及计算机可读存储介质 | |
CN113555032A (zh) | 多说话人场景识别及网络训练方法、装置 | |
CN113314135B (zh) | 声音信号识别方法及装置 | |
CN110795996A (zh) | 心音信号的分类方法、装置、设备及存储介质 | |
CN116913258B (zh) | 语音信号识别方法、装置、电子设备和计算机可读介质 | |
CN110827834B (zh) | 声纹注册方法、系统及计算机可读存储介质 | |
CN110660399A (zh) | 声纹识别的训练方法、装置、终端及计算机存储介质 | |
CN112489674A (zh) | 语音增强方法、装置、设备及计算机可读存储介质 | |
CN112529152A (zh) | 一种基于人工智能的西瓜成熟度检测的系统和方法 | |
CN111627416A (zh) | 音频噪声消除方法、装置、设备和存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN110875043B (zh) | 声纹识别方法、装置、移动终端及计算机可读存储介质 | |
CN111276134A (zh) | 语音识别方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |