CN111916075A - 一种音频信号的处理方法、装置、设备及介质 - Google Patents
一种音频信号的处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111916075A CN111916075A CN202010635457.5A CN202010635457A CN111916075A CN 111916075 A CN111916075 A CN 111916075A CN 202010635457 A CN202010635457 A CN 202010635457A CN 111916075 A CN111916075 A CN 111916075A
- Authority
- CN
- China
- Prior art keywords
- audio
- matrix
- frame
- audio signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 472
- 238000003672 processing method Methods 0.000 title claims description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 411
- 238000012545 processing Methods 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000012899 de-mixing Methods 0.000 claims description 46
- 230000009467 reduction Effects 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 13
- 238000000926 separation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
本发明关于一种音频信号的处理方法、装置、设备及介质,应用于电梯、智能汽车等语音控制场景,用以分离每个对象语音信号,减少识别过程中计算量和复杂度,提升音信号分离效率,优化语音识别过程。方法包括:获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在多个预设频率的幅值;根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种音频信号的处理方法、装置、设备及介质。
背景技术
在语音控制领域中,通常同一时间由一个用户发出语音控制命令,根据采集该用户的音频确定具体的命令意图。但在共享语音控制权限的场景中(例如,电梯场景),多个用户均享有语音控制权限,若出现多个用户同一时间发出语音控制命令,被采集的音频中包含了多个用户的语音控制命令,因无法确定每个用户的语音控制命令音频,造成无法确定每个用户的具体命令意图,还需要确认多个用户逐个发出语音控制命令,使得处理效率低下。因此,亟需一种确定包含多个用户语音的音频中每个用户语音音频的解决方案。
发明内容
本发明提供一种音频信号的处理方法、装置、设备及介质,用以从包含多个对象音频信号中分离每个对象语音信号,提升分离对象语音信号效率,优化语音识别过程。
本发明的技术方案如下:
根据本发明实施例的第一方面,提供一种音频信号的处理方法,包括:
获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在多个预设频率的幅值;
根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,各帧音频信号的解混矩阵,采用如下步骤确定:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中确定每路音频信号中首帧音频信号的中间解混矩阵,包括:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中确定每路音频信号中非首帧音频信号的中间解混矩阵,包括:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值,包括:
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
基于各帧语音信号的幅值矩阵、多路音频信号路数,确定每个对象的各帧语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频,包括:
基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据每个对象的各帧语音信号,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法,还包括:
基于频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值对应的目标巴克带,目标语音信号为目标对象的语音音频的任一帧语音信号,目标对象为多个对象中的任一对象;
利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征;
将目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵;
基于音噪比值矩阵,以及目标语音信号在多个预设频率的幅值,确定去噪后的目标语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,基于音噪比值矩阵,确定目标语音信号的多个预设频率对应的音噪比值,以及目标语音信号在多个预设频率的幅值,确定去噪后的目标语音信号在多个预设频率的幅值,包括:
利用巴克域与频域变换关系,将音噪比值矩阵变换到频域后的矩阵确定为目标语音信号的降噪矩阵;
将目标语音信号在多个预设频率的幅值组成的第一矩阵,与目标语音信号的降噪矩阵的乘积,确定为第二矩阵,第二矩阵由去噪后的目标语音信号在多个预设频率的幅值组成的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法,确定去噪后的目标语音信号在多个预设频率的幅值之后,方法还包括:
基于预设转换关系,将去噪后的目标语音信号在多个预设频率的幅值,转换为去噪后的目标语音信号。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法,还包括:
利用去噪后的目标语音信号,确定目标对象的去噪后的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,降噪网络模型采用如下步骤进行训练:
将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及纯噪声音频样本的音频特征、无噪声音频样本的音频特征作为神经网络模型的输入,将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对神经网络进行训练;
将训练结束后的神经网络模型作为降噪网络模型;
其中,无噪声音频样本的音频特征是根据无噪声音频样本的巴克带矩阵确定的,纯噪声音频样本的音频特征是根据纯噪声音频样本的巴克带矩阵确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征,包括:
计算目标巴克带组成的矩阵中全部元素的平均值和方差;
将目标巴克带组成的矩阵进行预设处理后得到的矩阵,确定为目标语音信号的音频特征,其中,预设处理为对矩阵中的每个元素与平均值作差并除以方差。
根据本发明实施例的第二方面,提供一种音频信号的处理装置,包括:
获取单元,用于获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
矩阵确定单元,用于基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
处理单元,用于根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在多个预设频率的幅值;
语音音频确定单元,用于根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
采用如下步骤确定各帧音频信号的解混矩阵:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
基于各帧语音信号的幅值矩阵、多路音频信号路数,确定每个对象的各帧语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元,具体用于:
基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据每个对象的各帧语音信号,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置,还包括去噪单元,用于:
基于频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值对应的目标巴克带,目标语音信号为目标对象的语音音频的任一帧语音信号,目标对象为多个对象中的任一对象;
利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征;
将目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵;
基于音噪比值矩阵,以及目标语音信号在多个预设频率的幅值,确定去噪后的目标语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,去噪单元具体用于:
利用巴克域与频域变换关系,将音噪比值矩阵变换到频域后的矩阵确定为目标语音信号的降噪矩阵;
将目标语音信号在多个预设频率的幅值组成的第一矩阵,与目标语音信号的降噪矩阵的乘积,确定为第二矩阵,第二矩阵由去噪后的目标语音信号在多个预设频率的幅值组成的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元,还用于:
基于预设转换关系,将去噪后的目标语音信号在多个预设频率的幅值,转换为去噪后的目标语音信号。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元,还用于:
利用去噪后的目标语音信号,确定目标对象的去噪后的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,去噪单元具体用于:将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及纯噪声音频样本的音频特征、无噪声音频样本的音频特征作为神经网络模型的输入,将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对神经网络进行训练;
将训练结束后的神经网络模型作为降噪网络模型;
其中,无噪声音频样本的音频特征是根据无噪声音频样本的巴克带矩阵确定的,纯噪声音频样本的音频特征是根据纯噪声音频样本的巴克带矩阵确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,去噪单元具体用于:
计算目标巴克带组成的矩阵中全部元素的平均值和方差;
将目标巴克带组成的矩阵进行预设处理后得到的矩阵,确定为目标语音信号的音频特征,其中,预设处理为对矩阵中的每个元素与平均值作差并除以方差。
根据本发明实施例的第三方面,提供一种音频信号的处理设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令以实现第一方面中任一项的音频信号的处理方法。
根据本发明实施例的第四方面,提供一种存储介质,当存储介质中的指令由音频信号的处理设备的处理器执行时,使得音频信号的处理设备能够执行第一方面中任一项的音频信号的处理方法。
本发明的实施例提供的技术方案至少带来以下有益效果:
获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号,基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在多个预设频率的幅值,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。利用各帧语音信号的解混矩阵以及多路音频信号的各帧音频幅值矩阵,确定出包含多个对象的语音信号在多个预设频率的幅值,实现从多路音频信号中分离多个对象的语音信号。利用多个对象的语音信号在多个预设频率的幅值可以确定多个对象的语音信号,从而从多路包含多个对象语音信号的音频信号中分离出每个对象的语音信号,减少识别过程中计算量和复杂度,提升确定对象语音信号的效率,有利于提升对象语音识别效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理,并不构成对本发明的不当限定。
图1是根据一示例性实施例示出的一种音频信号的处理方法的示意流程图。
图2是根据一示例性实施例示出的另一种音频信号的处理方法的示意流程图。
图3是根据一示例性实施例示出的音频信号的处理方法信号流向示意图。
图4是根据一示例性实施例示出的又一种音频信号的处理方法的示意流程图。
图5是根据一示例性实施例示出的一种音频信号的处理装置的结构示意图。
图6是根据一示例性实施例示出的一种音频信号的处理设备的结构示意图。
图7是根据一示例性实施例示出的另一种音频信号的处理设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例描述的应用是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例中的音频信号的处理方法,可以应用于识别多人同时进行语音控制的场景。例如,电梯的语音控制场景、智能汽车的语音控制场景、其他语音控制智能设备的语音控制场景等。
图1是根据一示例性实施例示出的一种音频信号的处理方法的流程示意图,如图1所示,音频信号的处理方法,包括以下步骤:
步骤S101,获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号。
具体实施时,在同一场景中,利用多个音频采集设备采集多路音频信号,例如,每个音频采集设备采集一路音频信号,音频采集设备可以是麦克风等设备。由于在同一场景中,例如电梯场景中,乘坐者通过语音控制命令控制电梯停靠某个楼层,当多个乘坐者同时发出语音控制命令时,因采集的音频为混有多个乘坐者的语音,导致无法识别每一个乘坐者的语音,可以在电梯场景中可以通过本发明实施例提供的音频信号的处理方法确定出每一个乘坐者的语音,可以对每一个乘坐者的语音进行语义识别,从而实现确定每一个乘坐者的语音控制命令。需要说明的是,本发明实施例中提供的音频信号的处理方法可以应用于带有唤醒词的语音控制场景中,也可以应用于无唤醒词的语音控制场景中。
在实际应用场景中,为了提升确定出的每个乘坐者的语音信号的效果,可以增加对音频采集设备采集条件的限定,例如,音频采集设备以预设采样频率(如16000Hz)进行音频信号的采集等。为便于对本发明实施例提供的音频信号的处理方法的描述,获取的多路音频信号中第m路音频信号记为xm。
步骤S102,基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵。
具体实施时,根据采集频率确定可以确定每路音频信号都包含数量相同帧音频信号,第m路音频信号的第n帧音频信号记为xm(n)。利用短时傅里叶变换方法,可以确定每路音频信号中各帧音频信号在多个预设频率的幅值,例如,第m路音频信号的第n帧音频信号在多个预设频率中的第k个频率(频点)的幅值记为Xm(k,n),需要说明的是,本申请的音频信号由时域变到频域后在多个预设频率上的幅值实际为一个复数(包含实部和虚部)。根据每路音频信号中各帧音频信号在多个预设频率的幅值,可以确定各帧音频信号的幅值矩阵X,例如
步骤S103,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在多个预设频率的幅值。
具体实施时,利用各帧音频信号的幅值矩阵X,以及预先确定的各帧音频信号的解混矩阵W,将解混矩阵W的共轭矩阵WH与各帧音频信号的幅值矩阵这两个矩阵的乘积WHX=Y。
然后,基于各帧语音信号的幅值矩阵Y、多路音频的路数,确定每个对象的各帧语音信号在多个预设频率的幅值。
通常,获取的多路音频信号的路数大于或等于对象数量。各帧音频信号的幅值矩阵Y中包含全部对象的各帧语音信号在多个预设频率的幅值。
若获取的多路音频信号的路数num大于实际对象数量为p,各帧音频信号的幅值矩阵其中,Y1(k,n)为第一个对象的语音信号的幅值矩阵,Yp(k,n)为第p个对象的语音信号的幅值矩阵,Yp+1(k,n)至Ynum(k,n)为包含p个对象的语音泄露信号的幅值矩阵。
在矩阵计算过程中,第n帧、第k个频率的音频信号的幅值X(k,n)的矩阵的行数和列数均为定值,第n帧、第k个频率的解混矩阵W(k,n)的矩阵的行数和列数均为定值。第n帧,第k个频率的语音信号幅值矩阵Y(k,n)的行数和列数可以根据音频信号的幅值矩阵与解混矩阵之间的矩阵计算结果进行确定。因而,可以从各帧语音信号的幅值矩阵中逐个确定出每个对象的语音信号的幅值矩阵,例如,第n帧,第k个频率的语音信号幅值矩阵Y(k,n)的行数为d,各帧语音信号的幅值矩阵Y,前d行的元素构成了第一个对象的语音信号的幅值矩阵,第d+1行至第2d行之间的元素构成了第二个对象的语音信号的幅值矩阵。因此,可以从各帧音频信号的幅值矩阵Y中确定每个对象的各帧语音信号在多个预设频率的幅值。不需要在时域中,区分各帧音频信号的幅值矩阵Y中哪些是包含实际对象的语音信号幅值矩阵,哪些是包含对象的音频泄露信号的幅值矩阵,减少数据计算量和复杂度。
在实际应用中,可以将确定出的每个对象的各帧语音信号的幅值变换到时域中,通过语音识别的方式,确定是否为对象的语音音频,以及是否无效对象的语音音频(包含对象的音频泄露信号的幅值矩阵对应的音频)。也可以结合图像识别的方式,通过采集包含多个对象的图像,确定对象数量p,将确定出的num个对象的语音信号的幅值矩阵中,前p个对象的语音信号的幅值矩阵,确定包含各对象的语音信号的幅值矩阵。
一种可能的实施方式中,预先确定的各帧音频信号的解混矩阵,采用如下步骤确定:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
具体实施时,各帧音频信号的解混矩阵W,其中第n帧,第K个频点的解混矩阵记为wm(k,n)表示第m路音频信号的第n帧音频信号在多个预设频率中的第k个频率(频点)的中间解混矩阵,wm(k,1)表示第m路音频信号中首帧音频信号(n=1)的中间解混矩阵记,根据所有路音频信号中首帧音频信号的中间解混矩阵,可以确定首帧音频信号的解混矩阵第m路音频信号中非首帧音频信号(n≠1)的中间解混矩阵记为wm(k,n),根据所有路音频信号中第n帧音频信号的中间解混矩阵,可以确定第n帧音频信号的解混矩阵实现确定每帧音频信号的解混矩阵,需要说明的是,为了便于区分中间解混矩阵与解混矩阵,本发明实施例中的中间解混矩阵为每路音频信号中各帧音频信号的中间解混矩阵,解混矩阵是由每路音频信号中帧次序相同的音频信号的中间解混矩阵组成的矩阵。也即,中间解混矩阵中仅包含一路音频信号中一帧音频信号的信息,解混矩阵中包含多路音频信号中帧次序相同的音频信号的信息。
在实际应用场景中,确定每路音频信号中首帧音频信号的中间解混矩阵,包括:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
具体实施时,针对每路音频信号首帧音频信号的中间解混矩阵,可以设置为单位矩阵,也即预设矩阵设置为单位矩阵,例如第m路音频信号中首帧音频信号(n=1)的中间解混矩阵wm(k,1)中每个频点的幅值均为1,假设预设多个频点数量k=3,那么
在实际应用场景中,确定每路音频信号中非首帧音频信号的中间解混矩阵,包括:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
具体实施时,确定每路音频信号中非首帧音频信号的中间解混矩阵时,针对第m路音频信号中的当前帧音频信号(第n帧音频信号),进行如下处理:
根据第n帧音频信号在多个预设频率的幅值Xm(k,n),前一帧音频信号的解混矩阵W(k,n-1)中可以确定出第m路音频信号的前一帧音频信号的中间解混矩阵wm(k,n-1),然后通过如下公式确定每路音频信号中当前帧音频信号(n≠1)的信号能量:其中,为wm(k,n-1)的共轭矩阵。
基于第n帧音频信号的能量rm(n)、第n帧音频信号在多个预设频率的幅值Xm(k,n)、以及前一帧音频信号的协方差矩阵Vm(k,n-1),通过公式确定第m路音频信号中第n帧音频信号的协方差矩阵,其中a为预设平滑系数,在实际应用场景中G·(rm(n))的值可以取1。
根据第m路音频信号中第n帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵W(k,n-1),通过公式wm(k,n)=(W(k,n-1)Vm(k,n))-1ek,确定出第m路音频信号中第n帧音频信号的中间解混矩阵wm(k,n)。
需要说明的是,由于各路首帧音频信号的中间解混矩阵是根据预设矩阵确定的,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的,其中,确定协方差矩阵时的平滑系数a的值可以等于0。
步骤S104,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
具体实施时,可以根据步骤S102中预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值的方法,确定将每个对象的各帧语音信号在多个预设频率的幅值转换为确定每个对象的语音音频的方法。
例如,基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号。在实际应用场景中,例如,预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换,那个预设转换关系可以是短时傅里叶变换的逆变换,将每个对象的各帧语音信号在多个预设频率的幅值Yp(k,n),通过预设转换关系,转换为各帧语音信号yp(n)。将每个对象的各帧语音信号yp(n),根据帧时序关系,将各帧语音信号拼接得到每个对象的语音音频yp={yp(1)…yp(n)}。
由于日常环境中充斥着噪声,利用多个音频采集设备采集多路音频信号时,环境中的噪声也被被采集。为提升每个对象的语音音频的质量,可以对从混合多个对象的音频信号中分离出的每个对象的语音音频进行降噪处理。
基于频域与巴克域变换关系,确定目标语音信号在多个预设频率对应的目标巴克带,目标语音信号为目标对象的语音音频的任一帧语音信号,目标对象为多个对象中的任一对象。
具体实施时,可以在确定每个对象的语音音频之后,对语音音频进行降噪处理。也可以在确定每个对象的语音音频之前,在确定每个对象的各帧语音信号在多个预设频率的幅值之后,进行降噪处理。
若在确定每个对象的语音音频之后,对语音音频进行降噪处理,可以将多个对象中的任一对象作为目标对象,将目标对象的语音音频的任一帧n语音信号yp(n)作为目标语音信号,对目标语音信号进行频域变换(如短时傅里叶变换)后可以得到多个预设频率的幅值Yp(k,n),利用频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值Yp(k,n)对应的巴克带(目标巴克带)。
若在确定每个对象的语音音频之前,在确定每个对象的各帧语音信号在多个预设频率的幅值之后,进行降噪处理,也可以利用频域与巴克域变换关系,直接确定目标语音信号在多个预设频率的幅值Yp(k,n)对应的巴克带(目标巴克带),其中目标语音信号为任意对象的任一帧语音信号。
例如,Yp(1,n)对应的巴克带为B1,Yp(2,n)对应的巴克带为B2,Yp(3,n)对应的巴克带为B3,…,Yp(k,n)对应的巴克带为Bm,可以得到目标巴克带组成的矩阵B=[B1 B2 B3 …Bm]。
然后,利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征。在频域与巴克域变换关系中,若频率k1和k2属于同一频带,则频率k1和频率k2对应的巴克带相同,目标巴克带组成矩阵会出现相邻的频率的巴克带相同,例如[B1 B1 B3 … Bm],对重复的巴克带仅保留一个巴克带,删除重复的巴克带,例如,[B1 B1 B3 … Bm]变为[B1 B3 …Bm],将删除重复的巴克带的矩阵B,直接确定为目标语音信号的音频特征,也可以对删除重复的巴克带的矩阵B输入预设高通滤波器进行滤波处理,将滤波后的矩阵作为目标语音信号的音频特征。
在对目标巴克带组成矩阵进行删除重复的巴克带的操作后的矩阵B中全部元素的平均值a和方差s。按照预设处理对矩阵B进行处理,预设处理可以是使矩阵B中的每个元素都与平均值作差,然后除以方差,如矩阵B中的任意元素(Bi,j-a)/s。矩阵B经过预设处理后得到的矩阵M,可以确定为是目标语音信号的音频特征。
本申请提供一种降噪网络模型,降噪网络模型训练过程如下:
将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及纯噪声音频样本的音频特征、无噪声音频样本的音频特征作为神经网络模型的输入,将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对神经网络进行训练;
将训练结束后的神经网络模型作为降噪网络模型;
其中,无噪声音频样本的音频特征是根据无噪声音频样本的巴克带矩阵确定的,纯噪声音频样本的音频特征是根据纯噪声音频样本的巴克带矩阵确定的。
具体实施时,将无噪声音频样本变换到频域中,并根据频域与巴克域变换关系,确定无噪声音频样本对应的巴克带矩阵,将删除重复的巴克带操作后的巴克带矩阵M1做为该无噪声音频样本的音频特征,也可以将矩阵M1输入预设高通滤波器进行滤波处理,将滤波后的矩阵作为该无噪声音频样本的音频特征。同样的处理方式,将纯噪声音频样本变换到频域中,根据频域与巴克域变换关系,确定纯噪声音频样本对应的巴克带矩阵,将删除重复的巴克带操作后的巴克带矩阵M2做为该纯噪声音频样本的音频特征,也可以将矩阵M2输入预设高通滤波器进行滤波处理,将滤波后的矩阵作为该纯噪声音频样本的音频特征。需要说明的是,无噪声音频样本是指音频中为不含有噪声的纯语音音频,纯噪声音频样本是指音频中为仅包含噪声的音频。
可以根据将无噪声音频样本的巴克带矩阵M1与纯噪声音频样本的巴克带矩阵M2点除后得到的音噪比值矩阵,也即使矩阵M1中每一元素M1i,j除以矩阵M2中对应的元素M2i,j,得到的比值Zi,j组成了音噪比值矩阵Z。
将音噪比值矩阵Z、纯噪声音频样本的音频特征以及无噪声音频样本的音频特征作为神经网络模型的输入,并以音噪比值矩阵Z作为神经网络模型的输出为目标进行训练,也可以使输出的矩阵逼近与音噪比值矩阵Z为目标进行训练。将训练后的神经网络模型作为降噪网络模型,应用于降噪处理过程。还可以设置目标迭代次数,当训练神经网络模型时的迭代次数达到目标迭代次数时,确定神经网络模型训练结束,并将训练后的神经网络模型作为降噪网络模型。在实际应用场景中,神经网络模型可以是长短期记忆网络(LongShort-Term Memory,LSTM)。
将目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵Zp(n)(对象p的第n帧语音信号的音噪比值矩阵)。
基于目标语音信号对应的音噪比值矩阵Zp(n),以及目标语音信号在多个预设频率的幅值Yp(k,n),可以确定去噪后的目标语音信号在多个预设频率的幅值。
具体实施时,利用巴克域与频域变换关系,将目标语音信号对应的音噪比值矩阵Zp(n)变换到频域中,将变换到频域中的矩阵T确定为目标语音信号的降噪矩阵,矩阵T(k,n)中的元素为目标语音信号多个预设频率对应的掩膜值。可以将目标语音信号在多个预设频率的幅值Yp(k,n)组成的第一矩阵Y与目标语音信号的降噪矩阵T相乘,得到第二矩阵C,第二矩阵C中的元素为去噪后的目标语音信号在多个预设频率的幅值。
通过上述过程,可以实现对目标语音信号在频率中去噪处理。进一步地,基于预设转换关系,将去噪后的目标语音信号在多个预设频率的幅值,转换为去噪后的目标语音信号。在实际应用场景中,例如,预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换,则预设转换关系可以是短时傅里叶变换的逆变换,将去噪后的目标音频信号在说个预设频率的幅值,通过预设转换关系,转换为去噪后的目标语音信号cp(n)。
将每个对象的去噪后的各帧语音信号cp(n),根据帧时序关系,将去噪后的各帧语音信号拼接得到每个对象的去噪后的语音音频cp={cp(1)…cp(n)}。在本申请实施例中,不仅从获取的多路音频信号中分离出每个对象的语音音频,同时去除分离出的语音音频中的背景噪声或散射噪声,增强语音音频,在语音控制电梯场景中或者语音控制智能汽车场景中,增强后的语音音频可以提升对电梯或智能汽车的控制效果。
图2为根据一示例性示出的音频信号的处理方法的示意流程图,如图2所示,音频信号的处理方法,包括:
步骤S201,获取多路音频信号。
具体实施时,多路音频信号是以利用设置在统一场景中的多个音频采集设备采集的,并且每路音频信号中混有多个对象的语音信号。其中,多个对象可指多个说话人,语音信号可指多个说话人的语音。如图3示出音频信号的处理方法信号流向示意图,获取的多路音频信号记为xm,每路音频信号中各帧音频信号记为xm(n)。
步骤S202,确定每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵。
步骤S203,确定各帧音频信号的解混矩阵。
具体实施时,确定各帧音频信号的解混矩阵是一个迭代的过程,也即确定当前帧音频信号的解混矩阵,需要基于前一帧音频信号的解混矩阵进行确定。针对任一频点k,第n帧音频信号的解混矩阵W(k,n),是由各路音频信号中第n帧音频信号的中间解混矩阵wm(k,n)确定的,
若第n帧音频信号为非首帧音频信号(n≠1),采用如下过程确定每路音频信号中第n帧音频信号的中间解混矩阵:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵。
具体实施时,根据第n帧音频信号在多个预设频率的幅值Xm(k,n),前一帧音频信号的解混矩阵W(k,n-1)中可以确定出第m路音频信号的前一帧音频信号的中间解混矩阵wm(k,n-1),然后通过如下公式确定每路音频信号中当前帧音频信号(n≠1)的信号能量:
基于第n帧音频信号的能量rm(n)、第n帧音频信号在多个预设频率的幅值Xm(k,n)、以及前一帧音频信号的协方差矩阵Vm(k,n-1),通过公式确定第m路音频信号中第n帧音频信号的协方差矩阵,其中a为预设平滑系数,在实际应用场景中G·(rm(n))的值可以取1。
根据第m路音频信号中第n帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵W(k,n-1),通过公式wm(k,n)=(W(k,n-1)Vm(k,n))-1ek,确定出第m路音频信号中第n帧音频信号的中间解混矩阵wm(k,n)。
若第n帧音频信号为首帧音频信号(n=1),将预设矩阵确定为每路音频信号中首帧音频信号的中间解混矩阵,例如预设矩阵可以为单位矩阵,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的,其中,确定协方差矩阵时的平滑系数a的值可以等于0。
步骤S204,确定每个对象的各帧语音信号在多个预设频率的幅值。
具体实施时,针对任一频点k,利用第n帧音频信号的幅值矩阵X(k,n)以及第n帧音频信号的解混矩阵W(k,n),通过X(k,n)W(k,n)=Y(k,n)。通常,获取的多路音频信号的路数num大于或等于对象数量。各帧音频信号的幅值矩阵Y中包含全部对象的各帧语音信号在多个预设频率的幅值,若对象数量为2,则Y1(k,n)为第一个对象的语音信号的幅值矩阵,Y2(k,n)为第二个对象的语音信号的幅值矩阵。
步骤S205,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
具体实施时,可以通过如图3中示出的短时傅里叶逆变换302,将每个对象的第n帧语音信号在多个预设频率的幅值,转换为每个对象第n帧的语音音频。每个对象的语音音频由全部帧语音音频组成,实现从混合多个对象的音频信号中分离出每个对象的语音音频。
在步骤S205后,可以对每个对象的语音音频进行降噪处理,也可以在步骤S204后,利用确定出每个对象的各帧语音信号在多个预设频率的幅值,进行对每个对象的语音音频进行降噪处理。图4示出了可在上述步骤S204后执行的降噪处理方法的示意流程图,包括如下步骤:
步骤S401,基于频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值对应的目标巴克带,目标语音信号为目标对象的语音音频的任一帧语音信号,目标对象为多个对象中的任一对象。
具体实施时,目标对象为多个对象中的任一对象p,目标语音信号为目标对象的语音音频的任一帧n语音信号,目标语音信号在多个预设频域的幅值可记为Yp(k,n)。通过频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值Yp(k,n)对应的巴克带(目标巴克带)。
步骤S402,利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征。
具体实施时,去掉确定出的目标巴克带中重复的巴克带,并组成矩阵,将该矩阵确定为目标语音信号的音频特征。也可计算该矩阵中全部元素的平均值和方差,将该矩阵中每个元素与平均值作差并除以方差后的矩阵确定为目标语音信号的音频特征。
步骤S403,将目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵。
具体实施时,将目标语音信号的音频特征输入预先训练的降噪网络模型后,输出目标语音信号对应的音噪比值矩阵。
步骤S404,基于音噪比值矩阵,以及目标语音信号在多个预设频率的幅值,确定去噪后的目标语音信号在多个预设频率的幅值。
具体实施时,利用巴克域与频域变换关系,将音噪比值矩阵变换到频域后的矩阵确定为目标语音信号的降噪矩阵,将目标语音信号在多个预设频率的幅值组成的第一矩阵,与目标语音信号的降噪矩阵的乘积,确定为第二矩阵,第二矩阵由去噪后的目标语音信号在多个预设频率的幅值组成的。
步骤S405,基于预设转换关系,将去噪后的目标语音信号在多个预设频率的幅值,转换为去噪后的目标语音信号。
具体实施时,预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换,则预设转换关系可以是短时傅里叶变换的逆变换,将去噪后的目标音频信号在说个预设频率的幅值,通过预设转换关系,转换为去噪后的目标语音信号。
步骤S406,利用去噪后的目标语音信号,确定目标对象的去噪后的语音音频。
具体实施时,根据帧时序关系,将去噪后的各帧语音信号拼接得到每个对象的去噪后的语音音频。
在分别在安静环境中和有干扰环境中,利用音频播放设备(如蓝牙音箱)播放已知声源s,由多个麦克风采集多路音频信号,利用本申请实施例提供的音频信号的处理方法对采集的多路音频信号进行分离和去噪处理,处理后的语音音频记为c。
分别统计安静环境中和有干扰环境中的信噪比将安静环境中的信噪比记为SDR_ref,有干扰环境中的信噪比记为SDRi,有干扰环境中存在干扰源数量记为i(干扰源能量水平位于55-60dB)。测试结果如下表1所示:
表1
干扰源数量i | 1 | 2 | 3 | 4 | 6 |
SDRi-SDR_ref | 16dB | 13dB | 10dB | 9dB | 8dB |
另外,分别统计安静环境中和有干扰环境中的信号与干扰加噪声比其中n为声源s录制时的背景噪声,v为干扰环境中的干扰源。在不同输入信号与干扰加噪声比IN_SINR的情况下,进行分离和去噪处理后的语音音频为c对应的信号与干扰加噪声比提升情况如下表2所示:
表2
In_SINR | -5dB | 0dB | 5dB |
SINRi | 15-20dB | 15-20dB | 15-20dB |
若将进行分离和去噪处理后的语音音频为c利用普通唤醒模型进行唤醒词识别,在不同输入信号与干扰加噪声比IN_SINR的情况下的唤醒成功率(识别出唤醒词次数/包含唤醒词句子总数)如下表3所示:
表3
In_SINR | -5dB | 0dB | 5dB |
唤醒成功率 | 83%-95% | 87%-98% | 90%-100% |
图5是根据一示例性实施例示出的一种音频信号的处理装置结构示意图,如图5所示,该装置包括获取单元501,矩阵确定单元502,处理单元503,语音音频确定单元504。
获取单元501,用于获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
矩阵确定单元502,用于基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
处理单元503,用于根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值;
语音音频确定单元504,用于根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元503具体用于:
采用如下步骤确定各帧音频信号的解混矩阵:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元503具体用于:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元503具体用于:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元503具体用于:
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据各帧语音信号的幅值矩阵的维数以及多个预设频率的数量,确定对象数量;
基于各帧语音信号的幅值矩阵、对象数量,确定每个对象的各帧语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元504,具体用于:
基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据每个对象的各帧语音信号,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置,还包括去噪单元505,用于:
基于频域与巴克域变换关系,确定目标语音信号在多个预设频率的幅值对应的目标巴克带,目标语音信号为目标对象的语音音频的任一帧语音信号,目标对象为多个对象中的任一对象;
利用确定出的目标巴克带组成的矩阵,确定目标语音信号的音频特征;
将目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵;
基于音噪比值矩阵,以及目标语音信号在多个预设频率的幅值,确定去噪后的目标语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,去噪单元505具体用于:
利用巴克域与频域变换关系,将音噪比值矩阵变换到频域后的矩阵确定为目标语音信号的降噪矩阵;
将目标语音信号在多个预设频率的幅值组成的第一矩阵,与目标语音信号的降噪矩阵的乘积,确定为第二矩阵,第二矩阵由去噪后的目标语音信号在多个预设频率的幅值组成的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元504,还用于:
基于预设转换关系,将去噪后的目标语音信号在多个预设频率的幅值,转换为去噪后的目标语音信号。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元504,还用于:
利用去噪后的目标语音信号,确定目标对象的去噪后的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,去噪单元具体用于:将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及纯噪声音频样本的音频特征、无噪声音频样本的音频特征作为神经网络模型的输入,将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对神经网络进行训练;
将训练结束后的神经网络模型作为降噪网络模型;
其中,无噪声音频样本的音频特征是根据无噪声音频样本的巴克带矩阵确定的,纯噪声音频样本的音频特征是根据纯噪声音频样本的巴克带矩阵确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,去噪单元505具体用于:
计算目标巴克带组成的矩阵中全部元素的平均值和方差;
将目标巴克带组成的矩阵进行预设处理后得到的矩阵,确定为目标语音信号的音频特征,其中,预设处理为对矩阵中的每个元素与平均值作差并除以方差。
基于上述本发明实施例相同构思,图6是根据一示例性实施例示出的音频信号的处理设备600的结构示意图,如图6所示,本发明实施例示出的音频信号的处理设备600包括:
处理器610;
用于存储处理器610可执行指令的存储器620;
其中,处理器610被配置为执行指令,以实现本发明实施例中音频信号的处理方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器620,上述指令可由音频信号的处理装置的处理器610执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
另外,结合图1、2、3、4所描述的本发明实施例提供的音频信号的处理方法及装置可以由音频信号的处理设备来实现。图7示出了本发明实施例提供的音频信号的处理设备结构示意图。
该音频信号的处理设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器702可以包括用于存储数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在数据处理装置的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。在特定实施例中,存储器702包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的音频信号的处理方法。
在一个示例中,该音频信号的处理设备还可包括通信接口703和总线710。其中,如图7所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将该音频信号的处理设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其它图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的音频信号的处理方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一项音频信号的处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种音频信号的处理方法,其特征在于,所述方法包括:
获取多路音频信号,所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在所述多个预设频率的幅值;
根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频。
2.根据权利要求1所述的方法,其特征在于,所述各帧音频信号的解混矩阵,采用如下步骤确定:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于所述每路音频信号中首帧音频信号的中间解混矩阵,确定所述首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于所述每路音频信号中非首帧音频信号的中间解混矩阵,确定所述非首帧音频信号的解混矩阵。
3.根据权利要求2所述的方法,其特征在于,所述确定每路音频信号中首帧音频信号的中间解混矩阵,包括:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
4.根据权利要求3所述的方法,其特征在于,所述确定每路音频信号中非首帧音频信号的中间解混矩阵,包括:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在所述多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在所述多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于所述预设矩阵以及各路音频信号中首帧音频信号在所述多个预设频率的幅值确定的。
5.根据权利要求1所述的方法,其特征在于,所述根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在所述多个预设频率的幅值,包括:
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
基于所述各帧语音信号的幅值矩阵、所述多路音频信号路数,确定每个对象的各帧语音信号在所述多个预设频率的幅值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频,包括:
基于预设转换关系,将所述每个对象的各帧语音信号在所述多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据所述每个对象的各帧语音信号,确定每个对象的语音音频。
7.根据权利要求1所述的方法,其特征在于,所述确定每个对象的语音音频之后,所述方法还包括:
基于频域与巴克域变换关系,确定目标语音信号在所述多个预设频率的幅值对应的目标巴克带,所述目标语音信号为目标对象的语音音频的任一帧语音信号,所述目标对象为所述多个对象中的任一对象;
利用确定出的目标巴克带组成的矩阵,确定所述目标语音信号的音频特征;
将所述目标语音信号的音频特征输入降噪网络模型后,得到目标语音信号对应的音噪比值矩阵;
基于所述音噪比值矩阵,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的目标语音信号在所述多个预设频率的幅值。
8.根据权利要求7所述的方法,其特征在于,所述基于所述音噪比值矩阵,确定所述目标语音信号的所述多个预设频率对应的音噪比值,以及所述目标语音信号在所述多个预设频率的幅值,确定去噪后的目标语音信号在所述多个预设频率的幅值,包括:
利用巴克域与频域变换关系,将所述音噪比值矩阵变换到频域后的矩阵确定为所述目标语音信号的降噪矩阵;
将所述目标语音信号在所述多个预设频率的幅值组成的第一矩阵,与所述目标语音信号的降噪矩阵的乘积,确定为第二矩阵,所述第二矩阵由去噪后的目标语音信号在所述多个预设频率的幅值组成的。
9.根据权利要求8所述的方法,其特征在于,所述确定去噪后的目标语音信号在所述多个预设频率的幅值之后,所述方法还包括:
基于预设转换关系,将所述去噪后的目标语音信号在所述多个预设频率的幅值,转换为去噪后的目标语音信号。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
利用所述去噪后的目标语音信号,确定所述目标对象的去噪后的语音音频。
11.根据权利要求7所述的方法,其特征在于,所述降噪网络模型采用如下步骤进行训练:
将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及所述纯噪声音频样本的音频特征、所述无噪声音频样本的音频特征作为神经网络模型的输入,将所述无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对所述神经网络进行训练;
将训练结束后的所述神经网络模型作为所述降噪网络模型;
其中,所述无噪声音频样本的音频特征是根据所述无噪声音频样本的巴克带矩阵确定的,所述纯噪声音频样本的音频特征是根据所述纯噪声音频样本的巴克带矩阵确定的。
12.根据权利要求7所述的方法,其特征在于,所述利用确定出的目标巴克带组成的矩阵,确定所述目标语音信号的音频特征,包括:
计算所述目标巴克带组成的矩阵中全部元素的平均值和方差;
将所述目标巴克带组成的矩阵进行预设处理后得到的矩阵,确定为所述目标语音信号的音频特征,其中,所述预设处理为对矩阵中的每个元素与所述平均值作差并除以所述方差。
13.一种音频信号的处理装置,其特征在于,所述装置包括:
获取单元,用于获取多路音频信号,所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
矩阵确定单元,用于基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
处理单元,用于根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定每个对象的各帧语音信号在所述多个预设频率的幅值;
语音音频确定单元,用于根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频。
14.一种音频信号的处理设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令以实现如权利要求1至12中任一项所述的音频信号的处理方法。
15.一种存储介质,其特征在于,当所述存储介质中的指令由音频信号的处理设备的处理器执行时,使得所述音频信号的处理设备能够执行如权利要求1至12中任一项所述的音频信号的处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010635457.5A CN111916075A (zh) | 2020-07-03 | 2020-07-03 | 一种音频信号的处理方法、装置、设备及介质 |
CN202110751408.2A CN113345435A (zh) | 2020-07-03 | 2021-07-02 | 一种音频降噪方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010635457.5A CN111916075A (zh) | 2020-07-03 | 2020-07-03 | 一种音频信号的处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111916075A true CN111916075A (zh) | 2020-11-10 |
Family
ID=73227376
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010635457.5A Withdrawn CN111916075A (zh) | 2020-07-03 | 2020-07-03 | 一种音频信号的处理方法、装置、设备及介质 |
CN202110751408.2A Pending CN113345435A (zh) | 2020-07-03 | 2021-07-02 | 一种音频降噪方法、装置、设备及介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110751408.2A Pending CN113345435A (zh) | 2020-07-03 | 2021-07-02 | 一种音频降噪方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111916075A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345435A (zh) * | 2020-07-03 | 2021-09-03 | 北京声智科技有限公司 | 一种音频降噪方法、装置、设备及介质 |
CN113838473A (zh) * | 2021-09-26 | 2021-12-24 | 科大讯飞股份有限公司 | 设备的语音处理方法、装置以及设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936698B (zh) * | 2021-09-26 | 2023-04-28 | 度小满科技(北京)有限公司 | 音频数据的处理方法、装置以及电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667425A (zh) * | 2009-09-22 | 2010-03-10 | 山东大学 | 一种对卷积混叠语音信号进行盲源分离的方法 |
CN106887238B (zh) * | 2017-03-01 | 2020-05-15 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
CN109285557B (zh) * | 2017-07-19 | 2022-11-01 | 杭州海康威视数字技术股份有限公司 | 一种定向拾音方法、装置及电子设备 |
CN113113039B (zh) * | 2019-07-08 | 2022-03-18 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
CN110491407B (zh) * | 2019-08-15 | 2021-09-21 | 广州方硅信息技术有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111009256B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111128221B (zh) * | 2019-12-17 | 2022-09-02 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111179960B (zh) * | 2020-03-06 | 2022-10-18 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN111916075A (zh) * | 2020-07-03 | 2020-11-10 | 北京声智科技有限公司 | 一种音频信号的处理方法、装置、设备及介质 |
-
2020
- 2020-07-03 CN CN202010635457.5A patent/CN111916075A/zh not_active Withdrawn
-
2021
- 2021-07-02 CN CN202110751408.2A patent/CN113345435A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345435A (zh) * | 2020-07-03 | 2021-09-03 | 北京声智科技有限公司 | 一种音频降噪方法、装置、设备及介质 |
CN113838473A (zh) * | 2021-09-26 | 2021-12-24 | 科大讯飞股份有限公司 | 设备的语音处理方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113345435A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113345435A (zh) | 一种音频降噪方法、装置、设备及介质 | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
DE60316704T2 (de) | Mehrkanalige spracherkennung in ungünstigen umgebungen | |
DE102014100407A1 (de) | Geräuschminderungsvorrichtungen und Geräuschminderungsverfahren | |
CN108766454A (zh) | 一种语音噪声抑制方法及装置 | |
CN1210608A (zh) | 一种有噪语音参数增强的方法和装置 | |
US9378754B1 (en) | Adaptive spatial classifier for multi-microphone systems | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
DE112009005215T5 (de) | Verfahren und Vorrichtung zur Audiosignalklassifizierung | |
US20190392848A1 (en) | Audio source separation | |
CN104505099A (zh) | 去除语音信号中已知干扰的方法和设备 | |
CN111883160A (zh) | 一种定向麦克风阵列拾音降噪方法及装置 | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
Al-Ali et al. | Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions | |
CN108899041B (zh) | 语音信号加噪方法、装置及存储介质 | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
CN110797008B (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
Agcaer et al. | Optimization of amplitude modulation features for low-resource acoustic scene classification | |
CN108766455B (zh) | 对混合信号进行降噪的方法和装置 | |
CN115410593A (zh) | 音频信道的选择方法、装置、设备及存储介质 | |
CN111477233B (zh) | 一种音频信号的处理方法、装置、设备及介质 | |
WO2022150286A1 (en) | Determining dialog quality metrics of a mixed audio signal | |
Vilouras | Acoustic scene classification using fully convolutional neural networks and per-channel energy normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201110 |
|
WW01 | Invention patent application withdrawn after publication |