CN113012700B

CN113012700B - 语音信号处理方法、装置、系统及计算机可读存储介质

Info

Publication number: CN113012700B
Application number: CN202110134378.0A
Authority: CN
Inventors: 陈文明; 陈新磊; 张洁; 张世明
Original assignee: Shenzhen Emeet Technology Co ltd
Current assignee: Shenzhen Emeet Technology Co ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-12-26
Anticipated expiration: 2041-01-29
Also published as: CN113012700A

Abstract

本发明公开了一种语音信号处理方法、装置、系统及计算机可读存储介质。方法包括：获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息；解析所述目标语音信号和所述目标角度信息，确定所述目标语音信号的声源的空间位置，根据所述目标语音的声源的空间位置判定确定所述目标语音信号的声源在不同时间段所落入的角色区分区域；根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记。实现在对语音信号分离的同时快速地对分离后的目标语音信号进行语音角色区分并进行标记，能够满足需要频繁切换语音角色的场景下的实时语音信号处理。

Description

语音信号处理方法、装置、系统及计算机可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种语音信号处理方法、装置、系统及计算机可读存储介质。

背景技术

现有技术中，现有的语音信号处理技术在识别单人语音时已经能够精确地进行识别了，但是当正在说话的用户为多人时，语音识别准确率就会极大地降低，其中一个解决方案为采用深度学习来对语音信号进行分离，但是现有的深度学习算法需要进行大量运算，从而导致增加计算时延，其中一些算法甚至只能在离线模式下才能运行，无法适用于需要实时进行语音识别的应用场景，此外，现有的处理语音信号的深度学习算法在分离语音信号后，并不能对语音信号进行有效的说话人区分，或者对用户的人数、发言位置以及发言时间有严格的要求，严重增加了用户的操作负担，用户体验不佳。

发明内容

本发明的主要目的在于提供一种语音信号处理方法，旨在解决现有技术不能实现的技术问题。

为实现上述目的，本发明提供一种语音信号处理方法，包括以下内容：

获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息，其中，所述目标角度信息为反映所述目标语音信号的声源所处的空间位置的角度信息；

解析所述目标语音信号和所述目标角度信息，确定所述目标语音信号的声源的空间位置，根据所述目标语音的声源的空间位置判定所述目标语音信号的声源在不同时间段所落入的角色区分区域；

根据所述目标语音信号在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记。

其中，所述解析所述目标语音信号和所述目标角度信息，确定所述目标语音信号的声源的空间位置，根据所述目标语音的声源的空间位置判定所述目标语音信号的声源在不同时间段所落入的角色区分区域步骤包括：

获取所述多通道混合语音信号所在的声源房间的空间信息，根据所述声源房间的空间信息预先建立角色区分平面坐标系，其中，所述角色区分平面坐标系覆盖所述声源房间；

根据所述角色区分平面坐标系，将所述声源房间均分为多个角度相等的平面区域；

将所述平面区域进行标记，生成携带序号的所述角色区分区域；

根据所述目标角度信息和所述目标语音信号携带的时序信息，确定在所述时序信息对应的时间段内，所述目标语音信号落入的角色区分区域；

对落入所述角色区分区域的所述目标语音信号进行语音角色编号标记。

其中，所述根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记步骤包括：

确定当前时间段所述目标语音信号的声源所落入的角色区分区域，获取所述当前时间段的角色区分区域序号；

对比所述当前时间段的角色区分区域和上一时间段的目标语音信号的声源所落入的角色区分区域；

若对比结果为所述当前时间段的角色区分区域序号和上一时间段的角色区分区域序号相等或序号之差的绝对值为1或0，确定所述目标语音信号在当前时间段和上一时间段所处的角色区分区域相同或相邻；

确定所述在当前时间段和所述上一时间段处于相同或相邻角色区分区域内的目标语音信号的语音角色为相同语音角色，将所述上一时间段的角色定位区域的语音角色编号分配给落入所述当前时间段的角色区分区域内的目标语音信号进行语音角色区分标记。

其中，所述根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记标记步骤包括：

确定当前时间段的所述目标语音信号的声源对应的角色区分区域，获取所述当前时间段的角色区分区域序号；

对比所述当前时间段的角色区分区域序号和上一时间段的角色区分区域序号；

若对比结果为所述当前时间段的角色区分区域序号和所述上一时间段的角色区分区域序号之差的绝对值大于1，确定所述目标语音信号在当前时间段和上一时间段所处的角色区分区域为不相邻的角色区分区域；

判定所述当前时间段的目标语音信号和上一时间段的目标语音信号的语音角色为不同语音角色，对落入所述当前时间段的角色区分区域的目标语音信号进行语音角色编号标记。

其中，所述根据所述角色区分区域在相邻时间段的变化情况对所述目标语音信号进行语音角色区分标记步骤包括：

确定所述当前时间段的所述目标语音信号对应的角色区分区域，获取所述当前时间段的角色区分区域序号；

若对比结果为上一时间段存在多个与所述当前时间段的角色区分区域相邻的角色区分区域；

调用声纹提取算法，获取所述当前时段的目标语音信号的特征向量和所述上一时段的目标语音信号的特征向量；

计算当前时间段的目标语音信号的特征向量和所述上一时间段的目标语音信号的特征向量之间的特征向量距离，获取特征向量距离最小的上一时间段的目标语音信号；

将所述特征向量距离最小的目标语音信号的语音角色编号标记分配给当前时间段的目标语音信号进行语音角色编号标记。

其中，所述获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息步骤之前，还包括：

建立语音分离模型，所述语音分离模型包括编码器和解码器；

调试所述语音分离模型，生成模拟房间，设定麦克风阵列的布置位置，在所述模拟房间的随机位置生成模拟声源；

控制所述模拟声源发出多通道混合语音信号，保存所述多通道混合语音信号中的目标训练语音和对应的目标训练角度信息，生成训练数据集。

其中，所述保存所述多通道混合语音信号中的目标训练语音和对应的目标训练角度信息，生成训练数据集步骤之后，还包括：

将收集到的所述多通道混合语音信号输入到所述语音分离模型；

调用所述语音分离模型的所述编码器和所述解码器对所述多通道混合语音信号进行分离，输出目标语音信号和对应的目标角度信息；

循环提取训练数据集中的实时目标训练语音和对应的目标训练角度信息对所述目标语音信号和所述目标角度信息进行对比，根据对比结果计算损失函数，优化所述损失函数，控制所述语音分离模型完成训练。

此外，为实现上述目的，本发明还提供一种语音信号处理设备，所述语音信号处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号处理程序，所述语音信号处理程序被所述处理器执行时实现如上述语音信号处理方法的步骤。

本发明还提供一种语音信号处理系统，所述语音信号处理系统包括：

麦克风阵列，用于实时全方位采集多通道混合语音信号；

语音信号处理装置，用于接收麦克风阵列采集到的多通道混合语音信号，将多通道混合语音信号输入训好的语音分离模型，分离得到目标语音信号和对应的目标角度信息，确定目标语音信号的声源在不同时间段所落入的角色区分区域，根据角色区分区域的落入情况对所述目标语音信号进行语音角色区分标记。

所述语音信号处理系统在执行时实现如上所述的语音信号处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音信号处理程序，所述语音信号处理程序被处理器执行时实现如上所述语音信号处理方法的步骤。

本发明实施例提出的一种语音信号处理方法，通过采集多通道混合语音信号，使用语音分离模型对多通道混合语音信号进行分离，获取目标语音信号和对应的目标角度信息，解析目标语音信号中的时域信息和目标角度信息，根据目标角度信息的解析结果获取目标语音信号的声源所处的空间位置，确定目标语音信号的声源在不同时间段内所落入的角色区分区域，通过检测角色区分区域在相邻时间段内的目标语音信号的声源落入情况判断目标语音信号的语音角色，并对目标语音信号进行语音角色区分标记。实现在对语音信号分离的同时快速地对分离后的目标语音信号进行语音角色区分并进行标记，能够有效地满足诸如采访、会议、访谈等频繁切换语音角色的场景下的语音信号处理，并且能够允许用户在语音信号采集时能够自由行动和/或增加新的语音角色，在降低用户的操作负担的同时，实现精准地对语音信号进行分离并对目标语音信号进行语音角色区分，提高了用户的使用体验的有益效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的语音信号处理装置结构示意图；

图2为本发明第一实施例的流程示意图；

图3为本发明第二实施例的流程示意图；

图4为本发明第三实施例的流程示意图；

图5为本发明第一实施例中涉及的角色区分平面坐标系的其中一种构建示意图；

图6为本发明第一实施例中的场景示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息，其中，所述目标角度信息为反映所述目标语音信号的声源所处的空间位置的角度信息；解析所述目标语音信号和所述目标角度信息，确定所述目标语音信号的声源的空间位置，根据所述目标语音的声源的空间位置判定所述目标语音信号的声源在不同时间段所落入的角色区分区域；根据所述目标语音信号在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记。实现在对语音信号分离的同时快速地对分离后的目标语音信号进行语音角色区分并进行标记，能够有效地满足诸如采访、会议、访谈等频繁切换语音角色的场景下的语音信号处理，并且能够允许用户在语音信号采集时能够自由行动和/或增加新的语音角色，在降低用户的操作负担的同时，实现精准地对语音信号进行分离并对目标语音信号进行语音角色区分，提高了用户的使用体验的有益效果。

参照图1，图1为本发明语音信号处理方法实施例方案涉及的硬件运行环境的语音信号处理装置的结构示意图。

如图1所示，语音信号处理装置可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选的，语音信号处理装置还可以包括调谐解调器、回传通道、RF(RadioFrequency，射频)电路，传感器、音频电路等等。

本领域技术人员可以理解，图1中示出的语音信号处理装置结构并不构成对语音信号处理装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音信号处理程序。

在图1所示的语音信号处理装置中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音信号处理程序，并执行以下操作：

根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记。

基于上述语音信号处理装置硬件结构，提出本发明语音信号处理方法的各个实施例。

参照图2，图2是本发明语音信号处理方法第一实施例的流程示意图。

本实施例中，语音信号处理方法包括：

步骤S101：获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息；

本实施例中，语音信号处理装置为运行有语音分离模型的智能终端。麦克风阵列采集多个语音角色所发出的多通道混合语音信号，将采集到的多通道混合语音信号发送语音信号处理装置进行语音信号处理。具体的，麦克风阵列为全向麦克风阵列，包含多个麦克风，可选的，麦克风阵列可以为4个麦克风以不同朝向圆环设置的麦克风组合形式，也可以是4+1个麦克风组合形式，其中，4+1个麦克风组合形式为中间设置1个麦克风，其余4个麦克风以不同朝向圆环设置。还可以是6+1个麦克风组合等组合形式。该麦克风阵列能够以360度全向地采集多通道混合语音信号，以克服单一麦克风由于存在指向性，不能360度全向采集语音信号的问题。通过麦克风阵列实现在任何角度都能够有效均匀地采集多通道混合语音信号。在通过麦克风阵列采集到多通道混合语音信号后，麦克风阵列将采集到的多通道混合语音信号发送到语音信号处理装置中，语音信号处理装置调用训练完成的语音分离模型对多通道混合语音信号进行分离处理，分离出多混合语音信号中包含的多个目标语音信号和每个目标语音信号对应的目标角度信息。其中，目标语音信号为存在多个语音角色发言的应用环境下，通过语音分离模型从多通道混合语音信号中剥离出的单个语音角色声源所发出的时域语音信号，其中，在一实施例中，语音角色声源为参加会议的说话人。

具体的，语音信号处理装置在首次调用语音分离模型对多通道混合语音信号进行分离处理之前，需要预先创建语音分离模型，并对语音分离模型进行训练，直到语音分离模型收敛，完成训练。

具体的，本实施例中所提出的语音分离模型为监督式学习模型，具体包括由卷积神经网络构成的编码器和同样由卷积神经网络构成的解码器。

可选的，在生成语音分离模型后，需要对生成的语音分离模型进行训练。语音信号处理装置调用语音分离模型对应的训练软件，生成若干个模拟房间，其中，该模拟的房间为具有一定尺寸和冲击响应的虚拟房间。可选的，在一实施例中，每个模拟房间之间的尺寸和冲击响应均不相同。在模拟房间生成后，在该模拟房间中添加虚拟麦克风阵列，并对应设定虚拟麦克风阵列的空间位置。可选的，在一实施例中，设置的模拟房间的房间类型为会议室，对应设置虚拟麦克风阵列的空间位置为该模拟房间的正中央。虚拟麦克风阵列设置完成后，语音信号处理装置在该模拟房间的随机位置生成模拟声源，并控制该模拟声源播放真实语音。位于模拟房间中的虚拟麦克风阵列采集包括该模拟声源所播放的真实语音以及干扰语音所混合形成的多通道混合语音信号。可选的，在这一阶段，语音信号处理装置还保存模拟声源生成的目标训练语音和该模拟声源对应的目标训练角度信息，并将获取到的目标训练语音和对应的目标训练角度信息输入到数据库中，生成训练数据库。其中，目标训练语音为模拟声源所发出的未与噪声信号叠加的干净样本语音。其中，目标训练角度信息为反映该目标训练语音信号的模拟声源所处的模拟房间的空间位置的角度信息。

本实施例中，在生成训练数据库后，语音信号处理装置对生成的语音分离模型进行训练，将虚拟麦克风采集到的多通道混合语音信号输入到语音分离模型中的编码器中，语音分离模型将多混合语音信号映射为高维特征表示，将映射后的多混合语音信号输入语音分离模型中的解码器中，输出语音分离模型估计的目标语音信号和对应的目标角度信息。输出估计的目标语音信号和对应的目标角度信息后，语音信号处理装置调用训练数据库，向语音分离模型发送目标训练语音和对应的目标训练角度信息，根据目标训练语音信号和语音分离模型所估计的目标语音信号进行对比，从而计算得到损失函数，循环训练语音分离模型，根据循环输出的估计的目标语音信号和目标训练语音信号的计算结果对损失函数进行优化，直到语音分离模型收敛，语音分离模型保存优化后的损失函数，语音分离模型完成语音分离训练。

在语音分离模型完成语音分离训练后，语音信号处理装置响应用户发出的语音信号处理请求，调用麦克风阵列采集若干个语音角色所发出的多通道混合语音信号，并接收麦克阵列采集到的多通道混合语音信号。语音信号处理装置在接收到该混合语音信号后，输入到训练后的语音分离模型，控制语音分离模型中的编码器和解码器进行语音分离操作，通过语音分离模型中的解码器剔除多通道混合语音信号中的干扰噪声信号，输出多通道混合语音信号中分离出的若干个目标语音信号和每个目标语音信号对应的目标角度信息。其中，目标语音信号是麦克风阵列所采集到的语音角色所发出的时序语音信号。目标角度信息为反映所述目标语音信号的声源所处的空间位置的角度信息。在一具体实施例中，语音角色声源为当前语音环境下的说话人。

可选的，语音信号处理装置接收分离后的若干个目标语音信号和对应的目标角度信息，调用语音角色区分模块对分离后的目标语音信号进行语音角色区分标记。

步骤S201：解析所述目标语音信号和所述目标角度信息，确定所述目标语音信号的声源的空间位置，根据所述目标语音的声源的空间位置判定确定所述目标语音信号的声源在不同时间段所落入的角色区分区域；

本实施例中，语音信号处理装置在上电启动后，预先获取麦克风阵列所处的声源房间的空间信息，即麦克风阵列后续采集多混合语音信号所在的声源房间的空间信息，根据该空间信息建立角色区分平面坐标系，可选的，在一实施例中，该角色区分平面坐标系为以麦克风阵列为原点的平面直角坐标系；在另一实施例中，该角色区分平面坐标系也可以为以声源房间的相邻墙体垂直连接处的交点为原点所建立的平面直角坐标系。

在平面坐标系建立完成后，语音信号处理装置将该平面坐标系划分为若干个携带序号的，角度相等的角色区分区域。可选的，在一具体实施例中，该角色区分平面坐标系为以麦克风阵列为原点的平面直角坐标系，语音信号处理装置将该平面坐标系平均划分为12个角色区分区域，每个角色区分区域为角度为30°的平面区域，语音信号处理装置从X轴为起点，逆时针对角色区分区域进行排序编号。可选的，也可以根据其它顺序对角色区分区域进行排序编号。

语音信号处理装置根据预先构建的平面坐标系和角色区分区域对语音分离模型分离出的目标语音信号进行语音角色区分标记。

具体的，语音信号处理装置解析语音分离模型所分离出的目标语音信号和对应的目标角度信息。其中，目标语音信号为时序语音信号，因此，语音信号处理装置能够解析目标语音信号并获取该目标语音信号的时间信息，即分离后的目标语音信号在某一时间段内的语音信号和对应的目标角度信息。语音信号处理装置解析语音分离模型分离出的目标语音信号的时间信息后，获取不同时间段内的若干目标语音信号和对应的目标角度信息。确定所述的若干目标语音信号的声源所处的空间位置，将相同时间段内的目标语音信号的声源空间位置输入到该时间段的平面坐标系，确定在该时间段内存在的目标语音信号以及该目标语音信号的声源所落入的角色区分区域。

可选的，语音信号处理装置为确保目标语音信号角色区分的有效性，所预设的时间段为1～2秒，也可以根据实际使用需求，对应设置时间段的区间长度。

可选的，语音信号处理装置在确定某一时间段内存在的目标语音信号以及该目标语音信号的声源所落入的角色区分区域后，激活该角色区分区域，记录该时间段内被激活的角色区分区域，并对落入该角色区分区域内的目标语音信号进行语音角色编号，并生成并存储角色区分键值对。具体的，角色区分键值对组成为{角色区分区域序号，语音角色编号}。

可选的，在一实施例中，语音信号处理装置获取到的某一时间段内存在两个目标语音信号，因此确定该时间段内存在两个语音角色声源，其中一个目标语音信号的声源落入的角色区分区域为第一角色区分区域，该第一角色区分区域被激活，语音角色区分摸块对该落入第一角色区分区域的目标语音信号进行语音角色编号，将该目标语音信号标记为第一语音角色，并生成该目标语音角色在该时间段内的角色区分键值对，即{1，1}。具体的，语音角色区分摸块识别另一个目标语音信号的声源在该时段内落入的角色区分区域为第四角色区分区域，该第四角色区分区域被激活，语音信号处理装置对该落入第四角色区分区域内的目标语音信号进行语音角色编号，将该目标语音信号标记为第二语音角色，生成落入第四角色区分区域内的目标语音信号的角色区分键值对为{4,2}。

步骤S301：根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记。

本实施例中，语音信号处理装置解析语音分离模型所分离出的若干目标语音信号和对应的目标角度信息后，获取当前时间段和上一时间段中存在的目标语音信号以及目标语音信号的声源所落入的角色区分区域。并调用语音角色区分模块使用语音角色区分策略对目标语音信号进行角色区分。具体的，本实施例所采用的语音角色区分策略为根据实际应用场景可知，在相邻的预设时间段内，每个时间段的时长为1～2秒，即使语音角色在相邻的实际段内存在移动，也应该是在相邻区域的区域内移动，因此，若相邻时间段内存在被激活的相邻或相同的角色区分区域，确定在相邻时间段内落入该角色区分区域的目标语音信号为同一语音角色声源所发出的语音信号。

具体的，语音信号处理装置获取上一时间段的角色区分键值对，并获取当前时间段中目标语音信号的声源所落入的角色区分区域信息，获取当前时间段目标语音信号所落入的角色区分区域序号。提取角色区分键值对中上一时间段内目标语音信号所落入的角色区分区域序号。对比当前时间段的角色区分区域序号和上一时间段的角色区分区域序号，计算当前时间段的角色区分区域序号和上一时间段的角色区分区域序号的绝对值之差。

具体的，若计算结果为当前时间段的角色区分区域序号和上一时间段的角色区分区域序号的绝对值之差等于1，确定当前时间段的角色区分区域和上一时间段的角色区分区域为相邻的角色区分区域；

若计算结果为当前时间段的角色区分区域序号和上一时间段的角色区分区域序号的绝对值之差等于0，确定当前时间段的角色区分区域和上一时间段的角色区分区域为相同的角色区分区域。

具体的，若语音信号处理装置确定当前时间段的角色区分区域和上一时间段的某一个角色区分区域为相邻或相同的角色区分区域，标记当前时间段和上一时间段的对应角色区分区域内的目标语音信号的语音角色声源为相同语音角色声源，将上一时间段该目标语音信号的角色区分键值对中的语音角色编号赋予当前时段的目标语音信号，形成当前时间段的语音角色区分键值对。在后续对目标语音信号进行进一步处理时根据语音角色区分健值对，能够快速区分在某一时间段的目标语音的语音角色声源。

具体的，在一实施例中，语音信号处理装置获取的上一时间段存在两个角色区分键值对，分别为{1，1}和{6,2}。在当前时间段存在两个目标语音信号，所述的两个目标语音信号的声源分别落入的角色区分区域为第二角色区域和第四角色区域，预设两个目标语音信号的角色区分健值对分别为{2，x}和{6，y}分别将当前目标语音信号所激活的角色区分区域序号与上一时间段所激活的角色区分区域序号进行对比，获取各角色区分区域之间的距离。

具体的，计算角色区分键值对为{2，x}的目标语音信号所落入的角色区分区间和上一时间段的目标语音信号所落入的角色区分区间之间的距离。其中，计算结果分别为1和4，因此，确定当前角色区分键值对为{2，x}的目标语音信号所落入的角色区分区间与上一时间段的角色区分健值对为{1，1}的目标语音信号所落入的角色区分区间相邻，判定当前角色区分键值对为{2，x}的目标语音信号和上一时间段的角色区分健值对为{1，1}的目标语音信号为相同语音角色声源，将上一时间段的角色区分健值对为{1，1}中的语音角色编号1替换当前时段对应的目标语音信号的角色区分键值对的语音角色编号，形成新的角色区分键值对为{2,1}。

计算角色区分键值对为{6，y}的目标语音信号所落入的角色区分区间和上一时间段的目标语音信号所落入的角色区分区间之间的距离。其中，计算结果分别为5和0，因此，确定当前角色区分键值对为{6，y}的目标语音信号所落入的角色区分区间与上一时间段的角色区分健值对为{6，2}的目标语音信号所落入的角色区分区间相同，判定当前角色区分键值对为{6，y}的目标语音信号和上一时间段的角色区分健值对为{6，2}的目标语音信号为相同语音角色声源，将上一时间段的角色区分健值对为{6，2}中的语音角色编号2替换当前时段对应的目标语音信号的角色区分键值对的语音角色编号，形成新的角色区分键值对为{6,2}。

本实施例中，通过获取麦克风阵列采集到的多混合语音信号，调用语音分离模型分离获取多混合语音信号中携带的目标语音信号，在分离过程中无需进行时频转换，从而减少了分离计算量，并根据目标语音信号的时序信息和对应目标角度信息，确定目标语音信号的声源在不同时间段内所落入的角色区分区域，并根据相邻时间段落入的角色区分区域对目标语音信号进行语音角色区分标记，实现无需限定语音角色发言的位置、人数，仅需训练一个模型即可对语音信号进行分离和语音角色区分标记，有效减少了计算要求，提高了运行效率，能够满足实时性要求较高的语音信号处理场合，减少了用户的额外操作负担，提高了用户的操作体验。

参照图3，图3为本本发明语音信号处理方法第二实施例的流程示意图。

基于语音信号处理方法第一实施例，提出语音信号处理方法第二实施例。

本发明语音信号处理方法第二实施例包括以下步骤：

步骤S310：确定所述当前时间段的所述目标语音信号对应的角色区分区域，获取所述当前时间段的角色区分区域的序号；

步骤S311：对比所述当前时间段的角色区分区域序号和上一时间段的角色区分区域序号；

步骤S312：若对比结果为所述当前时间段的角色区分区域序号和所述上一时间段的角色区分区域序号之差的绝对值大于1，确定所述目标语音信号在当前时间段和上一时间段所处的角色区分区域为不相邻的角色区分区域；

步骤S313：判定所述当前时间段所处的角色区分区域和上一时间段的角色区分区域不相邻的目标语音信号的语音角色为不同语音角色，对落入所述当前时间段的角色区分区域的目标语音信号进行语音角色编号标记。

本实施例中，语音信号处理装置所运行的语音分离模型将多混合语音信号进行分离，获取目标语音信号和对应的目标角度信息后，将目标语音信号和对应的目标角度信息输入语音角色区分模块进行语音区分处理，确定当前时间段内的目标语音信号的声源所落入的角色区分区域，获取当前时间段的目标语音信号所落入的角色区分区域的序号。

在获取当前时间段的目标语音信号的声源所落入的角色区分区域的序号后，语音信号处理装置继续获取上一时间段角色区分键值对，提取角色区分键值对中携带的上一时间段内全体目标语音信号所落入的角色区分区域序号。对比当前时间段的角色区分区域序号和上一时间段的角色区分区域序号，计算当前时间段的角色区分区域序号和上一时间段的角色区分区域序号的绝对值之差。

本实施例中，若当前时间段的角色区分区域序号和上一时间段的角色区分区域序号的绝对值之差大于1，语音信号处理装置确定当前时段的目标语音信号和上一时段的目标语音信号所处的角色区分区域为不相邻的角色区分区域。具体的，语音角色区分模块继续回溯与上一时间段的相邻的历史时间段的目标语音信号的角色区分健值对，提取该角色区分键值对中的角色区分序号，将该角色区分序号与当前时间段的目标语音信号的角色区分区域序号进行对比。若当前时间段的角色区分区域序号和与上一时间段相邻的历史时间段的角色区分区域序号的绝对值之差仍然大于1，确定当前时间段的目标语音信号的声源和前两个时间段的目标语音信号的声源所处的角色区分区域均不相邻。语音角色区分模块判定当前时间段的目标语音信号和所对比的两个时间段内的目标语音信号的语音角色声源为不同的语音角色声源。语音角色区分模块确定当前时间段的该目标语音信号的语音角色为新的说话人角色，使用新语音角色编号对该目标语音信号进行标记，生成对应的角色区分键值对。

可选的，在一具体实施例中，语音分离模型所分离出的目标语音信号在第三时间段所落入的角色区分区域为第八角色区分区域，语音角色区分模块预设该目标语音信号的角色区分健值对为{8，z}。语音角色区分模块回溯与第三时间段相邻的上一时间段，即第二时间段内的目标语音信号的角色区分键值对，上一时间段存在两个目标语音信号，因此，存在两个对应的角色区分键值对，分别是{1,1}和{5,2}，计算第三时间段的目标语音信号对应的角色区分区域序号和第二时间段的目标语音信号的角色区分区域序号绝对值之差，计算结果为7和3，确定第三时间段的目标语音信号所落入的角色区分区域与第二时间段的目标语音信号所落入的角色区分区域并不相邻。为确保角色区分的准确性，语音区分模块回溯与第二时间段相邻且早于第二时间段的第一时间段，获取第一时间段内的角色区分健值对，具体的，第一时间段存在两个目标语音信号，对应的目角色区分键值对为{2,1}和{5,2}，继续计算第三时间段的目标语音信号对应的角色区分区域序号和第一时间段的目标语音信号的角色区分区域序号绝对值之差，计算结果为6和3，确定第三时间段的目标语音信号的声源所落入的角色区分区域与第二时间段的目标语音信号的声源所落入的角色区分区域并不相邻，语音角色区分模块判定第三时间段的目标语音信号的语音角色声源为新的说话人，对应标记新的语音角色编号3，生成第三时间段的该目标语音信号的对应角色区分键值对{8,3}。

本实施例中，语音角色区分模块通过获取语音分离模型所分离的目标语音信号和对应的目标角度信息，根据目标语音信号所携带的时间信息确定当前时间段内的目标语音信号所落入的角色区分区域，并与上一时间段的全体目标语音信号所落入的角色区分区域，在确定当前时间段内的目标语音信号所落入的角色区分区域与上一时间段所激活的角色区分区域均不相邻时，判定当前时间段的目标语音信号为新的语音角色声源所发出的语音信号，对当前时间段的该目标语音信号进行新语音角色编号标记。本实施例能够快速识别新的语音角色，使得在实际使用中，无需对说话人数进行限制，降低了用户的使用负担，提高了用户的使用体验。

参照图4，图4为本发明语音信号处理方法第三实施例的流程示意图。

基于上述实施例，提出本发明语音信号处理方法第三实施例。

本实施例中，语音信号处理方法还包括：

步骤S320：确定所述当前时间段的所述目标语音信号对应的角色区分区域，获取所述当前时间段的角色区分区域的序号；

步骤S321：对比所述当前时间段的角色区分区域序号和上一时间段的角色区分区域序号；

步骤S322：若对比结果为上一时间段存在多个与所述当前时间段的角色区分区域相邻的角色区分区域；

步骤S323：调用声纹提取算法，获取所述当前时段的目标语音信号的特征向量和所述上一时段的目标语音信号的特征向量；

步骤S324：计算所述当前时间段的目标语音信号的特征向量和上述上一时间段的目标语音信号的特征向量之间的特征向量距离，确定特征向量距离最小的上一时间段的目标语音信号，将所述特征向量距离最小的目标语音信号的语音角色编号标记分配给当前时间段的目标语音信号进行语音角色编号标记。

本实施例中，语音信号处理装置所运行的语音分离模型将多混合语音信号进行分离，获取目标语音信号和对应的目标角度信息后，将目标语音信号和对应的目标角度信息输入语音角色区分模块进行语音区分处理，确定当前时间段内的目标语音信号的声源所落入的角色区分区域，获取当前时间段的目标语音信号的声源所落入的角色区分区域的序号。

在获取当前时间段的目标语音信号所落入的角色区分区域的序号后，语音信号处理装置继续获取上一时间段角色区分键值对，提取角色区分键值对中携带的上一时间段内全体目标语音信号所落入的角色区分区域序号。对比当前时间段的角色区分区域序号和上一时间段的角色区分区域序号，计算当前时间段的角色区分区域序号和上一时间段的角色区分区域序号的绝对值之差。

本实施例中，若当前时间段的角色区分区域序号和上一时段的角色区分区域序号存在多个绝对值之差等于1的计算结果。即存在多个和当前时间段的角色区分区域所相邻的上一时间段所激活的角色区分区域。如在一具体实施例中，当前时间段的目标语音信号所激活的角色区分区域为第五角色区分区域，上一时间段的目标语音信号所激活的角色区分区域为第四角色区分区域和第六角色区分区域。此时，仅凭借目标语音信号和对应的目标角度信息无法准确区分两个时间段的目标语音信号的语音角色声源。

基于此，语音角色区分模块调用声纹提取算法，根据该声纹提取算法获取当前时间段的目标语音信号的特征向量和上一时间段内与当前时间段的目标语音信号所落入的角色区分区域相邻的两个目标语音信号的特征向量。分别计算当前时间段的目标语音信号的特征向量和上一时间段的目标语音信号的特征向量之间的特征向量距离，可选的，在一实施例中，所计算的特征向量距离为欧式距离。语音角色区分模块选取与当前时间段的特征向量距离最短的上一时间段的目标语音信号，判定该上一时间段的目标语音信号和当前时间段的目标语音信号为同一语音角色声源所发出的语音信号，将上一时间段的目标语音信号的语音角色编号分配给当前时间段的该目标语音信号，生成该目标语音信号的角色区分键值对，完成对当前时间段的该目标语音信号的语音角色区分。

本实施例中，通过获取语音分离模型所分离出的目标语音信号的时序信息和目标角度信息进行语音角色区分，当存在多个相邻的角色区分区域时，此时根据目标语音信号的目标角度信息无法准确有效地识别语音角色声源，因此引入了声纹提取方法，预先通过目标角度信息确定上一时间段所激活的与当前时间段所激活的角色区分区域相邻的多个角色区分区域，并获取对应的目标语音信号，调用声纹提取算法分别计算上一时间段对应的目标语音信号和当前时间段的目标语音信号之间的特征向量距离，从而进行语音角色区分判定。实现使用语音分离模型分离目标语音信号的同时对分离后的目标语音信号进行语音角色区分操作，同时有效地减少了语音角色区分操作的计算量，降低了语音信号处理的配置要求。

此外，为实现上述实施例，本申请还提供一种语音信号处理系统，该语音信号处理系统包括语音信号处理装置和麦克风阵列。

其中，麦克风阵列，用于实时全方位采集多通道混合语音信号；

语音信号处理装置，用于接收麦克风阵列采集到的多通道混合语音信号，将多通道混合语音信号输入训好的语音分离模型，分离得到目标语音信号和对应的目标角度信息，根据目标语音信号和目标角度信息确定目标语音信号的声源在不同时间段所落入的角色区分区域，根据角色区分区域的落入情况对所述目标语音信号进行语音角色区分标记。

具体的，语音信号处理系统在执行时实现如上语音信号处理方法的任意步骤。

此外，本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有语音信号处理程序，语音信号处理程序被处理器执行时实现如上述语音信号处理方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、药品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、药品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、药品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音信号处理方法，其特征在于，所述语音信号处理方法包括以下步骤：

获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息_，其中，所述目标角度信息为反映所述目标语音信号的声源所处的空间位置的角度信息；

将所述平面区域进行标记，生成携带序号的角色区分区域；

对落入所述角色区分区域的所述目标语音信号进行语音角色编号标记；

2.如权利要求1所述的语音信号处理方法，其特征在于，所述根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记步骤包括：

3.如权利要求1所述的语音信号处理方法，其特征在于，所述根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标步骤包括：

4.如权利要求1所述的语音信号处理方法，其特征在于，所述根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记步骤包括：

确定当前时间段的所述目标语音信号对应的角色区分区域，获取所述当前时间段的角色区分区域序号；

调用声纹提取算法，获取所述当前时间段的目标语音信号的特征向量和所述上一时间段的目标语音信号的特征向量；

计算所述当前时间段的目标语音信号的特征向量和所述上一时间段的目标语音信号的特征向量之间的特征向量距离，获取特征向量距离最小的上一时间段的目标语音信号；

5.如权利要求1所述的语音信号处理方法，其特征在于，所述获取多通道混合语音信号，将所述多通道混合语音信号输入语音分离模型，分离得到目标语音信号和对应的目标角度信息步骤之前，还包括：

6.如权利要求5所述的语音信号处理方法，其特征在于，所述保存所述多通道混合语音信号中的目标训练语音和对应的目标训练角度信息，生成训练数据集步骤之后，还包括：

7.一种语音信号处理装置，其特征在于，所述语音信号处理装置包括存储器、处理器及存储在存储器上并可在处理器上运行的语音信号处理程序，所述处理器执行所述语音信号处理程序时实现如权利要求1-6任一项所述的语音信号处理方法的步骤。

8.一种语音信号处理系统，其特征在于，所述语音信号处理系统包括：

麦克风阵列，用于实时全方位采集多通道混合语音信号；

语音信号处理装置，用于接收麦克风阵列采集到的多通道混合语音信号，将多通道混合语音信号输入训好的语音分离模型，分离得到目标语音信号和对应的目标角度信息，其中，所述目标角度信息为反映所述目标语音信号的声源所处的空间位置的角度信息；

还用于获取所述多通道混合语音信号所在的声源房间的空间信息，根据所述声源房间的空间信息预先建立角色区分平面坐标系，其中，所述角色区分平面坐标系覆盖所述声源房间；

还用于根据所述角色区分平面坐标系，将所述声源房间均分为多个角度相等的平面区域；

还用于将所述平面区域进行标记，生成携带序号的角色区分区域；

还用于根据所述目标角度信息和所述目标语音信号携带的时序信息，确定在所述时序信息对应的时间段内，所述目标语音信号落入的角色区分区域；

还用于对落入所述角色区分区域的所述目标语音信号进行语音角色编号标记；

还用于根据所述目标语音信号的声源在相邻时间段所落入的角色区分区域对所述目标语音信号进行语音角色区分标记。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音信号处理程序，所述语音信号处理程序被处理器执行时实现如权利要求1至6任一项所述的语音信号处理方法的步骤。