CN117012202A

CN117012202A - 语音通道识别方法、装置、存储介质及电子设备

Info

Publication number: CN117012202A
Application number: CN202311277181.8A
Authority: CN
Inventors: 鲁勇; 李逸洋; 张新科; 崔潇潇; 苏悦
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117012202B

Abstract

本申请公开了一种语音通道识别方法、装置、存储介质及电子设备，其中，该语音通道识别方法包括获取当前频域信号；对当前频域信号进行盲源分离，得到各信号通道的当前分离信号；获取当前分离信号的总频域能量和当前声纹特征；根据总频域能量和当前声纹特征计算当前分离信号的综合得分；基于综合得分从各信号通道中确定语音通道。本方案可以提高对语音通道识别的准确性。

Description

语音通道识别方法、装置、存储介质及电子设备

技术领域

本申请涉及音频处理技术领域，具体涉及一种语音通道识别方法、装置、存储介质及电子设备。

背景技术

随着社会进步和科技发展，语音逐渐成为了一种便捷的人机交互方式，越来越多的家庭拥有了具有语音交互功能的智能设备。

但在智能家居场景中，往往同时存在多个声源，智能设备接收到的语音信号通常会受到噪声、混响等环境因素的影响，导致智能设备出现对语音通道识别不准确及语音识别结果不理想的问题，严重影响用户体验。

发明内容

本申请实施例提供了一种语音通道识别方法、装置、存储介质及电子设备，可以提高对语音通道的识别准确性。

获取当前频域信号；

对所述当前频域信号进行盲源分离，得到各信号通道的当前分离信号；

获取所述当前分离信号的总频域能量和当前声纹特征；

根据所述总频域能量和所述当前声纹特征计算所述当前分离信号的综合得分；

基于所述综合得分从各信号通道中确定语音通道。

在本申请实施例提供的语音通道识别方法中，所述根据所述总频域能量和所述当前声纹特征计算所述当前分离信号的综合得分，包括：

对所述总频域能量进行归一化处理，生成所述当前分离信号的能量得分；

将所述当前声纹特征与预设声纹数据库进行匹配，得到所述当前分离信号的声纹得分；

对所述能量得分和所述声纹得分进行综合处理，得到所述当前分离信号的综合得分。

在本申请实施例提供的语音通道识别方法中，所述将所述当前声纹特征与预设声纹数据库进行匹配，得到所述当前分离信号的声纹得分，包括：

将所述当前声纹特征分别与所述预设声纹数据库中的多个用户声纹特征进行匹配，生成多个声纹匹配度；

将多个所述声纹匹配度进行比较，并根据比较结果生成所述当前分离信号的声纹得分。

在本申请实施例提供的语音通道识别方法中，所述将多个所述声纹匹配度进行比较，并根据比较结果生成所述当前分离信号的声纹得分，包括：

将多个所述声纹匹配度转换分别转换为声纹得分；

确定多个所述声纹得分中的声纹得分最高的目标声纹得分；

对所述目标声纹得分进行归一化处理，生成所述当前分离信号的声纹得分。

在本申请实施例提供的语音通道识别方法中，所述基于所述综合得分从各信号通道中确定语音通道，包括：

确定多个所述当前分离信号中综合得分最高的目标当前分离信号；

获取所述目标当前分离信号的数量；

基于所述目标当前分离信号的数量从各信号通道中确定语音通道。

在本申请实施例提供的语音通道识别方法中，所述基于所述目标当前分离信号的数量从各信号通道中确定语音通道包括：

当所述目标当前分离信号的数量为1时，直接将所述目标当前分离信号对应的信号通道作为语音通道；

当所述目标当前分离信号的数量大于1时，获取所述目标当前分离信号的语音存在概率；

将语音存在概率最大的所述目标当前分离信号对应的信号通道作为语音通道。

在本申请实施例提供的语音通道识别方法中，所述获取当前频域信号，包括：

获取当前音频帧，并将所述当前音频帧转换为对应的当前频域信号。

第二方面，本申请实施例提供了一种语音通道识别装置，包括：

第一获取单元，用于获取当前频域信号；

盲源分离单元，用于对所述当前频域信号进行盲源分离，得到各信号通道的当前分离信号；

第二获取单元，用于获取所述当前分离信号的总频域能量和当前声纹特征；

综合得分单元，用于根据所述总频域能量和所述当前声纹特征计算所述当前分离信号的综合得分；

通道确定单元，用于基于所述综合得分从各信号通道中确定语音通道。

第三方面，本申请提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述任一项所述的语音通道识别方法。

第四方面，本申请提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述任一项所述的语音通道识别方法。

综上所述，本申请实施例提供的语音通道识别方法包括获取当前频域信号；对所述当前频域信号进行盲源分离，得到各信号通道的当前分离信号；获取所述当前分离信号的总频域能量和当前声纹特征；根据所述总频域能量和所述当前声纹特征计算所述当前分离信号的综合得分；基于所述综合得分从各信号通道中确定语音通道。本方案可以排除环境因素对语音通道的影响，进而提高对语音通道识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音通道识别方法的流程示意图。

图2是本申请实施例提供的声纹特征提取模型的结构示意图。

图3是本申请实施例提供的语音通道识别装置的结构示意图。

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

在本申请的描述中，需要说明的是，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，“第一”、“第二”等术语仅用于描述目的，而不能理解为指示或暗示相对重要性。

在智能家居场景中，往往同时存在多个声源，智能设备接收到的语音信号通常会受到噪声、混响等环境因素的影响，导致智能设备出现对语音通道识别不准确及语音识别结果不理想的问题，严重影响用户体验。

基于此，本申请实施例提供了一种语音通道识别方法、装置、存储介质及电子设备，具体的，该语音通道识别装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、以及个人计算机（Personal Computer，PC）等；该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群，可以是实体的服务器，也可是虚拟服务器。

以下将通过具体实施例分别对本申请所示的技术方案进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

请参阅图1，图1是本申请实施例提供的语音通道识别方法的流程示意图。该语音通道识别方法的具体流程可以如下：

101、获取当前频域信号。

具体的，可以获取当前音频帧，并将当前音频帧转换为对应的当前频域信号。在具体实施过程中，可以通过电子设备的麦克风阵列采集当前语音信号。之后，再对该当前语音信号进行分帧处理，从而得到待处理的当前音频帧。其中，分帧处理可以是按照固定的时间长度对语音信号进行分帧，然后对每一帧数据进行封装，就可以得到至少一个待处理的当前音频帧。每一待处理的当前音频帧可以包括整个音频频段，也可以包括部分音频频段。之后，可以对该当前音频帧依次进行加窗和傅里叶变化等处理，从而将该当前音频帧由时域信号转换为对应的频域信号。可以理解的是，当前音频帧为多通道的音频帧。

需要说明的是，麦克风阵列可以是规则阵列，如线阵、面阵、圆阵和立体阵等阵列形式，也可以是不规则阵列；麦克风阵列的麦克风通道数至少为两个；麦克风阵列的结构信息（阵列构型和麦克风间距）已知。麦克风阵列接收到的语音信号包含设备本机噪音、外界干扰、还有可能包含用户语音指令。用户语音指令指的是在智能家居场景下，用户可以通过唤醒词唤醒设备，也可以通过命令词使设备执行相应操作。

比如，假设麦克风阵列共有个麦克风，第/>个麦克风的坐标为，其中，/>、/>和/>分别表示第/>个麦克风的横坐标、纵坐标和竖坐标。此时，对麦克风阵列接收到的/>个通道时域信号（当前语音信号）分别进行分帧、加窗和傅里叶变换，将多通道时域信号（当前语音信号）转换为对应的当前频域信号，具体可以如下：

其中，表示麦克风阵列第/>个麦克风通道在第/>帧、第/>个频点的频域信号；若采样率为/>，帧长为/>，帧移为/>，窗长为/>，傅里叶变换点数为/>，那么对应的频域信号共有/>个频点，频率间隔为/>，/>表示转置操作。需要说明的是，加窗时窗函数可选汉明窗、汉宁窗等常用窗函数。

102、对当前频域信号进行盲源分离，得到各信号通道的当前分离信号。

可以理解的是，麦克风阵列接收到的当前语音信号是包含本机噪音、外界干扰以及用户语音指令等分量在内的混合信号。若直接对该原始混合信号进行语音识别，则有可能因为在噪声环境中信噪比不高，导致识别率较低，十分影响用户体验。因此，在噪声环境中，有必要对原始信号进行语音增强或降噪处理。而盲源分离可以将混合在一起的多个源信号分离成多个单独的信号信号通道。也就是说，经过盲源分离算法处理后，用户语音指令分量将被分离成一个信号信号通道，该信号通道的设备本机噪音、外界干扰将明显减少。同样，设备本机噪音、外界干扰等分量将被分离成其他信号信号通道，其他信号信号通道的用户语音指令将被减弱。显然，由于语音信号通道主要包含用户语音指令，因此对语音信号通道进行语音识别，在噪声环境中的识别率便可以得到提高，从而改善用户使用体验。

需要说明的是，盲源分离算法包括但不限于独立成分分析（IndependentComponent Analysis，ICA）类、独立向量分析（ Independent Vector Analysis，IVA）类、非负矩阵分解（ Non-negative Matrix Factorization，NMF）类等算法。在具体实施过程中，可以根据麦克风阵列信号通道数与分离信号信号通道数的关系，将盲源分离的信号模型划分为正定模型、超定模型以及欠定模型。通常，一般设置为麦克风信号通道数与分离信号信号通道数相等的正定模型。

根据实现方式的不同，可以将盲源分离划分为批处理的离线处理方式，以及实时处理的在线处理方式，但对于批处理而言，需要缓存一定时长的多信号通道的原始信号，不适合有实时处理需求的应用场景。因此，本申请实施例采用正定模型的在线辅助函数（auxiliary-function IVA，auxIVA）算法，该算法可避免盲源分离在频域的顺序不确定性，且无需缓存语音信号，可应用于对语音信号进行实时处理。

在具体实施过程中，可以获取各信号通道的加权协方差矩阵和上一音频帧的历史分离矩阵；利用加权协方差矩阵对历史分离矩阵进行更新，得到当前音频帧的当前分离矩阵；利用当前分离矩阵对当前频域信号进行解混合处理，得到各信号通道的当前分离信号。

其中，步骤“获取各信号通道的加权协方差矩阵和上一音频帧的历史分离矩阵”可以包括：

1021、获取上一音频帧的历史分离矩阵。

1022、利用历史分离矩阵对当前频域信号进行解混合处理，得到各信号通道的初始分离信号。

在一实施例中，初始分离信号的具体获取方式可以如下：

其中，表示第/>帧、第/>个频点基于上一音频帧的历史分离矩阵获取的初始分离信号，/>表示第/>帧、第/>个频点的分离矩阵，/>，/>表示单位阵，表示转置共轭操作，/>表示当前频域信号。

1023、基于初始分离信号计算各信号通道的加权协方差矩阵。

在一些实施例中，步骤1023可以包括：

（1）获取当前频域信号的协方差矩阵。其具体的获取方式可以如下：

其中，表示第/>帧、第/>个频点的协方差矩阵。

（2）根据初始分离信号计算各信号通道的加权系数。其具体计算方式可以如下：

其中，表示第/>帧各信号通道的加权系数。

（3）根据加权系数对协方差矩阵进行平滑处理，得到各信号通道的加权协方差矩阵。其具体的过程可以如下：

其中，表示第/>帧、第/>个频点各信号通道的加权协方差矩阵，/>，表示全零阵，/>表示加权协方差矩阵平滑系数。

在一些实施例中，步骤“利用加权协方差矩阵对历史分离矩阵进行更新，得到当前音频帧的当前分离矩阵”的具体过程可以如下：

其中，表示第/>个信号通道、第/>帧、第/>个频点的分离矩阵，/>表示第/>个信号通道、第/>帧、第/>个频点的加权协方差矩阵，/>表示仅有第个元素为1的辅助向量，/>表示求逆矩阵。

在一些实施例中，在利用加权协方差矩阵对历史分离矩阵进行更新，得到当前音频帧的当前分离矩阵之后，还可以对当前分离矩阵进行幅度校正，具体可以如下：

其中，表示取对角线元素操作。可以理解的是，由于盲源分离没有源信号和信道的先验信息，因此存在固有的幅度不确定性问题，经过幅度校正可以使当前分离信号的幅度与当前语音信号基本一致。

在一些实施例中，步骤“利用当前分离矩阵对当前频域信号进行解混合处理，得到各信号通道的当前分离信号”具体可以如下：

其中，表示第/>帧、第/>个频点的当前分离信号。

103、获取当前分离信号的总频域能量和当前声纹特征。

在一些实施例中，可以分别获取多个当前分离信号的频域能量，并将各当前分离信号的频域能量缓存至大小为帧的频域能量缓存区，然后对所有的频域能量进行求和，得到总频域能量。

其中，获取当前分离信号的频域能量具体可以如下：

其中，表示第/>帧各分离信号的频域能量，/>为与声纹特征提取时的语音长度有关的数值。

在具体实施过程中，还可以分别计算各当前分离信号的语音存在概率，并提取各当前分离信号的特征参数，同样将该特征参数缓存至大小为帧的特征参数缓存区。需要说明的是，在本申请实施例中，该特征参数为滤波器组（Filter bank，Fbank）参数。

在一些实施例中，可以将各当前分离信号的特征参数输入至声纹特征提取模型中进行特征提取，从而得到各当前分离信号的当前声纹特征。

因此，在本申请实施例中，可以预先通过训练形成该声纹特征提取模型。需要说明的是，该声纹特征提取模型可以如图2所示，包含多层非线性层，可采用全连接神经网络、卷积神经网络和循环神经网络等等。

训练声纹特征提取模型的具体流程可以如下：

首先，对多个用户的语音数据集采用幅度增扩、混响增扩、噪声增扩等多种增扩方式得到增扩后的语音数据，并提取特征参数；其次，对同一用户的语音编码为相同标签，对不同用户的语音编码为不同标签，并将语音数据的特征参数与用户标签配对；接着，将特征参数输入搭建好的模型并映射到用户类别，计算映射到的用户类别与用户标签之间的交叉熵损失，并通过反向传播和梯度下降算法训练模型；然后，将训练好的模型去掉分类器层得到声纹特征提取模型；最后，在得到所有语音数据的声纹特征后，通过EM算法得到概率线性判别分析（Probabilistic Linear Discriminant Analysis，PLDA）模型的参数，包括训练数据均值、特定用户子空间/>和均值为0、方差为/>的残留噪声/>等参数。

104、根据总频域能量和当前声纹特征计算当前分离信号的综合得分。

具体的，可以先对总频域能量进行归一化处理，生成当前分离信号的能量得分，然后将当前声纹特征与预设声纹数据库进行匹配，得到当前分离信号的声纹得分，最后对能量得分和声纹得分进行综合处理，得到当前分离信号的综合得分。

其中，该预设声纹数据库中存储有多个用户声纹特征。在具体实施过程中，可以通过在声纹特征提取模型中进行用户注册，得到用户的声纹特征。每一用户对应一个声纹特征，可以存在多个用户。每一用户分别录制多条语音数据，提取多条语音数据的特征参数送入声纹特征提取模型得到多条语音数据的声纹特征，对多个声纹特征进行平均得到该用户的声纹特征。然而，对多个用户声纹特征进行存储，形成该预设声纹数据库。

可以理解的是，虽然auxIVA盲源分离算法可以避免各分离信号在频域的顺序不确定性，但是各分离信号对应的信号通道间的输出顺序仍然不确定。尽管可以对多个信号通道分别进行语音识别，但多次语音识别的运算复杂度较高，不适合在运算能力受限的端侧应用。因此，为了避免对分离信号进行多次语音识别，通常需要从分离信号的多个信号通道中仅识别出一个语音通道，从而降低语音识别的运算负担。虽然现有方法可通过短时能量、语音存在概率、DOA等参数信息从多个信号通道中识别出语音通道，但当信噪比较低或声源方向相距较近时，这些方法识别语音通道的准确率并不高，将会一定程度导致识别率下降，影响用户体验。而在盲源分离前后，用户的声纹特征并不会改变，同时，语音通道包含较多的用户语音信息，因此用户的声纹特征较完整，分离信号的其他信号通道则相反。

因此，在本申请实施例中，可以通过将各分离信号的声纹特征与用户的声纹特征进行匹配，从而识别出语音通道。另一方面，在经过盲源分离算法处理后，语音通道的信噪比同样得到改善，因此声纹特征提取的鲁棒值更高，从而可以改善噪声环境下语音通道识别的准确率。

在具体实施过程中，步骤“将当前声纹特征与预设声纹数据库进行匹配，得到当前分离信号的声纹得分”可以包括：

将当前声纹特征分别与预设声纹数据库中的多个用户声纹特征进行匹配，生成多个声纹匹配度；

将多个声纹匹配度进行比较，并根据比较结果生成当前分离信号的声纹得分。

其中，该声纹匹配度为PLDA得分。比如，若用户注册的声纹特征为，第/>个分离信号的声纹特征为/>，则假设/>表示/>和/>使用相同用户身份隐变量/>，假设/>表示/>和/>分别使用不同用户身份隐变量/>和/>，则PLDA得分为：

其中，，/>，，/>，/>表示常数。

其中，步骤“将多个声纹匹配度进行比较，并根据比较结果生成当前分离信号的声纹得分”具体可以为：将多个声纹匹配度转换分别转换为声纹得分；确定多个声纹得分中的声纹得分最高的目标声纹得分；对目标声纹得分进行归一化处理，生成当前分离信号的声纹得分。

在一些实施例中，在得到当前分离信号的声纹得分之后，可以将当前分离信号的声纹得分与阈值进行比较，在当前分离信号的声纹得分大于阈值/>时，可以不用管当前分离信号的能量得分的大小，直接将该当前分离信号对应的信号通道作为语音通道。

也即，在一些实施例中，为了提高对语音通道的识别效率，可以先获取当前分离信号的当前声纹特征，然后根据该当前声纹特征确定当前分离信号的声纹得分，之后将当前分离信号的声纹得分与阈值进行比较，并根据比较结果确认是否需要获取当前分离信号的能量得分。

可以理解的是，若当前分离信号的声纹得分大于阈值，则可以直接将该当前分离信号对应的信号通道作为语音通道，然后中止程序执行。若当前分离信号的声纹得分小于或等于阈值/>时，则可以继续执行步骤104和步骤105。

其中，该阈值可以根据实际情况进行设置，本申请实施例不对其进行限制。

需要说明的是，当前分离信号的综合得分即为当前分离信号的能量得分和声纹得分/>的总和。

105、基于综合得分从各信号通道中确定语音通道。

可以理解的是，在实际应用过程中，存在多个当前分离信号的综合得分相同的情况。因此，为了保证语音通道的唯一性，在一些实施例中，当存在综合得分相同的当前分离信号时，可以将当前分离信号的语音存在概率作为判断依据。具体的，可以如下：

确定多个当前分离信号中综合得分最高的目标当前分离信号；获取目标当前分离信号的数量；基于目标当前分离信号的数量从各信号通道中确定语音通道。

其中，步骤“基于目标当前分离信号的数量从各信号通道中确定语音通道”具体可以包括：

当目标当前分离信号的数量为1时，直接将目标当前分离信号对应的信号通道作为语音通道；

当目标当前分离信号的数量大于1时，获取目标当前分离信号的语音存在概率；将语音存在概率最大的目标当前分离信号对应的信号通道作为语音通道。

在另一实施例中，为了提高语音通道识别效率，减少系统不必要的操作。在步骤102之后，可以获取当前分离信号的特征参数，并将特征参数送入预先使用增广后语音训练好的识别网络中进行识别，得到语音识别置信度。然后，可以根据该语音识别置信度判断该当前分离信号中是否识别到了用户指令。若没有识别到用户指令，可以直接中断后续操作。若识别到了用户指令，则执行执行步骤103、104和105。

其中，识别网络指的是通过级联神经网络和隐马尔可夫模型搭建并使用增广后的语音训练好的语音识别系统。语音数据增广指的是，首先对干净音频添加混响，得到混响音频，接着根据指定的信噪比范围，分别计算混响音频能量和噪声音频能量得到信噪比系数，然后在混响音频上叠加相应比例的噪声得到带噪音频，最后根据指定的幅度范围，生成幅度系数随机的带噪音频，即增广语音。语音识别置信度指的是用户指令通过语音识别模型得到的后验概率，取值范围为0~1。当语音识别置信度超过预设门限时，认为电子设备识别到用户指令，电子设备需执行相应操作。

综上所述，本申请实施例提供的语音通道识别方法包括获取当前频域信号；对当前频域信号进行盲源分离，得到各信号通道的当前分离信号；获取当前分离信号的总频域能量和当前声纹特征；根据总频域能量和当前声纹特征计算当前分离信号的综合得分；基于综合得分从各信号通道中确定语音通道。本方案可以通过对多通道语音信号进行盲源分离，生成多个信号通道，从而排除环境因素对语音通道的影响，进而提高对语音通道识别的准确性。

为便于更好的实施本申请实施例提供的语音通道识别方法，本申请实施例还提供了一种语音通道识别装置。其中名词的含义与上述语音通道识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3是本申请实施例提供的语音通道识别装置的结构示意图。该语音通道识别装置可以包括第一获取单元201、盲源分离单元202、第二获取单元203、综合得分单元204和通道确定单元205。其中，

第一获取单元201，用于获取当前频域信号；

盲源分离单元202，用于对当前频域信号进行盲源分离，得到各信号通道的当前分离信号；

第二获取单元203，用于获取当前分离信号的总频域能量和当前声纹特征；

综合得分单元204，用于根据总频域能量和当前声纹特征计算当前分离信号的综合得分；

通道确定单元205，用于基于综合得分从各信号通道中确定语音通道。

以上各个单元的具体实施方式可参见上述的语音通道识别方法的实施例，在此不再一一赘述。

综上所述，本申请实施例提供的语音通道识别装置可以通过第一获取单元201获取当前频域信号；由盲源分离单元202对当前频域信号进行盲源分离，得到各信号通道的当前分离信号；由第二获取单元203获取当前分离信号的总频域能量和当前声纹特征；由综合得分单元204根据总频域能量和当前声纹特征计算当前分离信号的综合得分；由通道确定单元205基于综合得分从各信号通道中确定语音通道。本方案可以通过对多通道语音信号进行盲源分离，生成多个信号通道，从而排除环境因素对语音通道的影响，进而提高对语音通道识别的准确性。

本申请实施例还提供一种电子设备，其中可以集成有本申请实施例的语音通道识别装置，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括射频（Radio Frequency，RF）电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真（Wireless Fidelity，WiFi)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（Subscriber Identity Module，SIM）卡、收发信机、耦合器、低噪声放大器（LowNoise Amplifier，LNA）、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，GSM）、通用分组无线服务（General PacketRadio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、长期演进（Long Term Evolution，LTE)、电子邮件、短消息服务（Short Messaging Service，SMS)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一电子设备，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4，示出了WiFi模块607，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

电子设备还包括给各个部件供电的电源609（比如电池），优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能，比如：

获取当前频域信号；

对当前频域信号进行盲源分离，得到各信号通道的当前分离信号；

获取当前分离信号的总频域能量和当前声纹特征；

根据总频域能量和当前声纹特征计算当前分离信号的综合得分；

基于综合得分从各信号通道中确定语音通道。

综上，本申请实施例提供的电子设备通过获取当前频域信号；对当前频域信号进行盲源分离，得到各信号通道的当前分离信号；获取当前分离信号的总频域能量和当前声纹特征；根据总频域能量和当前声纹特征计算当前分离信号的综合得分；基于综合得分从各信号通道中确定语音通道。本方案可以通过对多通道语音信号进行盲源分离，生成多个信号通道，从而排除环境因素对语音通道的影响，进而提高对语音通道识别的准确性。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对语音通道识别方法的详细描述，此处不再赘述。

需要说明的是，对本申请实施例中的语音通道识别方法而言，本领域技术人员可以理解实现本申请实施例中的语音通道识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如语音通道识别方法的实施例的流程。

对本申请实施例的语音通道识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，还可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种语音通道识别方法中的步骤。其中，该存储介质可以为磁碟、光盘、只读存储器（Read Only MeMory，ROM）、随机存取记忆体（RandomAccess Memory，RAM）等。

以上分别对本申请所提供的语音通道识别方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音通道识别方法，其特征在于，包括：

获取当前频域信号；

获取所述当前分离信号的总频域能量和当前声纹特征；

基于所述综合得分从各信号通道中确定语音通道。

2.如权利要求1所述的语音通道识别方法，其特征在于，所述根据所述总频域能量和所述当前声纹特征计算所述当前分离信号的综合得分，包括：

3.如权利要求2所述的语音通道识别方法，其特征在于，所述将所述当前声纹特征与预设声纹数据库进行匹配，得到所述当前分离信号的声纹得分，包括：

4.如权利要求3所述的语音通道识别方法，其特征在于，所述将多个所述声纹匹配度进行比较，并根据比较结果生成所述当前分离信号的声纹得分，包括：

将多个所述声纹匹配度转换分别转换为声纹得分；

确定多个所述声纹得分中的声纹得分最高的目标声纹得分；

5.如权利要求1所述的语音通道识别方法，其特征在于，所述基于所述综合得分从各信号通道中确定语音通道，包括：

获取所述目标当前分离信号的数量；

6.如权利要求5所述的语音通道识别方法，其特征在于，所述基于所述目标当前分离信号的数量从各信号通道中确定语音通道包括：

7.如权利要求1所述的语音通道识别方法，其特征在于，所述获取当前频域信号，包括：

8.一种语音通道识别装置，其特征在于，包括：

第一获取单元，用于获取当前频域信号；

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-7任一项所述的语音通道识别方法。

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的语音通道识别方法。