CN112489678B

CN112489678B - 一种基于信道特征的场景识别方法及装置

Info

Publication number: CN112489678B
Application number: CN202011275286.6A
Authority: CN
Inventors: 荆伟; 白二伟; 包飞; 倪合强; 姚寿柏; 黄华
Original assignee: Shenzhen Yunwangwandian Technology Co ltd
Current assignee: Shenzhen Yunwangwandian Technology Co ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2023-12-05
Anticipated expiration: 2040-11-13
Also published as: CN112489678A

Abstract

本发明公开了一种基于信道特征的场景识别方法、装置、计算机设备及存储介质，该方法包括：通过获取待识别音频，对待识别音频进行分帧处理，获取音频帧，提取每一音频帧的音频特征以及信道特征，分别构建每一音频帧的音频特征向量以及信道特征向量，将每一音频帧输入预先训练的识别模型，获取每一音频帧对应的超矢量，根据超矢量、音频特征向量以及信道特征向量使用预设方法进行迭代计算，获取待识别音频对应的信道空间矩阵，根据信道空间矩阵以及待匹配音频的信道空间矩阵分别计算待识别音频与待匹配音频的相似度，确定相似度符合预设条件的待匹配音频对应的场景为待识别音频的场景，有效避免说话人信息在场景识别过程中的干扰。

Description

一种基于信道特征的场景识别方法及装置

技术领域

本发明涉及语音处理技术领域，特别涉及一种基于信道特征的场景识别方法、装置、计算机设备及存储介质。

背景技术

声音场景分类是对不同场景环境的声音特征进行处理，从而做出场景判断的技术。

当今现在，互联网以及计算机技术每天都在发生着翻天覆地的变化，智能终端作为人与互联网或计算机交互的入口，语音识别无疑是人机交互最为便捷的方式。而智能终端可能处在各式各样的场景中，环境中的噪声会对人声产生极大的干扰。提前将音频中的环境信息分类，而有针对性的进行前端信号处理，可以极大的提高后期识别的准确率。

在现有的场景分类方法中，通常先采集不同场景下的声音作为训练语料，训练场景分类模型，在识别阶段，将未知场景的声音输入模型，即可得到此声音的分类。但是此方法在测试阶段，如遇到混有人声的声音，就会影响识别的精度。

因此，亟需提出一种新的场景识别方法。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于信道特征的场景识别方法、装置、计算机设备以及存储介质，以克服现有技术中存在的待识别音频中混有人声会影响声音场景的分类等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

第一方面，提供了一种基于信道特征的场景识别方法，该方法包括如下步骤：

获取待识别音频，对所述待识别音频进行分帧处理，获取音频帧；

提取每一所述音频帧的音频特征以及信道特征，并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量；

将每一所述音频帧输入预先训练的识别模型，获取每一所述音频帧对应的超矢量；

根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算，获取所述待识别音频对应的信道空间矩阵；

根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度；

确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。

在一些实施例中，所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括：

分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离；

所述确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景包括：

确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。

在一些实施例中，所述方法还包括识别模型的训练过程，包括：

利用预先准备的训练数据对预设的识别模型进行训练，得到经训练的识别模型。

在一些实施例中，所述方法还包括所述待匹配音频的信道空间矩阵的获取方法，包括：

利用所述经训练的识别模型获取每条训练数据的超矢量；

根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算，获取每条训练数据的信道空间矩阵，确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵。

在一些实施例中，所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。

在一些实施例中，所述识别模型包括通用背景模型。

在一些实施例中，所述预设方法包括联合因子分析方法。

第二方面，提供了一种基于信道特征的场景识别装置，所述装置包括：

分帧处理模块，用于获取待识别音频，对所述待识别音频进行分帧处理，获取音频帧；

向量构建模块，用于提取每一所述音频帧的音频特征以及信道特征，并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量；

超矢量获取模块，用于将每一所述音频帧输入预先训练的识别模型，获取每一所述音频帧对应的超矢量；

矩阵获取模块，用于根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算，获取所述待识别音频对应的信道空间矩阵；

相似度计算模块，用于根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度；

场景确定模块，用于确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的基于信道特征的场景识别方法、装置、计算机设备及存储介质，通过获取待识别音频，对所述待识别音频进行分帧处理，获取音频帧，提取每一所述音频帧的音频特征以及信道特征，并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量，将每一所述音频帧输入预先训练的识别模型，获取每一所述音频帧对应的超矢量，根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算，获取所述待识别音频对应的信道空间矩阵，根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度，确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景，通过分离音频特征以及信道特征信息，用已知信道空间和待匹配信道空间相似度进行场景分类，可以有效避免说话人信息在识别过程中的干扰。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的基于信道特征的场景识别方法的流程图；

图2是根据一示例性实施例示出的基于信道特征的场景识别装置的结构示意图；

图3是根据一示例性实施例示出的计算机设备的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术所述，当待识别音频中混有人声的声音时，就会影响待识别音频的场景识别的精度。

为解决上述问题，本发明实施例中创造性的提出了一种基于信道特征的场景识别方法，该方法利用不同信道中相同说话人的音频，和相同信道中不同说话人的音频，通过迭代合并联合因子分析(JFA)方法中的信道空间矩阵和说话人空间矩阵，较为精确地描述信道空间信息，有效避免在待识别音频中混有人声对场景识别过程的干扰，提高场景识别的精确度。

实施例一

具体的，上述方案可通过如下步骤实现：

步骤一、分别在不同的场景下录制训练音频数据

具体的，分别在不同的信道下录制训练音频数据，该训练音频数据包括不同用户分别在不同的信道下录制的音频数据。例如，包括I个不同的信道场景，K个不同的用户在每个信道场景下录制的J条不同的音频数据。作为一种较优的示例，每条音频数据的长度约10s，录制的声音大小保持不变，并对音频数据进行编号，例如：

A₁₁表示A用户在信道场景1中的第1个音频，

K_ij代表用户K在信道场景i中的第j条音频等。

步骤二、用所有采集到的音频训练识别模型

具体的，用所有采集到的训练音频数据训练一个稳定的识别模型，如高阶高斯模型--UBM模型(通用背景模型)，将其各个高斯分量的均值、方差分别串联，形成超矢量m_ubm和Σ的估计值，其表示分别如下：

其中k是混合高斯的维度，μ，σ分别是每个高斯分量的均值和方差。

步骤三、分别对每条训练音频数据，使用联合因子分析方法(JFA)建模并迭代信道空间和音频空间

具体的，分别对每条训练音频数据，使用JFA(联合因子分析)建模，如下：

M_ij＝m_i+V_ijy_ij+U_ijx_ij+D_ijz_ij

其中，M_ij为训练音频数据的均值高斯超矢量，它是基于UBM模型，用最大后验概率MAP去自适应当前音频数据而产生的GMM模型，在把GMM模型的每个高斯分量的均值矢量串接起来。V_ij是用来描述说话人空间的音频空间矩阵，y_ij是音频特征向量(也可称为本征音特征向量)，U_ij是用来描述信道空间的信道空间矩阵，x_ij信道特征向量(也可称为本征信道特征向量)，D_ij是残差对角阵，用来描述语音中的残差特征，如噪声等，z_ij是此空间中的特征向。本发明实施例中，在进行迭代计算过程中，忽略D_ijz_ij，迭代求解U_ij和V_ij矩阵，以及对应x_ij和y_ij向量。

步骤四、合并获取到的信道空间的信道空间矩阵，并重新迭代求解音频空间矩阵，音频特征向量以及信道特征向量

具体的，合并求得的信道空间i的本征信道矩阵，例如，可以采用如下方式：

用U_i*替换步骤三U_ij，利用步骤三的方法，重新迭代每条音频数据对应的说话人空间的音频空间矩阵V_ij矩，音频特征向量y_ij以及信道特征向量x_ij。

步骤五、合并获取到的说话人空间的本征音矩阵，并重新迭代求解每条音频数据的信道空间矩阵，音频特征向量以及信道特征向量

具体的，合并求得的说话人空间j的本征音矩阵，

用V_*j替换步骤三中的V_ij，利用步骤三的方法，重新迭代求解每条音频数据的对应的信道空间矩阵U_ij，音频特征向量y_ij以及信道特征向量x_ij。

步骤六、循环执行步骤四至步骤五，直至满足终止条件

具体的，循环执行步骤四至步骤五，直到满足终止条件。作为一种较优的实施方式，终止条件可以为以下中的任意一种或多种：

1、信道空间矩阵U_ij和说话人空间的音频空间矩阵V_ij中的值变化范围小于预设数值；

2、迭代次数大于预设次数；

3、训练音频数据全部完成计算等。

若满足终止条件则跳到步骤七，若不满足终止条件则回到步骤四。

步骤七、获取最终的场景信道空间矩阵和音频空间矩阵

具体的，作为一种较优的示例，迭代结束后，可以按以下计算方式得到每一训练音频数据最终的信道空间矩阵U_{i*_final}、音频空间矩阵V_{*j_final}。

步骤八、在识别阶段，获取待识别音频，对其建模，提取待识别音频中的信道空间矩阵

具体的，在识别阶段，获取待识别音频，记为O_test，对音频进行分帧处理，获取的音频帧记为[o₁,o₂,...,o_T]，提取每一音频帧的音频特征以及信道特征，并根据该音频特征以及信道特征分别构建每一音频帧的音频特征向量y_test以及信道特征向量x_test，并利用UBM模型，获取每一音频帧对应的超矢量，然后同步骤三所述的方法，对其建模，如下：

O＝m_ubm+V_testy_test+U_testx_test

使用联合因子分析方法迭代得到待识别音频的信道空间矩阵U_test。

步骤九、用步骤八中的信道空间矩阵与步骤七中信道空间矩阵求欧氏距离

具体的，将待识别音频的信道空间矩阵U_test分别与步骤七中的训练得到的每一训练音频数据的信道空间矩阵U_{i*_final}求欧氏距离。

步骤十、挑选与步骤九中欧氏距离最小的信道空间矩阵所属场景为待识别音频的场景

具体的，挑选出步骤九中待识别音频的信道空间矩阵U_test的欧氏距离最小的训练音频数据的信道空间矩阵U_{ij_final}，将U_{ij_final}所属场景类型确定为待识别音频所在的场景。

实施例二

图1是根据一示例性实施例示出的基于信道特征的场景识别方法的流程图，参照图1所示，该方法包括如下步骤：

S1：获取待识别音频，对所述待识别音频进行分帧处理，获取音频帧。

具体的，为了便于后续提取待识别音频的特征数据，在获取到待识别音频数据后，需要先对待识别音频进行分帧处理。本发明实施例中，分帧处理的方法包括但不限于采用matlab等方式。

S2：提取每一所述音频帧的音频特征以及信道特征，并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量。

具体的，本发明实施例中，音频特征包括但不限于说话人的声纹等特征，信道特征包括但不限于商场信道特征、办公室信道特征等。

S3：将每一所述音频帧输入预先训练的识别模型，获取每一所述音频帧对应的超矢量。

具体的，本发明实施例中，会利用预先准备的训练数据对预设的识别模型进行训练，得到经训练的识别模型，通过该识别模型可获取每一音频帧对应的超矢量。

S4：根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算，获取所述待识别音频对应的信道空间矩阵。

S5：根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度；

S6：确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。

作为一种较优的实施方式，本发明实施例中，所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括：

具体的，本发明实实施例中，待识别音频与待匹配音频之间的相似度包括但不限于欧氏距离等，这里不一一列举。

作为一种较优的实施方式，本发明实施例中，所述方法还包括识别模型的训练过程，包括：

作为一种较优的实施方式，本发明实施例中，所述方法还包括所述待匹配音频的信道空间矩阵的获取方法，包括：

利用所述经训练的识别模型获取每条训练数据的超矢量；

作为一种较优的实施方式，本发明实施例中，所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。

具体的，将不同信道中相同说话人的音频和相同信道中不同说话人的音频数据作为识别模型的训练数据，通过迭代合并JFA方法中的信道空间矩阵和音频空间矩阵，能够较为精确地描述信道空间信息。这里通过分离信道空间和说话人空间信息，用已知信道空间和待识别信道空间相似度进行场景分类，可以有效避免说话人信息在识别过程中的干扰。

作为一种较优的实施方式，本发明实施例中，所述识别模型包括通用背景模型。

作为一种较优的实施方式，本发明实施例中，所述预设方法包括联合因子分析方法。

图2是根据一示例性实施例示出的基于信道特征的场景识别装置的结构示意图，该装置包括：

作为一种较优的实施方式，本发明实施例中，所述相似度计算模块具体用于：

所述场景确定模块具体用于：

作为一种较优的实施方式，本发明实施例中，所述装置还包括：

模型训练模块，用于利用预先准备的训练数据对预设的识别模型进行训练，得到经训练的识别模型。

作为一种较优的实施方式，本发明实施例中，所述矩阵获取模块还用于：

利用所述经训练的识别模型获取每条训练数据的超矢量；

图3是根据一示例性实施例示出的计算机设备的内部结构示意图，参照图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

作为一种较优的实施方式，本发明实施例中，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

作为一种较优的实施方式，本发明实施例中，处理器执行计算机程序时还实现以下步骤：

利用所述经训练的识别模型获取每条训练数据的超矢量；

本发明实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

作为一种较优的实施方式，本发明实施例中，所述计算机程序被处理器执行时，还实现如下步骤：

利用所述经训练的识别模型获取每条训练数据的超矢量；

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的基于信道特征的场景识别装置在触发场景识别业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于信道特征的场景识别装置与基于信道特征的场景识别方法实施例属于同一构思，即该装置是基于该基于信道特征的场景识别方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于信道特征的场景识别方法，其特征在于，所述方法包括如下步骤：

其中，待匹配音频的信道空间矩阵获取包括：利用所述经训练的识别模型获取每条训练数据的超矢量；根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算，获取每条训练数据的信道空间矩阵，确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵；

其中，所述预先训练的识别模型和所述经训练的识别模型均包括通用背景模型，所述预设方法包括联合因子分析方法；

2.根据权利要求1所述的基于信道特征的场景识别方法，其特征在于，所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括：

3.根据权利要求1或2所述的基于信道特征的场景识别方法，其特征在于，所述方法还包括识别模型的训练过程，包括：

4.根据权利要求3所述的基于信道特征的场景识别方法，其特征在于，所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。

5.一种基于信道特征的场景识别装置，其特征在于，所述装置包括：

相似度计算模块，用于根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度；其中，待匹配音频的信道空间矩阵获取包括：利用所述经训练的识别模型获取每条训练数据的超矢量；根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算，获取每条训练数据的信道空间矩阵，确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵；其中，所述预先训练的识别模型和所述经训练的识别模型均包括通用背景模型，所述预设方法包括联合因子分析方法；

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。