CN113793624B

CN113793624B - 一种声学场景分类方法

Info

Publication number: CN113793624B
Application number: CN202110653222.3A
Authority: CN
Inventors: 龙艳花; 刘悦; 梁芸浩; 魏爽
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-11-17
Anticipated expiration: 2041-06-11
Also published as: CN113793624A

Abstract

本发明公开了一种声学场景分类方法，包括以下步骤：首先针对采用参考设备录制的场景数据，训练基本场景分类模型；然后根据采用移动设备录制的场景数据，训练设备独立场景分类模型；根据训练好的设备独立场景分类模型，训练设备分类模型；利用训练好的设备分类模型提取设备特性，结合设备分类模型，获得设备识别模型；所有模型建立之后，进行数据自动录制并收集存储，并对收集的录制数据进行声学场景命名，并存储至云端；根据用户参数，获得个性化定制的场景分类模型。本发明提供了一种声学场景分类方法，加入设备分类和识别功能，对用户的使用设备及数据收集和整理，定制特定的声学场景分类模型，提升系统性能，为用户带来较佳的体验感。

Description

一种声学场景分类方法

技术领域

本发明涉及声学场景分类领域，尤其涉及一种声学场景分类方法。

背景技术

随着智能语音技术的快速发展和人工智能相关应用的兴起，声学场景分类技术已逐渐被应用到人们的日常生活中。声学场景分类技术是利用音频信号处理和深度学习技术完成对声学场景(家庭、公园和街道场景等)的识别与分类，从而达到识别周围环境的目的。

声学场景分类技术在人们的生活中有着广泛的作用，如上下文感知服务、可穿戴智能设备和机器人导航系统等。在基于场景分类的自适应降噪技术中，若判断当前场景为机场，自动开启机场去噪模式，若判断为街道场景，则开启街道去噪模式；HUAWEI动态降噪耳机，利用ASC技术快速辨认周围环境，主动切换到恰当的降噪模式，削弱安静场景下的空调、冰箱等机器噪声，削弱地铁和飞机带来的重低频噪声，使用户静享安逸，远离喧嚣。在基于场景的ASR技术中，智能机器可以自主加载特定声学环境下的声学模型，以达到对该场景下语音的精准识别。ASC技术也用于盲人助听器和机器人轮椅时，设备可根据周围环境变化进行功能自主调节。以上所述这些技术均可大幅提升用户体验和产品满意度。

基于深度学习的声学场景分类技术可以充分学习声场谱图中的信息，提高声学场景类别准确率。深度神经网络中的分类模型是样本到样本标签的一个映射关系，通常为“街道交通”、“机场”、“购物中心”、“火车”、“地铁”和“公交车”等等，在得到分类结果时，也会统计在不同录音设备下的场景分类准确度。但在实际应用中，收集的场景数据常由不同的录音设备进行录制，而设备引起的失真导致不同类别间的混淆程度的加重，因此基于多设备的声学场景分类模型性能仍然不佳，难以达到实际应用所需要的精准度。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是现有技术中存在的收集场景数据常因不同设备录制而引起的失真，从而导致不同类别间的混淆程度加重，且多种设备的声学场景分类模型性能不佳，难以达到实际所需的精度。因此，本发明提供了一种声学场景分类方法，将设备特性分类和自动识别功能加入到声学场景分类模型的构建和训练过程中，提升声学场景分类模型的性能和自适应能力。其在使用过程中，能对用户的使用设备及数据进行自动收集和整理，为每位用户定制特定的声学场景分类模型，使模型更大程度忽略特定设备引起的失真，提升系统性能，为用户带来较佳的体验感。

为实现上述目的，本发明提供了一种声学场景分类方法，包括以下步骤：

首先针对采用参考设备录制的场景数据，训练基本场景分类模型；

然后根据采用移动设备录制的场景数据，训练设备独立场景分类模型；

根据训练好的设备独立场景分类模型，训练设备分类模型；

利用训练好的设备分类模型提取设备特性，结合设备分类模型，获得设备识别模型；

所有模型建立之后，进行数据自动录制并收集存储，并对收集的录制数据进行声学场景命名，并存储至云端；

根据用户参数，获得个性化定制的场景分类模型。

进一步地，首先针对采用参考设备录制的场景数据，训练基本场景分类模型，具体包括：

利用参考设备A的声学场景数据集，提取对数梅尔频谱图作为声学特征，用9层卷积神经网络对声学场景数据集的声学特征进行训练，获得基本场景分类模型A-ASC。

进一步地，提取对数梅尔频谱图作为声学特征之前，对声学场景数据集进行预处理，再对预处理后的音频数据进行语音分析，提取对数梅尔频谱图作为声学特征。

进一步地，对数梅尔声谱图是将声学场景数据集中的音频数据进行傅里叶变换转换到频域上，采用梅尔频率滤波器对频域信号进行再处理；然后接入一组梅尔频率滤波器，将声谱图转换到更符合人耳听觉的Mel域，获得维度较低的梅尔频谱图，在梅尔频谱图的基础上，将每个频段的特征值进行对数运算，可以获得对数梅尔频谱图。

进一步地，然后根据采用移动设备录制的场景数据，训练设备独立场景分类模型，具体包括：

从一个或多个移动设备录制的音频形成移动设备音频数据集，提取移动设备音频数据集中数据的声学特征，并在基本场景分类模型A-ASC上进行微调，获得与设备无关的设备独立场景分类模型BC-ASC。

进一步地，根据训练好的设备独立场景分类模型，训练设备分类模型，具体包括：

加载训练好的设备独立场景分类模型BC-ASC，分别提取声学场景数据集、不同设备录制的同一信号的数据集的网络中层表征；根据声学场景数据集的表征向量进行加权平均获得类均值向量E_k，k表示第k类场景，将不同设备录制的同一信号的数据集中音频片段的表征向量定义为E_kn，表示第k类的第n个音频片段的网络表征，从而获得不同设备录制的同一信号的数据集中每条音频记录存在的设备特性表示第k类的第n个由第d个设备录制音频片段的所含的设备特性，网络表征最后用2层卷积神经网络和1层全连接层组成的模型CNN2对设备特性进行学习和分类，获得设备分类模型Device-C。

进一步地，利用训练好的设备分类模型提取设备特性，结合设备分类模型，获得设备识别模型，具体包括：

利用提取的设备特性和设备分类模型Device-C，将模型CNN2作为设备识别模型的编码器部分，并设定网络参数，利用解码器部分对设备特性进行重构，获得设备识别模型Device-R。

进一步地，根据用户参数，获得个性化定制的场景分类模型包括个性化注册和个性化分类；其中，

个性化注册包括根据用户设备参数，加载相关模型，识别用户的某段输入音频，识别音频所表征的声学场景及使用的移动设备，对用户的使用数据进行分类，获得用户专属数据；根据用户专属数据，提取用户专属数据的声学特征，并于设备独立场景分类模型中进行微调，获得个性化定制的场景分类模型；

个性化分类包括当用户使用时，获得的测试语句会经过个性化的声学场景分类模型User-ASC，判断出用户当前所处的声学场景类别，辅助其它应用软件。

进一步地，还包括更新声学场景分类模型，利用收集移动设备录制的声学场景的数据，用以更新设备独立场景分类模型BC-ASC，从而获得更新后的个性化定制的场景分类模型。

进一步地，在具体实施例中，声学场景数据集为声音场景分类和声音事件检测挑战赛的开发集的音频数据，每段音频均是10s时长、采样率为44.1kHz、24bit量化率的单声道音频数据集。

技术效果

本发明的一种声学场景分类方法具有数据自动手机存储、设备识别判决和云端更新的功能，可以对不同设备录制的场景数据进行收集整理，生成用户的专属训练数据，解决用户数据量匮乏的问题，并且可以通过微调模型获得针对具体用户个性化定制的声学场景分类模型，可更大程度地忽略设备带来的失真，更准确地确定相应的声学场景。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的一种声学场景分类方法的流程示意图；

图2是本发明的一个较佳实施例的一种声学场景分类方法的对数梅尔频谱图的提取流程图；

图3是本发明的一个较佳实施例的一种声学场景分类方法的基于CNN9的声学场景分类流程图；

图4是本发明的一个较佳实施例的一种声学场景分类方法的设备分类模型流程图；

图5是本发明的一个较佳实施例的一种声学场景分类方法的设备识别框架流程图；

图6是本发明的一个较佳实施例的一种声学场景分类方法的设备识别及数据整理流程示意图；

图7是本发明的一个较佳实施例的基于个性化定制的声学场景分类方法的数据分配比例图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下描述中，为了说明而不是为了限定，提出了诸如特定内部程序、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

如图1所示，本发明实施例提供了一种声学场景分类方法，包括以下步骤：

步骤100，首先针对采用参考设备录制的场景数据，训练基本场景分类模型；具体包括：利用参考设备A的声学场景数据集(Train set A)，提取对数梅尔频谱图作为声学特征，用9层卷积神经网络对声学场景数据集的声学特征进行训练，获得基本场景分类模型A-ASC。

步骤200，然后根据采用移动设备录制的场景数据，训练设备独立场景分类模型；具体包括：从一个或多个移动设备录制的音频形成移动设备音频数据集(Train set BC)，提取移动设备音频数据集中数据的声学特征，并在基本场景分类模型A-ASC上进行微调，获得与设备无关的设备独立场景分类模型BC-ASC。

步骤300，根据训练好的设备独立场景分类模型，训练设备分类模型；具体包括：

加载训练好的设备独立场景分类模型BC-ASC，分别提取声学场景数据集(Trainset A)、不同设备录制的同一信号的数据集(Train set ABC)的网络中层表征；根据声学场景数据集(Train set A)的表征向量进行加权平均获得类均值向量E_k，k表示第k类场景，将不同设备录制的同一信号的数据集(Train set ABC)中音频片段的表征向量定义为E_kn，表示第k类的第n个音频片段的网络表征，从而获得不同设备录制的同一信号的数据集中每条音频记录存在的设备特性表示第k类的第n个由第d个设备录制音频片段的所含的设备特性，网络表征最后用2层卷积神经网络和1层全连接层组成的模型CNN2对设备特性进行学习和分类，获得设备分类模型Device-C。

步骤400，利用训练好的设备分类模型提取设备特性，结合设备分类模型，获得设备识别模型Device-R；具体包括：利用提取的设备特性和设备分类模型Device-C，将模型CNN2作为设备识别模型的编码器部分，并设定网络参数，利用解码器部分对设备特性进行重构，获得设备识别模型Device-R。

步骤500，所有模型建立之后，进行数据自动录制并收集存储，并对收集的录制数据进行声学场景命名，并存储至云端；当用户使用与语音相关应用软件(聊天软件、购物软件、导航软件等)时，自动启用环境音录制功能，忽略用户聊天内容，保护用户的隐私，将录制的声学场景数据命名为User-n(n＝1、2、…、N)格式，N表示音频数据的总数目，为了节省客户端内存，将用户的所有数据转存到云端；提取用户专属数据Train set User的声学特征，并在已于服务端训练好的模型BC-ASC上进行微调，使模型可以更大程度的忽略设备带来的失真，更精准的确定相应声学场景，获得个性化定制的场景分类模型User-ASC。

步骤600，根据用户参数，获得个性化定制的场景分类模型，包括个性化注册和个性化分类；其中，

个性化注册包括根据用户设备参数，加载相关模型，识别用户的某段输入音频，识别音频所表征的声学场景及使用的移动设备，对用户的使用数据进行分类，获得用户专属数据(即设备识别判决)；根据用户专属数据，提取用户专属数据的声学特征，并于设备独立场景分类模型中进行微调，获得个性化定制的场景分类模型；

个性化分类包括当用户使用时，获得的测试语句会经过个性化的声学场景分类模型User-ASC，判断出用户当前所处的声学场景类别，辅助其它应用软件，进一步提升用户使用感。

其中，提取对数梅尔频谱图作为声学特征之前，对声学场景数据集进行预处理，再对预处理后的音频数据进行语音分析，提取对数梅尔频谱图作为声学特征。对数梅尔声谱图是将声学场景数据集中的音频数据进行傅里叶变换转换到频域上，采用梅尔频率滤波器对频域信号进行再处理；然后接入一组梅尔频率滤波器，将声谱图转换到更符合人耳听觉的Mel域，获得维度较低的梅尔频谱图，在梅尔频谱图的基础上，将每个频段的特征值进行对数运算，可以获得对数梅尔频谱图。

进一步地，设备识别判决是指加载相关模型BC-ASC、Device-R，给定用户的某段输入音频User-n，识别该段音频所表征的声学场景及所使用的移动设备，因此可以对用户的使用数据进行分类，获得用户的专属数据Train set User。

本发明的一种声学场景分类方法包括了基本场景分类模块、设备独立场景分类模块、设备分类模块、设备识别模块、数据自动收集存储模块、设备识别判决模块、云端更新模块。其中，数据自动收集存储模块、设备识别判决模块和云端更新模块属于用户端注册阶段，其余模块均属于服务器端。

本发明一种声学场景分类方法主要设置了数据自动收集存储模块、设备识别判决模块和云端更新模块，用于用户数据的收集整理和场景分类模型的更新。位于用户端的数据自动收集存储模块，当用户使用语音相关的应用程序时，会启动环境声录制功能，尽可能避开用户的聊天内容，仅自动收集用户所处声学环境的音频，并存储到云端，方便后续的使用；为了达到对设备分类和识别的目的，收集的用户数据作为模型BC-ASC、Device-R的输入，并将模型Device-R的输出作为设备识别判决模块的输入，当输入音频的得分小于所设阈值，则将其判为已知设备，输出设备标签，否则将其归为未知设备。因此可以对不同设备录制的场景数据进行收集整理，生成用户的专属训练数据(Train set User)，解决用户数据量匮乏的问题；云端更新模块位于用户端，为了达到个性化的声学场景分类的目的，利用用户的专属训练数据Train set User再次微调模型BC-ASC，获得针对该用户个性化定制的声学场景分类模型(User-ASC)。该模型User-ASC会更大程度的忽略设备带来的失真，更准确地确定相应的声学场景。

以下将详细阐述本发明实施例的具体实施方式：

步骤100，首先针对采用参考设备录制的场景数据，训练基本场景分类模型：对参考设备所录制的声学场景数据集Train set A提取声学特征—对数梅尔频谱图。在提取声学特征前，可以先对音频数据进行预处理操作，以保证对数梅尔声谱图提取过程的顺利性，再对预处理后的音频数据进行语音分析，提取对数梅尔频谱图(Log Mel Spectrogram)作为声学特征。对数梅尔声谱图是将音频数据进行傅里叶变换转换到频域上，采用梅尔频率滤波器对频域信号进行再处理。由于原始信号就是1维的声学信号，对一维信号进行预加重、分帧和加窗操作后，再短时傅里叶变换(STFT)得到二维信号，即标准的声谱图。由于声谱图维度较大，包含了大量冗余信息，且人耳对声音的感知是非线性的，因此接入一组梅尔频率滤波器，将声谱图转换到更符合人耳听觉的Mel域，也可以获得维度较低的梅尔频谱图，在梅尔频谱图的基础上，将每个频段的特征值进行对数运算，可以获得对数梅尔频谱图，有利分离频谱包络和频谱细节。具体流程如图2所示。

本实施例中，选择CNN9网络作为模型A-ASC的网络结构，将对数梅尔频谱图作为CNN9的输入，经过网络的学习可实现声学场景分类。CNN9模型是由多层卷积层堆叠的网络，由4个卷积块(Conv Block)的堆叠，每个卷积块实际包括两次卷积(Conv layer)和一次平均池化(Avgpooling)，并且每次卷积之间均进行批标准化操作(BN)，激活函数是线性修正单元(Relu)，然后利用池化层进行降维，最后接入全连接层，全连接层使用的激活函数是softmax函数，输出当前输入属于场景类别的概率值，损失函数是交叉熵损失函数。

基于CNN9的声学场景分类流程图如图3所示，Cov表示二维卷积，卷积核的大小为3×3，设置步长为1，激活函数为线性修正单元(Relu)，批处理(BN),平均池化层(Avgpooling)设置池化核分别为2×2、1×1，最后的池化层用来进行降维，设置全连接层的神经元个数为10，softmax输出当前输入属于场景类别的概率值。

步骤200，然后根据采用移动设备录制的场景数据，训练设备独立场景分类模型：利用移动设备的训练集Train set BC对模型A-ASC进行微调，更新网络参数，获得设备独立场景分类模型BC-ASC；

步骤300，根据训练好的设备独立场景分类模型，训练设备分类模型:为了获取音频片段的网络表征，定义CNN9网络的最后一层池化层的输出为表征提取层，提取的表征向量为512维，提取数据集Train set A的网络表征向量，并计算场景类别均值表征E_k，具体计算如公式(1)所示：

式中，k表示第k个场景类别，N_k表示使用参考设备A录制的第k类的音频数据，E_kn表示第k类的第n个音频片段的网络表征，E_k表示第k类的类均值表征，使第k类声学场景的表征。

然后根据要求筛选不同设备录制的相同信号，提取该数据集Train set ABC相应的网络表征信息，并计算每一段音频记录存在的设备特性。定义Train set ABC的片段表征向量与类均值向量E_k的差值为当前片段的设备特性/>作为设备分类模型的输入。关于设备特性的计算如公式(2)所示：

式中，k表示第k个场景类别，E_k表示第k类的类均值向量，表示属于第k类的第n个音频数据的表征向量，d表示所使用的录音设备，分别为设备A、B和C。

最后搭建设备分类模型，该模型由2层一维卷积层和1层全连接神经网络(Denselayer)、线性修正单元(Relu)激活函数构成，softmax输出为设备的类别，损失函数是交叉熵损失函数，在训练集Train set ABC上进行学习，并获得最佳的设备分类模型Device-C。

如图4所示，设备分类模型由2层一维卷积层和一层全连接组成，分别设置卷积核的个数为256、128，设置全连接层神经元的个数为10。

步骤400，利用训练好的设备分类模型提取设备特性，结合设备分类模型，获得设备识别模型Device-R：选择自编码器作为设备识别模型，主要由编码器(Encoder)和解码器(Decoder)组成，使用模型Device-C的网络结构作为Encoder部分，并固定该部分参数。Decoder则是与Encoder对称的网络结构，使用最小误差函数作为损失函数，训练Decoder部分，从而完成对设备特性的重构，获得设备识别模型Device-R；

如图5所示，Conv1D表示一维卷积，卷积核的大小为2×1，设置步长为1，其中卷积层的个数分别设置为相对称的个数256、128、128、256个，激活函数为线性修正单元(Relu)，引入BN机制。

步骤500，所有模型建立之后，进行数据自动录制并收集存储，并对收集的录制数据进行声学场景命名，并存储至云端。该步骤实际上包括数据自动收集存储模块和设备识别判决模块和云端更新模块。

1、数据自动收集存储模块：为了提升用户的使用感，且考虑到移动设备录制的数据录制成本较高，因此在用户使用过程中，对各用户的使用数据进行收集并整理。当用户使用与语音相关应用软件(聊天软件、购物软件、导航软件等)时，自动启用环境音录制功能，忽略用户聊天内容，保护用户的隐私，将录制的声学场景数据命名为User-n(n＝1、2、…、N)格式，N表示音频数据的总数目，然后将用户的所有数据转存到云端，方便后续使用。

2、设备识别判决模块：加载模型BC-ASC、Device-R，将用户数据作为上述模型的输入，根据输出结果，识别用户数据所表征的声学场景及所使用的移动设备，对用户使用数据进行分类，达到获得用户的专属数据Train set User的目的。当模型Device-R的得分小于阈值θ时，则将录制设备判断为已知设备，并给出设备标签，若得分大于阈值，则直接将其判断为未知设备。随机抽取用户的一条数据，本发明提出的设备识别及数据整理流程如图6所示。

3云端更新模块：由于上述步骤已获取了用户常用的设备和常在的声学场景环境数据集Train set User，利用用户数据再次微调分类模型BC-ASC。该模型会学习到用户使用的移动设备特性，提高对用户常用设备所录制的音频数据的分类准确度，建立个性化定制的场景分类模型User-ASC，提升用户使用感。

以下将举一例子来说明上述实施例。

另外，为了验证本发明所提方法的有效性，在声学场景分类和检测的国际评测DCASE的相应任务上进行了初步的验证，具体介绍如下：

(1)数据集配置：

本实例获取到的音频数据集来自声音场景分类和声音事件检测挑战赛(Detection and Classification of Acoustic Scenes and Events(DCASE)，选用DCASE2019中声学场景分类任务(Acoustic Scenes Classification)的音频数据集TUTUrban Acoustic Scenes 2019，该数据集分别记录了11个不同城市的十种声学场景，分别为：机场、商场、站台、人行接到、公共广场、街道(机动车道)、电车、公交、城市公园。每个场景类别已预定义过，并且选择合适的位置进行录制。

该数据集包括开发集(Development dataset，共16560段)和验证集(Evaluationdataset，共10800段)。本实施例仅使用开发集数据(Development)，开发集数据被进一步划分为一个训练集(train set，共10265段)、一个测试集(test set，共5265段)用于系统训练。每段音频均是10s时长、采样率为44.1kHz、24bit量化率的单声道音频数据集。使用的录音设备为Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和一个使用48kHz采样率和24位分辨率的Zoom F8录音机，称为参考设备A；其它常见的移动设备包含三星GalaxyS7、苹果iPhone SE，分别称为设备B、C；当待测音频不是由上述4种设备所录制时，称为未知设备数据。

针对声学场景音频数据集的训练集数据进行再次划分，将参考设备A录制的音频数据集定义为Train set A，将移动设备B、C录制的音频数据集定义为Train set BC，将参考设备和移动设备共同录制的音频数据集定义为Train set ABC，关于数据集配置的具体细节如图7所示。

以上，是本实例所使用的数据集，下面将介绍特征提取的细节。

(2)特征提取：

提取对数梅尔声谱图作为声学特征，对数梅尔声谱图提取的主要流程为：首先对音频数据进行预处理操作(预加重、分帧、加窗)；接着对每一帧信号进行傅里叶变换；然后将此时的频域特征通过一组梅尔频率滤波器频段的能量值进行叠加，得到数值表示该频带的特征值；最后进行取对数操作，将梅尔频谱能量进行对数处理后，有利分离频谱包络和频谱细节。在本实施例中，利用python编程语言，调用librosa工具包，通过调用内置melspectrogram函数实现对数据集Train set A/BC/ABC的对数梅尔频谱图的提取和保存。在实验过程中，先对音频进行降采样操作，采样率为22.05kHz，分别设置帧长为2048个采样点、帧移为512个采样点、三角滤波器的个数设置为256个和使用汉明窗进行加窗，所以提取的对数梅尔频谱图的大小为431帧、256维。

(3)声学场景分类模型构建：

利用参考设备所录制的的声学场景数据Train set A的对数梅尔频谱图训练基本场景分类模型A-ASC。将提取的声学特征输入通用场景分类模型，该模型可以根据声学特征输出待识别音频数据属于声学场景类别的概率值。

第一步，选择CNN9网络模型作为基本场景分类模型A-ASC，在训练集Train set A上学习获得最佳的声学模型。CNN9模型是由多层卷积层堆叠的网络，由4个卷积块(ConvBlock)的堆叠，每个卷积块实际包括两次卷积(Conv layer)和一次平均池化(Avgpooling)。卷积核的大小为3×3，设置步长为1，个数分别设置为64、128、256、512，池化核分别为2×2、1×1。

本实例利用Pytorch对网络进行训练，在模型的训练中，加入BN机制、比例为0.3的Dropout机制。优化算法为Adam，batch的大小为10，初始学习率为0.0001，每50个epoch后，学习率以0.1倍呈线性衰减。

第二步，使用由移动设备B、C所录制的场景数据组成的训练集Train set BC的声学特征在预训练的模型A-ASC上进行微调，CNN9的网络参数会进一步更新，获得对不同设备录制的音频数据有较高鲁棒性的设备独立分类模型BC-ASC；

第三步，分别提取数据集Train set A的网络表征向量，并计算场景类别均值表征E_k，根据要求筛选不同设备录制的相同信号，提取该数据集Train set ABC相应的网络表征信息，并计算每一段音频记录存在的设备特性。定义Train set ABC的片段表征向量与类均值向量E_k的差值为当前片段的设备特性/>作为设备分类模型的输入，设备特性的计算如公式(2)、(3)所示。

最后搭建设备分类模型，设备分类模型由2层一维卷积层和一层全连接组成，线性修正单元(Relu)激活函数构成，softmax输出为设备的类别，损失函数是交叉熵损失函数，在训练集Train set ABC上进行学习，并获得最佳的设备分类模型Device-C。

本发明中设置模型Device-C的卷积核的个数为256、128，全连接层神经元的个数为10。

第四步，选择自编码器作为设备识别模型Device-R，模型Device-R由Encoder、Decoder组成。Encoder使用设备分类模型，由2层卷积层和1层全连接层，线性修正单元(Relu)激活函数组成，并固定该部分的网络参数，Decoder使用和Encoder对称的结构，损失函数为最小误差函数，从而完成对设备特性进行重构。模型Device-R的输入是设备特性，在训练数据集Train set ABC上进行学习，利用自编码器对设备特性进行重构，完成对已知设备的分类和未知设备的识别。

图5为本发明所提出的设备识别模型Device-R结构示意图，Conv1D表示一维卷积，卷积核的大小为2×1，设置步长为1，其中卷积层的个数分别设置为相对称的个数256、128、128、256个，激活函数为线性修正单元(Relu)，引入BN机制。

第五步，对测试集音频数据进行预处理、特征提取，将待测数据的声学特征分别输入到模型BC-ASC、模型Device-R，即可预测待测数据的场景类别和设备类别。预测的场景类别为模型BC-ASC的输出得分中选择概率最大值对应的场景类别，根据测试数据的输出结果计算总体准确率，具体计算方式如公式(3)所示：

式中N_all表示测试样本的总数，N_true表示测试时，样本被正确分类的个数。

当模型Device-R的得分大于阈值θ时，则将录制设备判断为已知设备，并给出设备标签，若得分小于阈值，则直接将其判断为未知设备。具体公式如下所示：

式中，D表示设备类别的个数，d表示第d个设备类别，y_d表示预测的概率值。

(4)初次实验结果：

本部分实验使用多设备录制的音频数据集，研究多设备条件下的ASC系统性能。为保证提取的声学特征损失较少，选择尺寸大的对数梅尔频谱图作为网络的输入。首先对音频文件进行降采样，使其采样率为22.05kHz，然后用窗长为2048、窗移512点的汉明窗进行分帧加窗，进行2048点的FFT操作，提取256维的对数梅尔频谱图。因此，输入神经网络的特征图大小为256*431。

Claims

1.一种声学场景分类方法，其特征在于，包括以下步骤：

首先针对采用参考设备录制的场景数据，训练基本场景分类模型；具体包括：利用参考设备A的声学场景数据集Train set A，提取对数梅尔频谱图作为声学特征，用9层卷积神经网络对声学场景数据集的声学特征进行训练，获得基本场景分类模型A-ASC；

然后根据采用移动设备录制的场景数据，训练设备独立场景分类模型；具体包括：从一个或多个移动设备录制的音频形成移动设备音频数据集Train set BC，提取移动设备音频数据集中数据的声学特征，并在基本场景分类模型A-ASC上进行微调，获得与设备无关的设备独立场景分类模型BC-ASC；

根据训练好的设备独立场景分类模型，训练设备分类模型；

当用户使用与语音相关应用软件时，自动启用环境音录制功能，忽略用户聊天内容，保护用户的隐私，将录制的声学场景数据命名为User-n(n＝1、2、…、N)格式，N表示音频数据的总数目，将用户的所有数据转存到云端；加载设备独立场景分类模型，识别用户的某段输入音频，识别所述音频所表征的声学场景，再将音频片段表征向量通过设备识别模型识别用户使用的移动设备，对用户的使用数据进行分类，获得用户专属数据；提取用户专属数据Train set User的声学特征，并在已于服务端训练好的模型BC-ASC上进行微调，获得个性化定制的场景分类模型User-ASC；

当用户使用时，获得的测试语句会经过个性化的声学场景分类模型User-ASC，判断出用户当前所处的声学场景类别。

2.如权利要求1所述的一种声学场景分类方法，其特征在于，提取对数梅尔频谱图作为声学特征之前，对所述声学场景数据集进行预处理，再对预处理后的音频数据进行语音分析，提取对数梅尔频谱图作为声学特征。

3.如权利要求2所述的一种声学场景分类方法，其特征在于，对数梅尔声谱图是将声学场景数据集中的音频数据进行傅里叶变换转换到频域上，采用梅尔频率滤波器对频域信号进行再处理；然后接入一组梅尔频率滤波器，将声谱图转换到更符合人耳听觉的Mel域，获得维度较低的梅尔频谱图，在梅尔频谱图的基础上，将每个频段的特征值进行对数运算，可以获得对数梅尔频谱图。

4.如权利要求1所述的一种声学场景分类方法，其特征在于，根据训练好的设备独立场景分类模型，训练设备分类模型，具体包括：

加载训练好的所述设备独立场景分类模型BC-ASC，分别提取声学场景数据集、不同设备录制的同一信号的数据集的网络中层表征；根据声学场景数据集的表征向量进行加权平均获得类均值向量E_k，k表示第k类场景，将不同设备录制的同一信号的数据集中音频片段的表征向量定义为E_kn，表示第k类的第n个音频片段的网络表征，从而获得不同设备录制的同一信号的数据集中每条音频记录存在的设备特性表示第k类的第n个由第d个设备录制音频片段的所含的设备特性，网络表征最后用2层卷积神经网络和1层全连接层组成的模型CNN2对设备特性进行学习和分类，获得所述设备分类模型Device-C。

5.如权利要求4所述的一种声学场景分类方法，其特征在于，利用训练好的设备分类模型提取设备特性，结合设备分类模型，获得设备识别模型，具体包括：

6.如权利要求1所述的一种声学场景分类方法，其特征在于，还包括更新场景分类模型，利用收集移动设备录制的声学场景的数据，用以更新设备独立场景分类模型BC-ASC，从而获得更新后的个性化定制的场景分类模型。

7.如权利要求1所述的一种声学场景分类方法，其特征在于，所述声学场景数据集设置为采用声音场景分类和声音事件检测挑战赛的开发集的音频数据，每段音频均是10s时长、采样率为44.1kHz、24bit量化率的单声道音频数据集。