CN112466284B

CN112466284B - 一种口罩语音鉴别方法

Info

Publication number: CN112466284B
Application number: CN202011342629.6A
Authority: CN
Inventors: 徐新洲; 吕震; 顾正; 李燕; 刘硕; 吴尘
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2023-08-22
Anticipated expiration: 2040-11-25
Also published as: CN112466284A

Abstract

本发明公开了一种口罩语音鉴别方法，该方法首先针对语段训练样本，得到所有语段训练样本对应的低层训练样本集合，提取出每个低层训练样本的低层描述子特征并进行特征归整化。然后，这些低层训练样本被输入到专门设计的深度神经网络，训练得到最优低层深度神经网络模型；对于测试语段样本，首先分解得到语段对应的低层测试样本，输入训练得到的网络，输出这些低层测试样本对应的低层判决，再对判决结果进行聚合，得到对该语段测试样本的类别判决。与现有方法相比，本发明的方法在口罩语音鉴别方面，能够有效地提升系统的决策性能。

Description

一种口罩语音鉴别方法

技术领域

本发明涉及语音信号智能分析技术领域，具体涉及一种使用基于低层聚合的深度神经网络的口罩语音鉴别方法。

背景技术

语音信号处理中的计算副语言学使得从人类或动物的音频信号(即口头信号) 中提取潜在知识成为可能。典型的副语言学相关主题包括情绪和人格识别、自闭症诊断、母语说话人语音鉴别等。作为副语言学的一个新兴课题，口罩语音鉴别 (Mask-SpeechIdentification；MSI)试图自动区分说话者是否在佩戴或未佩戴外科口罩的情况下发音。通过采取有效措施，本课题的研究对检测公共场所人们有无佩戴口罩的情况以防止流行病传播具有重要意义。除了使用外科口罩检测方法之外，作为预处理步骤应用于语言(例如语音识别)或副语言任务(例如说话者识别和情绪识别)的前置处理模块时，口罩语音鉴别则有助于提高系统的鲁棒性。

然而，目前关于口罩语音鉴别的研究主要依赖于以下两个方面。首先，大多数现有的工作集中于探索当说话者戴着口罩时对语音的影响，这使得对口罩语音鉴别的研究仅仅局限于特定的环境条件。此外，在不选择将所有原始特征或数字信号传递给远程处理单元的情况下，在信号接收端采用预训练模型生成有效特征的同时，也使得接收端处理器的额外计算和存储成本大大增加。

发明内容

发明目的：为了克服现有技术的缺陷，本发明提供一种口罩语音鉴别方法，该方法能够在有限带宽传输信道条件下减少本地处理器的工作量，为设计针对更广义条件下的口罩语音鉴别系统提供条件。

技术方案：本发明所述的一种口罩语音鉴别方法，采用MASC语料库数据集，将数据库中的若干语段样本划分为训练样本集和测试样本集；每个样本都拥有是否带口罩的类别标签，所述类别标签包括戴口罩、非戴口罩，假设训练样本集中每个样本对应的类别标签为已知且唯一，测试样本集中每个样本对应的类别标签为未知且唯一；该方法包括以下步骤：

(1)提取生成n维原始特征：对训练样本集和测试样本集中的每个语段样本，分别经过处理，提取出对应的低层描述子，作为原始特征，其中n维原始特征ComParE特征集对应的低层描述子；

并对原始特征做规整化处理，得到N个语段训练样本对应的N^(LL)个低层训练样本的规整化特征

其中，第k个语段训练样本对应的低层训练样本

其中，k＝1,2,...,N，

将X重写为

(2)训练分类器：选用带有一维卷积层的深度神经网络分类器，直接使用步骤(1)中得到的低层训练样本集特征X，并且利用其对应生成的低层训练样本标签Y，训练深度神经网络f(·)，得到低层样本的深度神经网络分类器

(3)测试：对于每个语段测试样本，首先得到其对应低层描述子，即得到该语段测试样本对应的N^(Te)个低层测试样本X^(Te,0)，通过使用步骤(1)所述方案得到其对应的各低层测试样本的归整化特征X^(Te)，接着使用经步骤(2) 得到的深度神经网络分类器对该语段测试样本所属的每个低层测试样本进行测试，得到其对应的N^(Te)个低层测试样本属于口罩语音类别的判决结果权重/>

(4)聚合：对于属于同一个测试语段的低层测试样本判决结果权重计算该语段测试样本对应的最终打分Score(X^(Te))，最终判决为 Decision(X^(Te))。

具体的，所述步骤(1)中，规整化处理的方法如下：

规整化前的所有语段样本中的任一样本的特征列向量为x⁽⁰⁾，

其中，N^(LL)个低层训练样本的特征列向量组成的训练样本集为设/>为/>的第j个特征元素；

对于任一样本的特征列向量x⁽⁰⁾，特征j对应元素的规整化处理的计算公式为：

其中表示X⁽⁰⁾第j行中最大的元素， />表示X⁽⁰⁾第j行中最小的元素；x_·j为/>规整化处理后的结果；

将任一样本中的所有的元素按照式(1)进行计算，得到任一低层训练或测试样本规整化后的特征列向量x＝[x_·1,x_·2,...,x_·n]^T，其中，属于训练样本集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集

即

具体的，所述步骤(2)中，针对低层训练样本的深度神经网络训练包括以下步骤：

(2.1)根据N个语段训练样本的标签

其中表示该语段样本真实类别为戴口罩语段，/>表示非戴口罩语段；

生成低层训练样本其中，第k 个语段训练样本对应的低层训练样本标签/>其中k＝1,2,...,N，将Y重写为其中每个元素为X中对应列低层训练样本的标签；

(2.2)构建所述深度神经网络f(·)；

(2.3)采用构建的深度神经网络对低层训练样本进行训练，得到最优低层深度神经网络分类器

具体的，网络结构为：第一层输入层，节点数为特征数n；第二层为一维卷积层，采用卷积核大小为1×1，卷积滤波器数量取值可为128至512；第三至七层为全连接层，节点数分别为2048、2048、1024、512、256，激活函数均采用线性整流函数；第八层为输出层，采用Softmax设置；网络输出的代价函数采用不使用α平衡参数的Focal Loss，其中聚焦参数γ＝2；为减轻网络过拟合，在网络第二、三、四、五层的输出后分别加入Dropout层，其Dropout率分别为 0.2、0.5、0.5、0.5。

所述步骤(3)中，测试过程包括：对于每个语段测试样本，首先得到其对应低层描述子，即得到该语段测试样本对应的N^(Te)个低层测试样本通过使用步骤一所述方案得到其对应的各低层测试样本的归整化特征 />接着使用经步骤五得到的深度神经网络分类器/>对该语段测试样本所属的每个低层测试样本进行测试，得到其对应的N^(Te)个低层测试样本属于口罩语音类别的判决结果权重

。

具体的，所述步骤(4)中，所述聚合过程包括：对于属于同一个测试语段的低层测试样本判决结果权重0-1判决权重指/>中元素仅允许取0和1，其中0表示非戴口罩低层样本，1表示戴口罩低层样本；Softmax权重指/>中元素取值在0至1之间，表示归属于戴口罩低层样本可能性；计算该语段测试样本对应的最终打分/>

其中，向量

最终判决为

其中Decision(X^(Te))＝1表示将该语段测试样本判决为戴口罩语段，

而Decision(X^(Te))＝0表示非戴口罩语段。

有益效果：该方法首先针对语段训练样本，得到所有语段训练样本对应的低层训练样本集合，提取出每个低层训练样本的低层描述子特征并进行特征归整化。然后，这些低层训练样本被输入到专门设计的深度神经网络，训练得到最优低层深度神经网络模型；对于测试语段样本，首先分解得到语段对应的低层测试样本，输入训练得到的网络，输出这些低层测试样本对应的低层判决，再对判决结果进行聚合，得到对该语段测试样本的类别判决。经过试验证明，与现有技术相比，本发明的方法具有更好的性能，能够通过低层判决的聚合以及训练得到的低层深度神经网络。此外，本发明利用低层描述子在不使用预训练模型的情况下获得低层特征，以便在有限带宽传输信道条件下减少本地处理器的工作量。

附图说明

图1为本发明方法的流程图；

图2为当在验证和测试集上，深度神经网络卷积层采用512、256和128个卷积滤波器时，所提出的方法对其聚合使用多数投票法的未加权准确率；

图3为使用ResNet50和支持向量机的基线结果(图3(a))，以及本发明方法进行融合之后(图3(b))的混淆矩阵，图中示出了包括各类的召回率、误识率和对应的正确、错误分类的样本个数。

具体实施方式

接下来结合附图对本发明做进一步详细说明。

图1为本发明提出的一种口罩语音鉴别方法的流程图。首先针对语段训练样本，得到所有语段训练样本对应的低层训练样本集合，提取出每个低层训练样本的低层描述子特征并进行特征归整化。然后，这些低层训练样本被输入到专门设计的深度神经网络，训练得到最优低层深度神经网络模型；对于测试语段样本，首先分解得到语段对应的低层测试样本，输入训练得到的网络，输出这些低层测试样本对应的低层判决，再对判决结果进行聚合，得到对该语段测试样本的类别判决。本发明使用了MASC(Mask AugsburgSpeech Corpus)语料库数据集来研究口罩语音鉴别任务，将数据库中的若干语段样本划分为训练样本集和测试样本集；每个样本都拥有是否戴口罩的类别标签，所述类别标签包括戴口罩、非戴口罩，假设训练样本集中每个样本对应的类别标签为已知且唯一，测试样本集中每个样本对应的类别标签为未知且唯一。该方法的步骤包括：

步骤一、提取生成n维原始特征：对训练样本集和测试样本集中的每个语段样本，分别经过处理，提取出对应的低层描述子，作为原始特征，其中n维原始特征为ComParE特征集对应的低层描述子；并对原始特征做规整化处理，得到N个语段训练样本对应的N^(LL)个低层训练样本的规整化特征其中第k个语段训练样本对应的低层训练样本/>其中k＝1,2,...,N， />将X重写为/>

本步骤中的规范化处理的方法如下：

其中N^(LL)个低层训练样本的特征列向量组成的训练样本集为设/>为/>的第j个特征元素；

其中表示X⁽⁰⁾第j行中最大的元素，/>表示X⁽⁰⁾第j行中最小的元素；x_·j为/>规整化处理后的结果；

将任一样本中的所有的元素按照式(1)进行计算，得到任一低层训练或测试样本规整化后的特征列向量x＝[x_·1,x_·2,...,x_·n]^T，其中，属于训练样本集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集即/>

步骤二、训练分类器：选用带有一维卷积层的深度神经网络分类器，直接使用步骤一中得到的低层训练样本集特征X，并且利用其对应生成的低层训练样本标签Y，训练深度神经网络f(·)，得到低层样本的深度神经网络分类器

本步骤中进行的针对低层训练样本的深度神经网络训练包括顺序执行的以下步骤：

(1)根据N个语段训练样本的标签

(其中/>表示该语段样本真实类别为戴口罩语段，/>表示非戴口罩语段)，生成低层训练样本其中第k个语段训练样本对应的低层训练样本标签/>其中k＝1,2,...,N，将Y重写为其中每个元素为X中对应列低层训练样本的标签；

(2)构建步骤二中所述的深度神经网络f(·)：

网络结构为：第一层输入层，节点数为特征数n；第二层为一维卷积层，采用卷积核大小为1×1，卷积滤波器数量取值可为128至512；第三至七层为全连接层，节点数分别为2048、2048、1024、512、256，激活函数均采用线性整流函数(Rectified Linear Unit；ReLU)；第八层为输出层，采用Softmax设置；网络输出的代价函数采用不使用α平衡参数的Focal Loss，其中聚焦参数 (Focusing Parameter)γ＝2；为减轻网络过拟合，在网络第二、三、四、五层的输出后分别加入Dropout层，其Dropout率(Dropout Rate)分别为0.2、0.5、 0.5、0.5；

(3)采用构建的深度神经网络对低层训练样本进行训练，得到最优低层深度神经网络分类器

步骤三、测试：对于每个语段测试样本，首先得到其对应低层描述子，即得到该语段测试样本对应的N^(Te)个低层测试样本X^(Te,0)，通过使用步骤一所述方案得到其对应的各低层测试样本的归整化特征X^(Te)，接着使用经步骤二得到的深度神经网络分类器对该语段测试样本所属的每个低层测试样本进行测试，得到其对应的N^(Te)个低层测试样本属于口罩语音类别的判决结果权重 />

本步骤中的详细测试过程包括：

对于每个语段测试样本，首先得到其对应低层描述子，即得到该语段测试样本对应的N^(Te)个低层测试样本

通过使用步骤一所述方案得到其对应的各低层测试样本的归整化特征

接着使用经步骤五得到的深度神经网络分类器/>对该语段测试样本所属的每个低层测试样本进行测试，得到其对应的N^(Te)个低层测试样本属于口罩语音类别的判决结果权重

；

步骤四、聚合：对于属于同一个测试语段的低层测试样本判决结果权重计算该语段测试样本对应的最终打分Score(X^(Te))，最终判决为 Decision(X^(Te))。

本步骤中所述的详细聚合过程包括：

对于属于同一个测试语段的低层测试样本判决结果权重其中低层测试样本判决结果权重可使用0-1判决权重或Softmax权重，0-1判决权重指/>中元素仅允许取0(表示非戴口罩低层样本)和1(表示戴口罩低层样本)，Softmax 权重指/>中元素取值在0至1之间(表示归属于戴口罩低层样本可能性)；计算该语段测试样本对应的最终打分其中向量/>

最终判决为其中 Decision(X^(Te))＝1表示将该语段测试样本判决为戴口罩语段，而Decision(X^(Te))＝0表示非戴口罩语段。

下面对通过实验的方法将本实施例的方法与现有的口罩语音鉴别方法以及进行不加权精度(Unweighted Accuracy；UA)识别率对比。

实验使用了MASC语料库的计算机副语言挑战赛数据集来研究口罩语音鉴别任务，包含来自32个母语为德语的人(16名女性)的语块，年龄从21岁到 40岁不等。数据集的不成对语音组块涵盖了在回答问题、阅读单词(主要用于医疗手术室的情况)和描述图片等任务中，戴和不戴外科口罩说话的情况。数据集包含每个块的固定长度为1秒的样本，音频信号以16kHz的采样率进行处理，并以单声道格式存储。训练集包括10895个组块(5542个戴口罩语段)，而验证 /测试集(即开发集)包含7323个样本(4014个戴口罩的)用于验证集，7324 个样本(3967个戴口罩语段)用于测试集，其中验证集用于选取最优轮数。

对于低层样本的特征，实验中使用了ComParE计算副语言特征集中的低层描述子(Low-Level Descriptors；LLDs)，包括65个原始的低层描述子和它们的差分描述子。其中低层描述子包含响度、能量、过零率(Zero-Crossing Rate；ZCR)、相对频谱变换(RelativeSpectral Transform；RASTA)听觉频带、梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient；MFCC)、频谱特征和F0相关特征的类别。这使得每个低层样本包含总共n＝130个原始低层描述子及其差分描述子。之后，我们将样本打乱和特征归整化的预处理步骤。实验中提取低层描述子的操作，使用openSMILE工具包(版本为2.3.0)，帧大小为60ms(对于基音频率 F0相关的低层描述子)或20ms(对于其余低层描述子)，帧率为10ms。我们将使用ComParE副语言特征的低层描述子记为“LLDComParE”，该过程对于训练样本集产生了超过100万个低层训练样本。

实验中的深度神经网络使用自适应矩估计(Adam)作为网络的优化算子，并且初始学习速率设为8×10^-6，最大轮数(Epochs)设为30。批大小(Batch Size) 设为1024。一维卷积层中的滤波器数量被设置为512。考虑到实验中的随机性，训练过程重复进行10次实验，即训练得到10个模型。在实验中每两轮保留一次 UA值，运行结束之后保存最佳结果。

首先，实验给出了不同聚合策略、低层样本筛选和一维卷积层设置的实验结果，以探索当前口罩语音鉴别任务中所提出方法的最佳设置。首先，使用不同的聚合类型和低层过滤策略来检查UA性能。聚合方式可选择多数投票法(等价于 0-1低层测试样本判决结果权重)和Softmax(即采用深度神经网络输出层的 Softmax权重)法；同时考虑对低层样本进行过滤，即考虑是否采用语音活动检测(Voice Activity Detection；VAD)模块进行预处理。这里使用的VAD通过在 F0的低层描述子特征上设置一个小阈值来实现。表1列出了使用多数投票法或 Softmax法，以及有无VAD的四种情况下验证集和测试集的语段级UAs(％；包括它们在10次实验中的平均值和标准差)。结果表明，未使用VAD的多数投票法中UA的性能最好。因此在接下来的实验中采用了这种设置。在聚合类型方面，未使用VAD的最大投票法性能更好的原因可能是因为它在得到的低层样本判决结果中通过数值的截断减少了噪声的影响。

表1

另一方面，我们进行了额外的实验来找到最优的一维卷积层节点数，结果如图2所示。图2展示了在深度神经网络的卷积层中使用了512、256和128个卷积滤波器的方法的UAs。鉴于表1中的结果，这里采用了不使用VAD的多数投票法。我们使用Scheffe'sposthoc方法对测试集进行单因素方差分析(Analysis of Variance；ANOVA)，结果表明在512个滤波器时，相比于其他两种方案，有显著更好的UA结果(p<0.05)。

接着，将本发明中所采用的低层描述子(称为“LLDComParE”)与MFCC和 PLP(Perceptual Linear Predictive)作为低层样本特征的情况进行UA(％)的对比，如表2中所示。其中MFCC使用39维低级样本特征(MFCC取0到12，并加入其一阶和二阶差分值)，而PLP的低级样本特征为18维，帧大小为25ms，帧速率为10ms。使用MFCC和PLP低级样本特征时，最大轮数均设置为70，保留UA的轮数间隔为2。结果表明作为一种低层样本特征，LLDComParE在语段级和低层UA方面均优于MFCC和PLP。

表2

进一步，我们比较本发明中口罩语音鉴别方法(记作LLA-LLDComParE) 与基线结果(包括ComParE Functionals、BoAW、ResNet50、S2SAE，以上所有都使用支持向量机(Support Vector Machine；SVM))相比的最佳UA(％)，以及不使用预训练的模型的方法(包括SpectralNet算法，以及使用MFCC和PLP 作为低层特征(分别记作LLA-MFCC和LLA-PLP))的性能，如表3所示。表中的“融合”表示通过简单地在戴口罩语音类别上添加相乘操作来融合 LLA-LLDComParE的最好的两个UA的决策。从表中可以看出，与现有研究的结果相比，所提出的LLA-LLDComParE表现得更好。

表3

最后为了分析对各类别的具体分类结果，分别在图3(a)和图3(b)中分析了基线(ResNet50)和本发明中的算法实施例(融合的LLA-LLDComParE) 的混淆矩阵。结果表明，所提出的方法表现更好，对于未戴口罩语音类别的召回率为67.5％，对戴口罩语音类别的召回率为70.6％，超过了相对应基线的57.7％和69.1％。这验证了所提出的方法在两个类别上都有更好的识别性能。

综上所述，本实施例中所采用的LLA-LLDComParE算法通过使用基于低层聚合的深度神经网络，采用低层样本特征级别的深度神经网络训练学习，以及低层测试样本的聚合，在节约信号采集端计算和存储成本的前提下，对口罩语音鉴别系统性能起到了有效的提升作用。

Claims

1.一种口罩语音鉴别方法，其特征在于，采用MASC语料库数据集，将数据库中的若干语段样本划分为训练样本集和测试样本集；每个样本都拥有是否带口罩的类别标签，所述类别标签包括戴口罩、非戴口罩，假设训练样本集中每个样本对应的类别标签为已知且唯一，测试样本集中每个样本对应的类别标签为未知且唯一；该方法包括以下步骤：

其中，第k个语段训练样本对应的低层训练样本

其中，

将X重写为

(3)测试：对于每个语段测试样本，首先得到其对应低层描述子，即得到该语段测试样本对应的N^(Te)个低层测试样本X^(Te,0)，通过步骤(1)得到其对应的各低层测试样本的归整化特征X^(Te)，接着使用经步骤(2)得到的深度神经网络分类器对该语段测试样本所属的每个低层测试样本进行测试，得到其对应的N^(Te)个低层测试样本属于口罩语音类别的判决结果权重/>

(4)聚合：对于属于同一个测试语段的低层测试样本判决结果权重计算该语段测试样本对应的最终打分Score(X^(Te))，最终判决为Decision(X^(Te))。

2.根据权利要求1所述的口罩语音鉴别方法，其特征在于，所述步骤(1)中，规整化处理的方法如下：

其中表示X⁽⁰第j行中最大的元素，/>表示X⁽⁰⁾第j行中最小的元素；x_·j为/>规整化处理后的结果；

即

3.根据权利要求1所述的口罩语音鉴别方法，其特征在于，所述步骤(2)中，针对低层训练样本的深度神经网络训练包括以下步骤：

(2.1)根据N个语段训练样本的标签

生成低层训练样本其中，第k个语段训练样本对应的低层训练样本标签/>其中k＝1,2,...,N，将Y重写为其中每个元素为X中对应列低层训练样本的标签；

(2.2)构建所述深度神经网络f(·)；

4.根据权利要求3所述的口罩语音鉴别方法，其特征在于，网络结构为：第一层输入层，节点数为特征数n；第二层为一维卷积层，采用卷积核大小为1×1，卷积滤波器数量取值为128至512；第三至七层为全连接层，节点数分别为2048、2048、1024、512、256，激活函数均采用线性整流函数；第八层为输出层，采用Softmax设置；网络输出的代价函数采用不使用α平衡参数的Focal Loss，其中聚焦参数γ＝2；为减轻网络过拟合，在网络第二、三、四、五层的输出后分别加入Dropout层，其Dropout率分别为0.2、0.5、0.5、0.5。

5.根据权利要求1所述的口罩语音鉴别方法，其特征在于，所述步骤(3)中，测试过程包括：对于每个语段测试样本，首先得到其对应低层描述子，即得到该语段测试样本对应的N^(Te)个低层测试样本通过使用步骤一所述方案得到其对应的各低层测试样本的归整化特征/>接着使用经步骤五得到的深度神经网络分类器/>对该语段测试样本所属的每个低层测试样本进行测试，得到其对应的N^(Te)个低层测试样本属于口罩语音类别的判决结果权重

。

6.根据权利要求1所述的口罩语音鉴别方法，其特征在于，所述步骤(4)中聚合过程包括：对于属于同一个测试语段的低层测试样本判决结果权重0-1判决权重指/>中元素仅允许取0和1，其中0表示非戴口罩低层样本，1表示戴口罩低层样本；Softmax权重指/>中元素取值在0至1之间，表示归属于戴口罩低层样本可能性；计算该语段测试样本对应的最终打分/>

其中，向量

最终判决为

而Decision(X^(Te))＝0表示非戴口罩语段。