CN112466284A - 一种口罩语音鉴别方法 - Google Patents

一种口罩语音鉴别方法 Download PDF

Info

Publication number
CN112466284A
CN112466284A CN202011342629.6A CN202011342629A CN112466284A CN 112466284 A CN112466284 A CN 112466284A CN 202011342629 A CN202011342629 A CN 202011342629A CN 112466284 A CN112466284 A CN 112466284A
Authority
CN
China
Prior art keywords
low
sample
level
training
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011342629.6A
Other languages
English (en)
Other versions
CN112466284B (zh
Inventor
徐新洲
吕震
顾正
李燕
刘硕
吴尘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011342629.6A priority Critical patent/CN112466284B/zh
Publication of CN112466284A publication Critical patent/CN112466284A/zh
Application granted granted Critical
Publication of CN112466284B publication Critical patent/CN112466284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种口罩语音鉴别方法,该方法首先针对语段训练样本,得到所有语段训练样本对应的低层训练样本集合,提取出每个低层训练样本的低层描述子特征并进行特征归整化。然后,这些低层训练样本被输入到专门设计的深度神经网络,训练得到最优低层深度神经网络模型;对于测试语段样本,首先分解得到语段对应的低层测试样本,输入训练得到的网络,输出这些低层测试样本对应的低层判决,再对判决结果进行聚合,得到对该语段测试样本的类别判决。与现有方法相比,本发明的方法在口罩语音鉴别方面,能够有效地提升系统的决策性能。

Description

一种口罩语音鉴别方法
技术领域
本发明涉及语音信号智能分析技术领域,具体涉及一种使用基于低层聚合的 深度神经网络的口罩语音鉴别方法。
背景技术
语音信号处理中的计算副语言学使得从人类或动物的音频信号(即口头信号) 中提取潜在知识成为可能。典型的副语言学相关主题包括情绪和人格识别、自闭 症诊断、母语说话人语音鉴别等。作为副语言学的一个新兴课题,口罩语音鉴别 (Mask-SpeechIdentification;MSI)试图自动区分说话者是否在佩戴或未佩戴外 科口罩的情况下发音。通过采取有效措施,本课题的研究对检测公共场所人们有 无佩戴口罩的情况以防止流行病传播具有重要意义。除了使用外科口罩检测方法 之外,作为预处理步骤应用于语言(例如语音识别)或副语言任务(例如说话者 识别和情绪识别)的前置处理模块时,口罩语音鉴别则有助于提高系统的鲁棒性。
然而,目前关于口罩语音鉴别的研究主要依赖于以下两个方面。首先,大多 数现有的工作集中于探索当说话者戴着口罩时对语音的影响,这使得对口罩语音 鉴别的研究仅仅局限于特定的环境条件。此外,在不选择将所有原始特征或数字 信号传递给远程处理单元的情况下,在信号接收端采用预训练模型生成有效特征 的同时,也使得接收端处理器的额外计算和存储成本大大增加。
发明内容
发明目的:为了克服现有技术的缺陷,本发明提供一种口罩语音鉴别方法, 该方法能够在有限带宽传输信道条件下减少本地处理器的工作量,为设计针对更 广义条件下的口罩语音鉴别系统提供条件。
技术方案:本发明所述的一种口罩语音鉴别方法,采用MASC语料库数据 集,将数据库中的若干语段样本划分为训练样本集和测试样本集;每个样本都拥 有是否带口罩的类别标签,所述类别标签包括戴口罩、非戴口罩,假设训练样本 集中每个样本对应的类别标签为已知且唯一,测试样本集中每个样本对应的类别 标签为未知且唯一;该方法包括以下步骤:
(1)提取生成n维原始特征:对训练样本集和测试样本集中的每个语段样 本,分别经过处理,提取出对应的低层描述子,作为原始特征,其中n维原始 特征ComParE特征集对应的低层描述子;
并对原始特征做规整化处理,得到N个语段训练样本对应的N(LL)个低 层训练样本的规整化特征
Figure BDA0002797105530000021
其中,第k个语段训练样本对应的低层训练样本
Figure BDA0002797105530000022
其中,k=1,2,...,N,
Figure BDA0002797105530000023
将X重写为
Figure BDA0002797105530000024
(2)训练分类器:选用带有一维卷积层的深度神经网络分类器,直接使用 步骤(1)中得到的低层训练样本集特征X,并且利用其对应生成的低层训练样 本标签Y,训练深度神经网络f(·),得到低层样本的深度神经网络分类器
Figure BDA0002797105530000025
(3)测试:对于每个语段测试样本,首先得到其对应低层描述子,即得到 该语段测试样本对应的N(Te)个低层测试样本X(Te,0),通过使用步骤(1)所 述方案得到其对应的各低层测试样本的归整化特征X(Te),接着使用经步骤(2) 得到的深度神经网络分类器
Figure BDA0002797105530000026
对该语段测试样本所属的每个低层测试样本 进行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果 权重
Figure BDA0002797105530000027
(4)聚合:对于属于同一个测试语段的低层测试样本判决结果权重
Figure BDA0002797105530000028
计算该语段测试样本对应的最终打分Score(X(Te)),最终判决为 Decision(X(Te))。
具体的,所述步骤(1)中,规整化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0)
其中,N(LL)个低层训练样本的特征列向量组成的训练样本集为
Figure BDA0002797105530000031
Figure BDA0002797105530000032
Figure BDA0002797105530000033
的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素
Figure BDA0002797105530000034
的规整化处理的计 算公式为:
Figure BDA0002797105530000035
其中
Figure BDA0002797105530000036
表示X(0)第j行中最大的元素,
Figure BDA0002797105530000037
表示X(0)第j行中最小的元素;x·j
Figure BDA0002797105530000038
规整化处理后 的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一低层训练或测 试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本 集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集
Figure BDA0002797105530000039
Figure BDA00027971055300000310
具体的,所述步骤(2)中,针对低层训练样本的深度神经网络训练包括以 下步骤:
(2.1)根据N个语段训练样本的标签
Figure BDA0002797105530000041
其中
Figure BDA0002797105530000042
表示该语段样本真实类别为戴口罩语段,
Figure BDA0002797105530000043
表示非 戴口罩语段;
生成低层训练样本
Figure BDA0002797105530000044
其中,第k 个语段训练样本对应的低层训练样本标签
Figure BDA0002797105530000045
其 中k=1,2,...,N,
Figure BDA0002797105530000046
将Y重写为
Figure BDA0002797105530000047
其中每个元素为X中对 应列低层训练样本的标签;
(2.2)构建所述深度神经网络f(·);
(2.3)采用构建的深度神经网络对低层训练样本进行训练,得到最优低层 深度神经网络分类器
Figure BDA0002797105530000048
具体的,网络结构为:第一层输入层,节点数为特征数n;第二层为一维 卷积层,采用卷积核大小为1×1,卷积滤波器数量取值可为128至512;第三 至七层为全连接层,节点数分别为2048、2048、1024、512、256,激活函数均 采用线性整流函数;第八层为输出层,采用Softmax设置;网络输出的代价函数 采用不使用α平衡参数的Focal Loss,其中聚焦参数γ=2;为减轻网络过拟合, 在网络第二、三、四、五层的输出后分别加入Dropout层,其Dropout率分别为 0.2、0.5、0.5、0.5。
所述步骤(3)中,测试过程包括:对于每个语段测试样本,首先得到其对 应低层描述子,即得到该语段测试样本对应的N(Te)个低层测试样本
Figure BDA0002797105530000049
通过使用步骤一所述方案 得到其对应的各低层测试样本的归整化特征
Figure BDA00027971055300000410
接着使用经步骤五得到的深度神 经网络分类器
Figure BDA0002797105530000051
对该语段测试样本所属的每个低层测试样本进行测试,得 到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
Figure BDA0002797105530000052
具体的,所述步骤(4)中,所述聚合过程包括:对于属于同一个测试语段 的低层测试样本判决结果权重
Figure BDA0002797105530000053
0-1判决权重指
Figure BDA0002797105530000054
中元素仅允许取0 和1,其中0表示非戴口罩低层样本,1表示戴口罩低层样本;Softmax权重指
Figure BDA0002797105530000055
中元素取值在0至1之间,表示归属于戴口罩低层样本可能性;计算该语 段测试样本对应的最终打分
Figure BDA0002797105530000056
其中,向量
Figure BDA0002797105530000057
最终判决为
Figure BDA0002797105530000058
其中Decision(X(Te))=1表示将该语段测试样本判决为戴口罩语段,
而Decision(X(Te))=0表示非戴口罩语段。
有益效果:该方法首先针对语段训练样本,得到所有语段训练样本对应的低 层训练样本集合,提取出每个低层训练样本的低层描述子特征并进行特征归整化。 然后,这些低层训练样本被输入到专门设计的深度神经网络,训练得到最优低层 深度神经网络模型;对于测试语段样本,首先分解得到语段对应的低层测试样本, 输入训练得到的网络,输出这些低层测试样本对应的低层判决,再对判决结果进 行聚合,得到对该语段测试样本的类别判决。经过试验证明,与现有技术相比, 本发明的方法具有更好的性能,能够通过低层判决的聚合以及训练得到的低层深 度神经网络。此外,本发明利用低层描述子在不使用预训练模型的情况下获得低 层特征,以便在有限带宽传输信道条件下减少本地处理器的工作量。
附图说明
图1为本发明方法的流程图;
图2为当在验证和测试集上,深度神经网络卷积层采用512、256和128个 卷积滤波器时,所提出的方法对其聚合使用多数投票法的未加权准确率;
图3为使用ResNet50和支持向量机的基线结果(图3(a)),以及本发明方 法进行融合之后(图3(b))的混淆矩阵,图中示出了包括各类的召回率、误识 率和对应的正确、错误分类的样本个数。
具体实施方式
接下来结合附图对本发明做进一步详细说明。
图1为本发明提出的一种口罩语音鉴别方法的流程图。首先针对语段训练样 本,得到所有语段训练样本对应的低层训练样本集合,提取出每个低层训练样本 的低层描述子特征并进行特征归整化。然后,这些低层训练样本被输入到专门设 计的深度神经网络,训练得到最优低层深度神经网络模型;对于测试语段样本, 首先分解得到语段对应的低层测试样本,输入训练得到的网络,输出这些低层测 试样本对应的低层判决,再对判决结果进行聚合,得到对该语段测试样本的类别 判决。本发明使用了MASC(Mask AugsburgSpeech Corpus)语料库数据集来研 究口罩语音鉴别任务,将数据库中的若干语段样本划分为训练样本集和测试样本 集;每个样本都拥有是否戴口罩的类别标签,所述类别标签包括戴口罩、非戴口 罩,假设训练样本集中每个样本对应的类别标签为已知且唯一,测试样本集中每 个样本对应的类别标签为未知且唯一。该方法的步骤包括:
步骤一、提取生成n维原始特征:对训练样本集和测试样本集中的每个语 段样本,分别经过处理,提取出对应的低层描述子,作为原始特征,其中n维 原始特征为ComParE特征集对应的低层描述子;并对原始特征做规整化处理, 得到N个语段训练样本对应的N(LL)个低层训练样本的规整化特征
Figure BDA0002797105530000061
其中第k个语段训练样本对应的低 层训练样本
Figure BDA0002797105530000062
其中k=1,2,...,N,
Figure BDA0002797105530000063
将X重写为
Figure BDA0002797105530000064
本步骤中的规范化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0)
其中N(LL)个低层训练样本的特征列向量组成的训练样本集为
Figure BDA0002797105530000071
Figure BDA0002797105530000072
Figure BDA0002797105530000073
的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素
Figure BDA0002797105530000074
的规整化处理的计算 公式为:
Figure BDA0002797105530000075
其中
Figure BDA0002797105530000076
表示X(0)第j行中最大的元素,
Figure BDA0002797105530000077
表示X(0)第j行中最小的元素;x·j
Figure BDA0002797105530000078
规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一低层训练或测 试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的 语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集
Figure BDA0002797105530000079
Figure BDA00027971055300000710
步骤二、训练分类器:选用带有一维卷积层的深度神经网络分类器,直接使 用步骤一中得到的低层训练样本集特征X,并且利用其对应生成的低层训练样 本标签Y,训练深度神经网络f(·),得到低层样本的深度神经网络分类器
Figure BDA00027971055300000711
本步骤中进行的针对低层训练样本的深度神经网络训练包括顺序执行的以 下步骤:
(1)根据N个语段训练样本的标签
Figure BDA00027971055300000712
(其中
Figure BDA00027971055300000713
表示该语段样 本真实类别为戴口罩语段,
Figure BDA0002797105530000081
表示非戴口罩语段),生成低层训练样本
Figure BDA0002797105530000082
其中第k个语段训练样本对应的低 层训练样本标签
Figure BDA0002797105530000083
其中k=1,2,...,N,
Figure BDA0002797105530000084
将Y重写为
Figure BDA0002797105530000085
其中每个元素为X中对应列低层训练 样本的标签;
(2)构建步骤二中所述的深度神经网络f(·):
网络结构为:第一层输入层,节点数为特征数n;第二层为一维卷积层, 采用卷积核大小为1×1,卷积滤波器数量取值可为128至512;第三至七层为 全连接层,节点数分别为2048、2048、1024、512、256,激活函数均采用线性 整流函数(Rectified Linear Unit;ReLU);第八层为输出层,采用Softmax设置; 网络输出的代价函数采用不使用α平衡参数的Focal Loss,其中聚焦参数 (Focusing Parameter)γ=2;为减轻网络过拟合,在网络第二、三、四、五 层的输出后分别加入Dropout层,其Dropout率(Dropout Rate)分别为0.2、0.5、 0.5、0.5;
(3)采用构建的深度神经网络对低层训练样本进行训练,得到最优低层深 度神经网络分类器
Figure BDA0002797105530000086
步骤三、测试:对于每个语段测试样本,首先得到其对应低层描述子,即得 到该语段测试样本对应的N(Te)个低层测试样本X(Te,0),通过使用步骤一所述 方案得到其对应的各低层测试样本的归整化特征X(Te),接着使用经步骤二得 到的深度神经网络分类器
Figure BDA0002797105530000087
对该语段测试样本所属的每个低层测试样本进 行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
Figure BDA0002797105530000088
本步骤中的详细测试过程包括:
对于每个语段测试样本,首先得到其对应低层描述子,即得到该语段测试样 本对应的N(Te)个低层测试样本
Figure BDA0002797105530000091
通过使用步骤一所述 方案得到其对应的各低层测试样本的归整化特征
Figure BDA0002797105530000092
接着使用经步骤五得到的深 度神经网络分类器
Figure BDA0002797105530000093
对该语段测试样本所属的每个低层测试样本进行测试, 得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
Figure BDA0002797105530000094
步骤四、聚合:对于属于同一个测试语段的低层测试样本判决结果权重
Figure BDA0002797105530000095
计算该语段测试样本对应的最终打分Score(X(Te)),最终判决为 Decision(X(Te))。
本步骤中所述的详细聚合过程包括:
对于属于同一个测试语段的低层测试样本判决结果权重
Figure BDA0002797105530000096
其中低层测 试样本判决结果权重可使用0-1判决权重或Softmax权重,0-1判决权重指
Figure BDA0002797105530000097
中元素仅允许取0(表示非戴口罩低层样本)和1(表示戴口罩低层样本),Softmax 权重指
Figure BDA0002797105530000098
中元素取值在0至1之间(表示归属于戴口罩低层样本可能性); 计算该语段测试样本对应的最终打分
Figure BDA0002797105530000099
其 中向量
Figure BDA00027971055300000910
最终判决为
Figure BDA00027971055300000911
其中 Decision(X(Te))=1表示将该语段测试样本判决为戴口罩语段,而Decision(X(Te))=0表示非戴口罩语段。
下面对通过实验的方法将本实施例的方法与现有的口罩语音鉴别方法以及 进行不加权精度(Unweighted Accuracy;UA)识别率对比。
实验使用了MASC语料库的计算机副语言挑战赛数据集来研究口罩语音鉴 别任务,包含来自32个母语为德语的人(16名女性)的语块,年龄从21岁到 40岁不等。数据集的不成对语音组块涵盖了在回答问题、阅读单词(主要用于 医疗手术室的情况)和描述图片等任务中,戴和不戴外科口罩说话的情况。数据 集包含每个块的固定长度为1秒的样本,音频信号以16kHz的采样率进行处理, 并以单声道格式存储。训练集包括10895个组块(5542个戴口罩语段),而验证 /测试集(即开发集)包含7323个样本(4014个戴口罩的)用于验证集,7324 个样本(3967个戴口罩语段)用于测试集,其中验证集用于选取最优轮数。
对于低层样本的特征,实验中使用了ComParE计算副语言特征集中的低层 描述子(Low-Level Descriptors;LLDs),包括65个原始的低层描述子和它们的 差分描述子。其中低层描述子包含响度、能量、过零率(Zero-Crossing Rate;ZCR)、 相对频谱变换(RelativeSpectral Transform;RASTA)听觉频带、梅尔频率倒谱 系数(Mel Frequency CepstrumCoefficient;MFCC)、频谱特征和F0相关特征的 类别。这使得每个低层样本包含总共n=130个原始低层描述子及其差分描述子。 之后,我们将样本打乱和特征归整化的预处理步骤。实验中提取低层描述子的操 作,使用openSMILE工具包(版本为2.3.0),帧大小为60ms(对于基音频率 F0相关的低层描述子)或20ms(对于其余低层描述子),帧率为10ms。我们将使用ComParE副语言特征的低层描述子记为“LLDComParE”,该过程对于训练样 本集产生了超过100万个低层训练样本。
实验中的深度神经网络使用自适应矩估计(Adam)作为网络的优化算子, 并且初始学习速率设为8×10-6,最大轮数(Epochs)设为30。批大小(Batch Size) 设为1024。一维卷积层中的滤波器数量被设置为512。考虑到实验中的随机性, 训练过程重复进行10次实验,即训练得到10个模型。在实验中每两轮保留一次 UA值,运行结束之后保存最佳结果。
首先,实验给出了不同聚合策略、低层样本筛选和一维卷积层设置的实验结 果,以探索当前口罩语音鉴别任务中所提出方法的最佳设置。首先,使用不同的 聚合类型和低层过滤策略来检查UA性能。聚合方式可选择多数投票法(等价于 0-1低层测试样本判决结果权重)和Softmax(即采用深度神经网络输出层的 Softmax权重)法;同时考虑对低层样本进行过滤,即考虑是否采用语音活动检 测(Voice Activity Detection;VAD)模块进行预处理。这里使用的VAD通过在 F0的低层描述子特征上设置一个小阈值来实现。表1列出了使用多数投票法或 Softmax法,以及有无VAD的四种情况下验证集和测试集的语段级UAs(%;包 括它们在10次实验中的平均值和标准差)。结果表明,未使用VAD的多数投票 法中UA的性能最好。因此在接下来的实验中采用了这种设置。在聚合类型方面, 未使用VAD的最大投票法性能更好的原因可能是因为它在得到的低层样本判决 结果中通过数值的截断减少了噪声的影响。
表1
Figure BDA0002797105530000111
另一方面,我们进行了额外的实验来找到最优的一维卷积层节点数,结果如 图2所示。图2展示了在深度神经网络的卷积层中使用了512、256和128个卷 积滤波器的方法的UAs。鉴于表1中的结果,这里采用了不使用VAD的多数投 票法。我们使用Scheffe'sposthoc方法对测试集进行单因素方差分析(Analysis of Variance;ANOVA),结果表明在512个滤波器时,相比于其他两种方案,有显 著更好的UA结果(p<0.05)。
接着,将本发明中所采用的低层描述子(称为“LLDComParE”)与MFCC和 PLP(Perceptual Linear Predictive)作为低层样本特征的情况进行UA(%)的对 比,如表2中所示。其中MFCC使用39维低级样本特征(MFCC取0到12, 并加入其一阶和二阶差分值),而PLP的低级样本特征为18维,帧大小为25ms, 帧速率为10ms。使用MFCC和PLP低级样本特征时,最大轮数均设置为70, 保留UA的轮数间隔为2。结果表明作为一种低层样本特征,LLDComParE在语 段级和低层UA方面均优于MFCC和PLP。
表2
Figure BDA0002797105530000121
进一步,我们比较本发明中口罩语音鉴别方法(记作LLA-LLDComParE) 与基线结果(包括ComParE Functionals、BoAW、ResNet50、S2SAE,以上所有 都使用支持向量机(Support Vector Machine;SVM))相比的最佳UA(%),以 及不使用预训练的模型的方法(包括SpectralNet算法,以及使用MFCC和PLP 作为低层特征(分别记作LLA-MFCC和LLA-PLP))的性能,如表3所示。表 中的“融合”表示通过简单地在戴口罩语音类别上添加相乘操作来融合 LLA-LLDComParE的最好的两个UA的决策。从表中可以看出,与现有研究的 结果相比,所提出的LLA-LLDComParE表现得更好。
表3
Figure BDA0002797105530000122
Figure BDA0002797105530000131
最后为了分析对各类别的具体分类结果,分别在图3(a)和图3(b)中分 析了基线(ResNet50)和本发明中的算法实施例(融合的LLA-LLDComParE) 的混淆矩阵。结果表明,所提出的方法表现更好,对于未戴口罩语音类别的召回 率为67.5%,对戴口罩语音类别的召回率为70.6%,超过了相对应基线的57.7% 和69.1%。这验证了所提出的方法在两个类别上都有更好的识别性能。
综上所述,本实施例中所采用的LLA-LLDComParE算法通过使用基于低层 聚合的深度神经网络,采用低层样本特征级别的深度神经网络训练学习,以及低 层测试样本的聚合,在节约信号采集端计算和存储成本的前提下,对口罩语音鉴 别系统性能起到了有效的提升作用。

Claims (6)

1.一种口罩语音鉴别方法,其特征在于,采用MASC语料库数据集,将数据库中的若干语段样本划分为训练样本集和测试样本集;每个样本都拥有是否带口罩的类别标签,所述类别标签包括戴口罩、非戴口罩,假设训练样本集中每个样本对应的类别标签为已知且唯一,测试样本集中每个样本对应的类别标签为未知且唯一;该方法包括以下步骤:
(1)提取生成n维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的低层描述子,作为原始特征,其中n维原始特征ComParE特征集对应的低层描述子;
并对原始特征做规整化处理,得到N个语段训练样本对应的N(LL)个低层训练样本的规整化特征
Figure FDA0002797105520000011
其中,第k个语段训练样本对应的低层训练样本
Figure FDA0002797105520000012
其中,k=1,2,...,N,
Figure FDA0002797105520000013
将X重写为
Figure FDA0002797105520000014
(2)训练分类器:选用带有一维卷积层的深度神经网络分类器,直接使用步骤(1)中得到的低层训练样本集特征X,并且利用其对应生成的低层训练样本标签Y,训练深度神经网络f(·),得到低层样本的深度神经网络分类器
Figure FDA0002797105520000015
(3)测试:对于每个语段测试样本,首先得到其对应低层描述子,即得到该语段测试样本对应的N(Te)个低层测试样本X(Te,0),通过使用步骤(1)所述方案得到其对应的各低层测试样本的归整化特征X(Te),接着使用经步骤(2)得到的深度神经网络分类器
Figure FDA0002797105520000016
对该语段测试样本所属的每个低层测试样本进行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
Figure FDA0002797105520000017
(4)聚合:对于属于同一个测试语段的低层测试样本判决结果权重
Figure FDA0002797105520000021
计算该语段测试样本对应的最终打分Score(X(Te)),最终判决为Decision(X(Te))。
2.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(1)中,规整化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0)
其中,N(LL)个低层训练样本的特征列向量组成的训练样本集为
Figure FDA0002797105520000022
Figure FDA0002797105520000023
Figure FDA0002797105520000024
的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素
Figure FDA0002797105520000025
的规整化处理的计算公式为:
Figure FDA0002797105520000026
其中
Figure FDA0002797105520000027
表示X(0)第j行中最大的元素,
Figure FDA0002797105520000028
表示X(0)第j行中最小的元素;x·j
Figure FDA0002797105520000029
规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一低层训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集
Figure FDA00027971055200000210
Figure FDA0002797105520000031
3.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(2)中,针对低层训练样本的深度神经网络训练包括以下步骤:
(2.1)根据N个语段训练样本的标签
Figure FDA0002797105520000032
其中
Figure FDA0002797105520000038
表示该语段样本真实类别为戴口罩语段,
Figure FDA0002797105520000039
表示非戴口罩语段;
生成低层训练样本
Figure FDA0002797105520000033
其中,第k个语段训练样本对应的低层训练样本标签
Figure FDA0002797105520000034
其中k=1,2,...,N,
Figure FDA0002797105520000035
将Y重写为
Figure FDA0002797105520000036
其中每个元素为X中对应列低层训练样本的标签;
(2.2)构建所述深度神经网络f(·);
(2.3)采用构建的深度神经网络对低层训练样本进行训练,得到最优低层深度神经网络分类器
Figure FDA0002797105520000037
4.根据权利要求3所述的口罩语音鉴别方法,其特征在于,网络结构为:第一层输入层,节点数为特征数n;第二层为一维卷积层,采用卷积核大小为1×1,卷积滤波器数量取值可为128至512;第三至七层为全连接层,节点数分别为2048、2048、1024、512、256,激活函数均采用线性整流函数;第八层为输出层,采用Softmax设置;网络输出的代价函数采用不使用α平衡参数的Focal Loss,其中聚焦参数γ=2;为减轻网络过拟合,在网络第二、三、四、五层的输出后分别加入Dropout层,其Dropout率分别为0.2、0.5、0.5、0.5。
5.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(3)中,测试过程包括:对于每个语段测试样本,首先得到其对应低层描述子,即得到该语段测试样本对应的N(Te)个低层测试样本
Figure FDA0002797105520000041
通过使用步骤一所述方案得到其对应的各低层测试样本的归整化特征
Figure FDA0002797105520000042
接着使用经步骤五得到的深度神经网络分类器
Figure FDA0002797105520000043
对该语段测试样本所属的每个低层测试样本进行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
Figure FDA0002797105520000044
6.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(4)中,所述聚合过程包括:对于属于同一个测试语段的低层测试样本判决结果权重
Figure FDA0002797105520000045
0-1判决权重指
Figure FDA0002797105520000046
中元素仅允许取0和1,其中0表示非戴口罩低层样本,1表示戴口罩低层样本;Softmax权重指
Figure FDA0002797105520000047
中元素取值在0至1之间,表示归属于戴口罩低层样本可能性;计算该语段测试样本对应的最终打分
Figure FDA0002797105520000048
其中,向量
Figure FDA0002797105520000049
最终判决为
Figure FDA00027971055200000410
其中Decision(X(Te))=1表示将该语段测试样本判决为戴口罩语段,
而Decision(X(Te))=0表示非戴口罩语段。
CN202011342629.6A 2020-11-25 2020-11-25 一种口罩语音鉴别方法 Active CN112466284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342629.6A CN112466284B (zh) 2020-11-25 2020-11-25 一种口罩语音鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342629.6A CN112466284B (zh) 2020-11-25 2020-11-25 一种口罩语音鉴别方法

Publications (2)

Publication Number Publication Date
CN112466284A true CN112466284A (zh) 2021-03-09
CN112466284B CN112466284B (zh) 2023-08-22

Family

ID=74808398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342629.6A Active CN112466284B (zh) 2020-11-25 2020-11-25 一种口罩语音鉴别方法

Country Status (1)

Country Link
CN (1) CN112466284B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409821A (zh) * 2021-05-27 2021-09-17 南京邮电大学 一种语音信号未知情绪状态识别方法
CN113674737A (zh) * 2021-08-09 2021-11-19 维沃移动通信(杭州)有限公司 语音数据处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104871562A (zh) * 2012-10-31 2015-08-26 沃寇族姆系统有限公司 通过使用激光麦克风来检测语音相关的声信号的系统和方法
JP2020027610A (ja) * 2018-08-08 2020-02-20 パナソニックIpマネジメント株式会社 情報提供方法、サーバ、音声認識装置、情報提供プログラム、及び情報提供システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104871562A (zh) * 2012-10-31 2015-08-26 沃寇族姆系统有限公司 通过使用激光麦克风来检测语音相关的声信号的系统和方法
JP2020027610A (ja) * 2018-08-08 2020-02-20 パナソニックIpマネジメント株式会社 情報提供方法、サーバ、音声認識装置、情報提供プログラム、及び情報提供システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜囡;: "伪装语音GFCC与共振峰混合特征的提取与识别", 中国刑警学院学报, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409821A (zh) * 2021-05-27 2021-09-17 南京邮电大学 一种语音信号未知情绪状态识别方法
CN113674737A (zh) * 2021-08-09 2021-11-19 维沃移动通信(杭州)有限公司 语音数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112466284B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN108805089B (zh) 基于多模态的情绪识别方法
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN108805087B (zh) 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
CN108805088B (zh) 基于多模态情绪识别系统的生理信号分析子系统
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
Tirumala et al. Speaker identification features extraction methods: A systematic review
Umamaheswari et al. An enhanced human speech emotion recognition using hybrid of PRNN and KNN
WO2020248376A1 (zh) 情绪检测方法、装置、电子设备及存储介质
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN115862684A (zh) 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法
CN113257406A (zh) 基于智能眼镜的灾害救援检伤分类及辅助诊断方法
CN112466284B (zh) 一种口罩语音鉴别方法
Renjith et al. Speech based emotion recognition in Tamil and Telugu using LPCC and hurst parameters—A comparitive study using KNN and ANN classifiers
Venu IOT Based Speech Recognition System to Improve the Performance of Emotion Detection
Hariharan et al. Speech stuttering assessment using sample entropy and Least Square Support Vector Machine
Yunxiang et al. Design of efficient speech emotion recognition based on multi task learning
Tong Automatic assessment of dysarthric severity level using audio-video cross-modal approach in deep learning
Valsaraj et al. Alzheimer’s dementia detection using acoustic & linguistic features and pre-trained BERT
Carofilis et al. Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping
Singh et al. Speaker Recognition Assessment in a Continuous System for Speaker Identification
Akinpelu et al. Lightweight Deep Learning Framework for Speech Emotion Recognition
CN114881668A (zh) 一种基于多模态的欺骗检测方法
Boualoulou et al. CNN and LSTM for the classification of parkinson's disease based on the GTCC and MFCC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant