CN112466284B - 一种口罩语音鉴别方法 - Google Patents
一种口罩语音鉴别方法 Download PDFInfo
- Publication number
- CN112466284B CN112466284B CN202011342629.6A CN202011342629A CN112466284B CN 112466284 B CN112466284 B CN 112466284B CN 202011342629 A CN202011342629 A CN 202011342629A CN 112466284 B CN112466284 B CN 112466284B
- Authority
- CN
- China
- Prior art keywords
- low
- sample
- training
- speech segment
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000012360 testing method Methods 0.000 claims abstract description 106
- 238000013528 artificial neural network Methods 0.000 claims abstract description 38
- 238000010606 normalization Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 10
- 238000010200 validation analysis Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001014642 Rasta Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 238000001543 one-way ANOVA Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种口罩语音鉴别方法,该方法首先针对语段训练样本,得到所有语段训练样本对应的低层训练样本集合,提取出每个低层训练样本的低层描述子特征并进行特征归整化。然后,这些低层训练样本被输入到专门设计的深度神经网络,训练得到最优低层深度神经网络模型;对于测试语段样本,首先分解得到语段对应的低层测试样本,输入训练得到的网络,输出这些低层测试样本对应的低层判决,再对判决结果进行聚合,得到对该语段测试样本的类别判决。与现有方法相比,本发明的方法在口罩语音鉴别方面,能够有效地提升系统的决策性能。
Description
技术领域
本发明涉及语音信号智能分析技术领域,具体涉及一种使用基于低层聚合的 深度神经网络的口罩语音鉴别方法。
背景技术
语音信号处理中的计算副语言学使得从人类或动物的音频信号(即口头信号) 中提取潜在知识成为可能。典型的副语言学相关主题包括情绪和人格识别、自闭 症诊断、母语说话人语音鉴别等。作为副语言学的一个新兴课题,口罩语音鉴别 (Mask-SpeechIdentification;MSI)试图自动区分说话者是否在佩戴或未佩戴外 科口罩的情况下发音。通过采取有效措施,本课题的研究对检测公共场所人们有 无佩戴口罩的情况以防止流行病传播具有重要意义。除了使用外科口罩检测方法 之外,作为预处理步骤应用于语言(例如语音识别)或副语言任务(例如说话者 识别和情绪识别)的前置处理模块时,口罩语音鉴别则有助于提高系统的鲁棒性。
然而,目前关于口罩语音鉴别的研究主要依赖于以下两个方面。首先,大多 数现有的工作集中于探索当说话者戴着口罩时对语音的影响,这使得对口罩语音 鉴别的研究仅仅局限于特定的环境条件。此外,在不选择将所有原始特征或数字 信号传递给远程处理单元的情况下,在信号接收端采用预训练模型生成有效特征 的同时,也使得接收端处理器的额外计算和存储成本大大增加。
发明内容
发明目的:为了克服现有技术的缺陷,本发明提供一种口罩语音鉴别方法, 该方法能够在有限带宽传输信道条件下减少本地处理器的工作量,为设计针对更 广义条件下的口罩语音鉴别系统提供条件。
技术方案:本发明所述的一种口罩语音鉴别方法,采用MASC语料库数据 集,将数据库中的若干语段样本划分为训练样本集和测试样本集;每个样本都拥 有是否带口罩的类别标签,所述类别标签包括戴口罩、非戴口罩,假设训练样本 集中每个样本对应的类别标签为已知且唯一,测试样本集中每个样本对应的类别 标签为未知且唯一;该方法包括以下步骤:
(1)提取生成n维原始特征:对训练样本集和测试样本集中的每个语段样 本,分别经过处理,提取出对应的低层描述子,作为原始特征,其中n维原始 特征ComParE特征集对应的低层描述子;
并对原始特征做规整化处理,得到N个语段训练样本对应的N(LL)个低 层训练样本的规整化特征
其中,第k个语段训练样本对应的低层训练样本
其中,k=1,2,...,N,
将X重写为
(2)训练分类器:选用带有一维卷积层的深度神经网络分类器,直接使用 步骤(1)中得到的低层训练样本集特征X,并且利用其对应生成的低层训练样 本标签Y,训练深度神经网络f(·),得到低层样本的深度神经网络分类器
(3)测试:对于每个语段测试样本,首先得到其对应低层描述子,即得到 该语段测试样本对应的N(Te)个低层测试样本X(Te,0),通过使用步骤(1)所 述方案得到其对应的各低层测试样本的归整化特征X(Te),接着使用经步骤(2) 得到的深度神经网络分类器对该语段测试样本所属的每个低层测试样本 进行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果 权重/>
(4)聚合:对于属于同一个测试语段的低层测试样本判决结果权重计算该语段测试样本对应的最终打分Score(X(Te)),最终判决为 Decision(X(Te))。
具体的,所述步骤(1)中,规整化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0),
其中,N(LL)个低层训练样本的特征列向量组成的训练样本集为设/>为/>的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素的规整化处理的计 算公式为:
其中表示X(0)第j行中最大的元素, />表示X(0)第j行中最小的元素;x·j为/>规整化处理后 的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一低层训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集
即
具体的,所述步骤(2)中,针对低层训练样本的深度神经网络训练包括以 下步骤:
(2.1)根据N个语段训练样本的标签
其中表示该语段样本真实类别为戴口罩语段,/>表示非 戴口罩语段;
生成低层训练样本其中,第k 个语段训练样本对应的低层训练样本标签/>其 中k=1,2,...,N,将Y重写为其中每个元素为X中对 应列低层训练样本的标签;
(2.2)构建所述深度神经网络f(·);
(2.3)采用构建的深度神经网络对低层训练样本进行训练,得到最优低层 深度神经网络分类器
具体的,网络结构为:第一层输入层,节点数为特征数n;第二层为一维 卷积层,采用卷积核大小为1×1,卷积滤波器数量取值可为128至512;第三 至七层为全连接层,节点数分别为2048、2048、1024、512、256,激活函数均 采用线性整流函数;第八层为输出层,采用Softmax设置;网络输出的代价函数 采用不使用α平衡参数的Focal Loss,其中聚焦参数γ=2;为减轻网络过拟合, 在网络第二、三、四、五层的输出后分别加入Dropout层,其Dropout率分别为 0.2、0.5、0.5、0.5。
所述步骤(3)中,测试过程包括:对于每个语段测试样本,首先得到其对 应低层描述子,即得到该语段测试样本对应的N(Te)个低层测试样本通过使用步骤一所述方案 得到其对应的各低层测试样本的归整化特征 />接着使用经步骤五得到的深度神 经网络分类器/>对该语段测试样本所属的每个低层测试样本进行测试,得 到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
。
具体的,所述步骤(4)中,所述聚合过程包括:对于属于同一个测试语段 的低层测试样本判决结果权重0-1判决权重指/>中元素仅允许取0和1,其中0表示非戴口罩低层样本,1表示戴口罩低层样本;Softmax权重指/>中元素取值在0至1之间,表示归属于戴口罩低层样本可能性;计算该语段测试样本对应的最终打分/>
其中,向量
最终判决为
其中Decision(X(Te))=1表示将该语段测试样本判决为戴口罩语段,
而Decision(X(Te))=0表示非戴口罩语段。
有益效果:该方法首先针对语段训练样本,得到所有语段训练样本对应的低 层训练样本集合,提取出每个低层训练样本的低层描述子特征并进行特征归整化。 然后,这些低层训练样本被输入到专门设计的深度神经网络,训练得到最优低层 深度神经网络模型;对于测试语段样本,首先分解得到语段对应的低层测试样本, 输入训练得到的网络,输出这些低层测试样本对应的低层判决,再对判决结果进 行聚合,得到对该语段测试样本的类别判决。经过试验证明,与现有技术相比, 本发明的方法具有更好的性能,能够通过低层判决的聚合以及训练得到的低层深 度神经网络。此外,本发明利用低层描述子在不使用预训练模型的情况下获得低 层特征,以便在有限带宽传输信道条件下减少本地处理器的工作量。
附图说明
图1为本发明方法的流程图;
图2为当在验证和测试集上,深度神经网络卷积层采用512、256和128个 卷积滤波器时,所提出的方法对其聚合使用多数投票法的未加权准确率;
图3为使用ResNet50和支持向量机的基线结果(图3(a)),以及本发明方 法进行融合之后(图3(b))的混淆矩阵,图中示出了包括各类的召回率、误识 率和对应的正确、错误分类的样本个数。
具体实施方式
接下来结合附图对本发明做进一步详细说明。
图1为本发明提出的一种口罩语音鉴别方法的流程图。首先针对语段训练样 本,得到所有语段训练样本对应的低层训练样本集合,提取出每个低层训练样本 的低层描述子特征并进行特征归整化。然后,这些低层训练样本被输入到专门设 计的深度神经网络,训练得到最优低层深度神经网络模型;对于测试语段样本, 首先分解得到语段对应的低层测试样本,输入训练得到的网络,输出这些低层测 试样本对应的低层判决,再对判决结果进行聚合,得到对该语段测试样本的类别 判决。本发明使用了MASC(Mask AugsburgSpeech Corpus)语料库数据集来研 究口罩语音鉴别任务,将数据库中的若干语段样本划分为训练样本集和测试样本 集;每个样本都拥有是否戴口罩的类别标签,所述类别标签包括戴口罩、非戴口 罩,假设训练样本集中每个样本对应的类别标签为已知且唯一,测试样本集中每 个样本对应的类别标签为未知且唯一。该方法的步骤包括:
步骤一、提取生成n维原始特征:对训练样本集和测试样本集中的每个语 段样本,分别经过处理,提取出对应的低层描述子,作为原始特征,其中n维 原始特征为ComParE特征集对应的低层描述子;并对原始特征做规整化处理, 得到N个语段训练样本对应的N(LL)个低层训练样本的规整化特征 其中第k个语段训练样本对应的低 层训练样本/>其中k=1,2,...,N, />将X重写为/>
本步骤中的规范化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0),
其中N(LL)个低层训练样本的特征列向量组成的训练样本集为设/>为/>的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素的规整化处理的计算 公式为:
其中表示X(0)第j行中最大的元素,/>表示X(0)第j行中最小的元素;x·j为/>规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一低层训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集即/>
步骤二、训练分类器:选用带有一维卷积层的深度神经网络分类器,直接使 用步骤一中得到的低层训练样本集特征X,并且利用其对应生成的低层训练样 本标签Y,训练深度神经网络f(·),得到低层样本的深度神经网络分类器
本步骤中进行的针对低层训练样本的深度神经网络训练包括顺序执行的以 下步骤:
(1)根据N个语段训练样本的标签
(其中/>表示该语段样 本真实类别为戴口罩语段,/>表示非戴口罩语段),生成低层训练样本其中第k个语段训练样本对应的低 层训练样本标签/>其中k=1,2,...,N,将Y重写为其中每个元素为X中对应列低层训练 样本的标签;
(2)构建步骤二中所述的深度神经网络f(·):
网络结构为:第一层输入层,节点数为特征数n;第二层为一维卷积层, 采用卷积核大小为1×1,卷积滤波器数量取值可为128至512;第三至七层为 全连接层,节点数分别为2048、2048、1024、512、256,激活函数均采用线性 整流函数(Rectified Linear Unit;ReLU);第八层为输出层,采用Softmax设置; 网络输出的代价函数采用不使用α平衡参数的Focal Loss,其中聚焦参数 (Focusing Parameter)γ=2;为减轻网络过拟合,在网络第二、三、四、五 层的输出后分别加入Dropout层,其Dropout率(Dropout Rate)分别为0.2、0.5、 0.5、0.5;
(3)采用构建的深度神经网络对低层训练样本进行训练,得到最优低层深 度神经网络分类器
步骤三、测试:对于每个语段测试样本,首先得到其对应低层描述子,即得 到该语段测试样本对应的N(Te)个低层测试样本X(Te,0),通过使用步骤一所述 方案得到其对应的各低层测试样本的归整化特征X(Te),接着使用经步骤二得 到的深度神经网络分类器对该语段测试样本所属的每个低层测试样本进 行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重 />
本步骤中的详细测试过程包括:
对于每个语段测试样本,首先得到其对应低层描述子,即得到该语段测试样 本对应的N(Te)个低层测试样本
通过使用步骤一所述 方案得到其对应的各低层测试样本的归整化特征
接着使用经步骤五得到的深 度神经网络分类器/>对该语段测试样本所属的每个低层测试样本进行测试, 得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
;
步骤四、聚合:对于属于同一个测试语段的低层测试样本判决结果权重 计算该语段测试样本对应的最终打分Score(X(Te)),最终判决为 Decision(X(Te))。
本步骤中所述的详细聚合过程包括:
对于属于同一个测试语段的低层测试样本判决结果权重其中低层测 试样本判决结果权重可使用0-1判决权重或Softmax权重,0-1判决权重指/>中元素仅允许取0(表示非戴口罩低层样本)和1(表示戴口罩低层样本),Softmax 权重指/>中元素取值在0至1之间(表示归属于戴口罩低层样本可能性); 计算该语段测试样本对应的最终打分其 中向量/>
最终判决为其中 Decision(X(Te))=1表示将该语段测试样本判决为戴口罩语段,而Decision(X(Te))=0表示非戴口罩语段。
下面对通过实验的方法将本实施例的方法与现有的口罩语音鉴别方法以及 进行不加权精度(Unweighted Accuracy;UA)识别率对比。
实验使用了MASC语料库的计算机副语言挑战赛数据集来研究口罩语音鉴 别任务,包含来自32个母语为德语的人(16名女性)的语块,年龄从21岁到 40岁不等。数据集的不成对语音组块涵盖了在回答问题、阅读单词(主要用于 医疗手术室的情况)和描述图片等任务中,戴和不戴外科口罩说话的情况。数据 集包含每个块的固定长度为1秒的样本,音频信号以16kHz的采样率进行处理, 并以单声道格式存储。训练集包括10895个组块(5542个戴口罩语段),而验证 /测试集(即开发集)包含7323个样本(4014个戴口罩的)用于验证集,7324 个样本(3967个戴口罩语段)用于测试集,其中验证集用于选取最优轮数。
对于低层样本的特征,实验中使用了ComParE计算副语言特征集中的低层 描述子(Low-Level Descriptors;LLDs),包括65个原始的低层描述子和它们的 差分描述子。其中低层描述子包含响度、能量、过零率(Zero-Crossing Rate;ZCR)、 相对频谱变换(RelativeSpectral Transform;RASTA)听觉频带、梅尔频率倒谱 系数(Mel Frequency CepstrumCoefficient;MFCC)、频谱特征和F0相关特征的 类别。这使得每个低层样本包含总共n=130个原始低层描述子及其差分描述子。 之后,我们将样本打乱和特征归整化的预处理步骤。实验中提取低层描述子的操 作,使用openSMILE工具包(版本为2.3.0),帧大小为60ms(对于基音频率 F0相关的低层描述子)或20ms(对于其余低层描述子),帧率为10ms。我们将使用ComParE副语言特征的低层描述子记为“LLDComParE”,该过程对于训练样 本集产生了超过100万个低层训练样本。
实验中的深度神经网络使用自适应矩估计(Adam)作为网络的优化算子, 并且初始学习速率设为8×10-6,最大轮数(Epochs)设为30。批大小(Batch Size) 设为1024。一维卷积层中的滤波器数量被设置为512。考虑到实验中的随机性, 训练过程重复进行10次实验,即训练得到10个模型。在实验中每两轮保留一次 UA值,运行结束之后保存最佳结果。
首先,实验给出了不同聚合策略、低层样本筛选和一维卷积层设置的实验结 果,以探索当前口罩语音鉴别任务中所提出方法的最佳设置。首先,使用不同的 聚合类型和低层过滤策略来检查UA性能。聚合方式可选择多数投票法(等价于 0-1低层测试样本判决结果权重)和Softmax(即采用深度神经网络输出层的 Softmax权重)法;同时考虑对低层样本进行过滤,即考虑是否采用语音活动检 测(Voice Activity Detection;VAD)模块进行预处理。这里使用的VAD通过在 F0的低层描述子特征上设置一个小阈值来实现。表1列出了使用多数投票法或 Softmax法,以及有无VAD的四种情况下验证集和测试集的语段级UAs(%;包 括它们在10次实验中的平均值和标准差)。结果表明,未使用VAD的多数投票 法中UA的性能最好。因此在接下来的实验中采用了这种设置。在聚合类型方面, 未使用VAD的最大投票法性能更好的原因可能是因为它在得到的低层样本判决 结果中通过数值的截断减少了噪声的影响。
表1
另一方面,我们进行了额外的实验来找到最优的一维卷积层节点数,结果如 图2所示。图2展示了在深度神经网络的卷积层中使用了512、256和128个卷 积滤波器的方法的UAs。鉴于表1中的结果,这里采用了不使用VAD的多数投 票法。我们使用Scheffe'sposthoc方法对测试集进行单因素方差分析(Analysis of Variance;ANOVA),结果表明在512个滤波器时,相比于其他两种方案,有显 著更好的UA结果(p<0.05)。
接着,将本发明中所采用的低层描述子(称为“LLDComParE”)与MFCC和 PLP(Perceptual Linear Predictive)作为低层样本特征的情况进行UA(%)的对 比,如表2中所示。其中MFCC使用39维低级样本特征(MFCC取0到12, 并加入其一阶和二阶差分值),而PLP的低级样本特征为18维,帧大小为25ms, 帧速率为10ms。使用MFCC和PLP低级样本特征时,最大轮数均设置为70, 保留UA的轮数间隔为2。结果表明作为一种低层样本特征,LLDComParE在语 段级和低层UA方面均优于MFCC和PLP。
表2
进一步,我们比较本发明中口罩语音鉴别方法(记作LLA-LLDComParE) 与基线结果(包括ComParE Functionals、BoAW、ResNet50、S2SAE,以上所有 都使用支持向量机(Support Vector Machine;SVM))相比的最佳UA(%),以 及不使用预训练的模型的方法(包括SpectralNet算法,以及使用MFCC和PLP 作为低层特征(分别记作LLA-MFCC和LLA-PLP))的性能,如表3所示。表 中的“融合”表示通过简单地在戴口罩语音类别上添加相乘操作来融合 LLA-LLDComParE的最好的两个UA的决策。从表中可以看出,与现有研究的 结果相比,所提出的LLA-LLDComParE表现得更好。
表3
最后为了分析对各类别的具体分类结果,分别在图3(a)和图3(b)中分 析了基线(ResNet50)和本发明中的算法实施例(融合的LLA-LLDComParE) 的混淆矩阵。结果表明,所提出的方法表现更好,对于未戴口罩语音类别的召回 率为67.5%,对戴口罩语音类别的召回率为70.6%,超过了相对应基线的57.7% 和69.1%。这验证了所提出的方法在两个类别上都有更好的识别性能。
综上所述,本实施例中所采用的LLA-LLDComParE算法通过使用基于低层 聚合的深度神经网络,采用低层样本特征级别的深度神经网络训练学习,以及低 层测试样本的聚合,在节约信号采集端计算和存储成本的前提下,对口罩语音鉴 别系统性能起到了有效的提升作用。
Claims (6)
1.一种口罩语音鉴别方法,其特征在于,采用MASC语料库数据集,将数据库中的若干语段样本划分为训练样本集和测试样本集;每个样本都拥有是否带口罩的类别标签,所述类别标签包括戴口罩、非戴口罩,假设训练样本集中每个样本对应的类别标签为已知且唯一,测试样本集中每个样本对应的类别标签为未知且唯一;该方法包括以下步骤:
(1)提取生成n维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的低层描述子,作为原始特征,其中n维原始特征ComParE特征集对应的低层描述子;
并对原始特征做规整化处理,得到N个语段训练样本对应的N(LL)个低层训练样本的规整化特征
其中,第k个语段训练样本对应的低层训练样本
其中,
将X重写为
(2)训练分类器:选用带有一维卷积层的深度神经网络分类器,直接使用步骤(1)中得到的低层训练样本集特征X,并且利用其对应生成的低层训练样本标签Y,训练深度神经网络f(·),得到低层样本的深度神经网络分类器
(3)测试:对于每个语段测试样本,首先得到其对应低层描述子,即得到该语段测试样本对应的N(Te)个低层测试样本X(Te,0),通过步骤(1)得到其对应的各低层测试样本的归整化特征X(Te),接着使用经步骤(2)得到的深度神经网络分类器对该语段测试样本所属的每个低层测试样本进行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重/>
(4)聚合:对于属于同一个测试语段的低层测试样本判决结果权重计算该语段测试样本对应的最终打分Score(X(Te)),最终判决为Decision(X(Te))。
2.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(1)中,规整化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0),
其中,N(LL)个低层训练样本的特征列向量组成的训练样本集为设/>为/>的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0第j行中最大的元素,/>表示X(0)第j行中最小的元素;x·j为/>规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一低层训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成低层训练样本的规整化特征向量集
即
3.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(2)中,针对低层训练样本的深度神经网络训练包括以下步骤:
(2.1)根据N个语段训练样本的标签
其中表示该语段样本真实类别为戴口罩语段,/>表示非戴口罩语段;
生成低层训练样本其中,第k个语段训练样本对应的低层训练样本标签/>其中k=1,2,...,N,将Y重写为其中每个元素为X中对应列低层训练样本的标签;
(2.2)构建所述深度神经网络f(·);
(2.3)采用构建的深度神经网络对低层训练样本进行训练,得到最优低层深度神经网络分类器
4.根据权利要求3所述的口罩语音鉴别方法,其特征在于,网络结构为:第一层输入层,节点数为特征数n;第二层为一维卷积层,采用卷积核大小为1×1,卷积滤波器数量取值为128至512;第三至七层为全连接层,节点数分别为2048、2048、1024、512、256,激活函数均采用线性整流函数;第八层为输出层,采用Softmax设置;网络输出的代价函数采用不使用α平衡参数的Focal Loss,其中聚焦参数γ=2;为减轻网络过拟合,在网络第二、三、四、五层的输出后分别加入Dropout层,其Dropout率分别为0.2、0.5、0.5、0.5。
5.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(3)中,测试过程包括:对于每个语段测试样本,首先得到其对应低层描述子,即得到该语段测试样本对应的N(Te)个低层测试样本通过使用步骤一所述方案得到其对应的各低层测试样本的归整化特征/>接着使用经步骤五得到的深度神经网络分类器/>对该语段测试样本所属的每个低层测试样本进行测试,得到其对应的N(Te)个低层测试样本属于口罩语音类别的判决结果权重
。
6.根据权利要求1所述的口罩语音鉴别方法,其特征在于,所述步骤(4)中聚合过程包括:对于属于同一个测试语段的低层测试样本判决结果权重0-1判决权重指/>中元素仅允许取0和1,其中0表示非戴口罩低层样本,1表示戴口罩低层样本;Softmax权重指/>中元素取值在0至1之间,表示归属于戴口罩低层样本可能性;计算该语段测试样本对应的最终打分/>
其中,向量
最终判决为
其中Decision(X(Te))=1表示将该语段测试样本判决为戴口罩语段,
而Decision(X(Te))=0表示非戴口罩语段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011342629.6A CN112466284B (zh) | 2020-11-25 | 2020-11-25 | 一种口罩语音鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011342629.6A CN112466284B (zh) | 2020-11-25 | 2020-11-25 | 一种口罩语音鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466284A CN112466284A (zh) | 2021-03-09 |
CN112466284B true CN112466284B (zh) | 2023-08-22 |
Family
ID=74808398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011342629.6A Active CN112466284B (zh) | 2020-11-25 | 2020-11-25 | 一种口罩语音鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466284B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409821B (zh) * | 2021-05-27 | 2023-04-18 | 南京邮电大学 | 一种语音信号未知情绪状态识别方法 |
CN113674737A (zh) * | 2021-08-09 | 2021-11-19 | 维沃移动通信(杭州)有限公司 | 语音数据处理方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104871562A (zh) * | 2012-10-31 | 2015-08-26 | 沃寇族姆系统有限公司 | 通过使用激光麦克风来检测语音相关的声信号的系统和方法 |
JP2020027610A (ja) * | 2018-08-08 | 2020-02-20 | パナソニックIpマネジメント株式会社 | 情報提供方法、サーバ、音声認識装置、情報提供プログラム、及び情報提供システム |
-
2020
- 2020-11-25 CN CN202011342629.6A patent/CN112466284B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104871562A (zh) * | 2012-10-31 | 2015-08-26 | 沃寇族姆系统有限公司 | 通过使用激光麦克风来检测语音相关的声信号的系统和方法 |
JP2020027610A (ja) * | 2018-08-08 | 2020-02-20 | パナソニックIpマネジメント株式会社 | 情報提供方法、サーバ、音声認識装置、情報提供プログラム、及び情報提供システム |
Non-Patent Citations (1)
Title |
---|
伪装语音GFCC与共振峰混合特征的提取与识别;姜囡;;中国刑警学院学报(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112466284A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Umamaheswari et al. | An enhanced human speech emotion recognition using hybrid of PRNN and KNN | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN112183107B (zh) | 音频的处理方法和装置 | |
Jacob | Modelling speech emotion recognition using logistic regression and decision trees | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN111326139B (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Dávid Sztahó et al. | Deep learning solution for pathological voice detection using LSTM-based autoencoder hybrid with multi-task learning | |
CN113066499A (zh) | 一种陆空通话说话人身份识别方法及装置 | |
Renjith et al. | Speech based emotion recognition in Tamil and Telugu using LPCC and hurst parameters—A comparitive study using KNN and ANN classifiers | |
CN115565540B (zh) | 一种侵入式脑机接口汉语发音解码方法 | |
Venu | IOT Based Speech Recognition System to Improve the Performance of Emotion Detection | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN114881668A (zh) | 一种基于多模态的欺骗检测方法 | |
Valsaraj et al. | Alzheimer’s dementia detection using acoustic & linguistic features and pre-trained BERT | |
CN116935889B (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
Gaikwad et al. | KWHO-CNN: A Hybrid Metaheuristic Algorithm Based Optimzed Attention-Driven CNN for Automatic Clinical Depression Recognition | |
Carofilis et al. | Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Xu et al. | Voiceprint recognition of Parkinson patients based on deep learning | |
Bhardwaj et al. | Identification of speech signal in moving objects using artificial neural network system | |
Anguraj et al. | Analysis of influencing features with spectral feature extraction and multi-class classification using deep neural network for speech recognition system | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
Bawa et al. | Noise-robust gender classification system through optimal selection of acoustic features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |