CN116312484B - 跨语言域不变声学特征提取方法和系统 - Google Patents
跨语言域不变声学特征提取方法和系统 Download PDFInfo
- Publication number
- CN116312484B CN116312484B CN202310558163.0A CN202310558163A CN116312484B CN 116312484 B CN116312484 B CN 116312484B CN 202310558163 A CN202310558163 A CN 202310558163A CN 116312484 B CN116312484 B CN 116312484B
- Authority
- CN
- China
- Prior art keywords
- domain
- feature
- language
- model
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 44
- 206010056242 Parkinsonian gait Diseases 0.000 claims abstract description 36
- 230000001575 pathological effect Effects 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 23
- 208000024891 symptom Diseases 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000018737 Parkinson disease Diseases 0.000 description 1
- 208000027089 Parkinsonian disease Diseases 0.000 description 1
- 206010034010 Parkinsonism Diseases 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种跨语言域不变声学特征提取方法和系统,所述方法主要包括以下步骤:语音信号采集;对语音数据进行预处理;训练编码块与多层前馈神经网络级联的特征提取器,提取高级语义表达并将语音特征解纠缠为两个向量;训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”;进行模型的损失计算,并更新模型的网络参数;通过模型中的特征提取器,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。相较于现有技术,本发明在面对时序数据时能够捕获更加长的时序依赖关系,帮助基于语音的跨域冻结步态分析模型实现更好的性能,使得获取到的域不变病理声学特征的域不变特性得到更好地保证。
Description
技术领域
本发明涉及一种跨语言域不变声学特征提取方法和系统,属于深度学习技术领域。
背景技术
受限于帕金森病患者语音样本的稀缺性和高昂的数据标注成本,基于语音的冻结步态声学分析发展缓慢。这是因为:语音样本的质量极易受采集环境和患者的配合程度等因素影响,同时数据的标签需要专业医生才能标注。截至目前,国内外已有少量公开的帕金森病语音数据集,这些数据集分别来自不同母语的受试者,采集方式亦存在差异,且单个数据集均存在数据容量不够大的问题。如果能够整合多个数据集进行模型的训练,这将能够极大地改善数据量不足的问题。
但传统的基于语音的声学分析技术对数据进行了一个基本假设:训练和测试数据来源于同一数据分布,表现为训练集和测试集在统计学上具有相似的统计概率分布,比如同属于步态冻结患者的语音在基频、jitter、shimmer等声学特征在数值上具有相似的分布范围。当使用来自不同国家的帕金森病患者语音数据集时,由于受试者母语发音特点的差异,将导致受试者语音提取的声学特征在统计概率分布上存在一定的差异,其数值的分布范围会受母语发音习惯的影响而改变。如果只是简单地将不同数据集的数据混合一起进行训练,必将为模型带来更多的混淆因素,使得模型的分析能力下降。传统的基于语音的声学分析方法无法有效地解决跨语言的分类识别问题,也无法将研究成果推广到分布在更广阔地域的患者使用。
有鉴于此,确有必要提出一种跨语言域不变声学特征提取方法和系统,以解决上述问题。
发明内容
本发明的目的在于提供一种跨语言域不变声学特征提取方法和系统,能够解决跨语言的冻结步态声学分析问题。
为实现上述目的,本发明提供了一种跨语言域不变声学特征提取方法,主要包括以下步骤:
步骤1、语音信号采集:采集母语不同的受试者参与语音采集任务的语音,以及记录受试者是否有冻结步态症状;
步骤2、对语音数据进行预处理,提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注;
步骤3、训练一个Transformer编码块与多层前馈神经网络级联的特征提取器,将步骤2的样本特征向量/>输入该特征提取器/>,提取高级语义表达并将语音特征/>解纠缠为两个向量,其中,/>为网络参数;
步骤4、训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”,同时还将训练两个分类器用于预测输入的特征向量的症状标签;
步骤5、根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数;
步骤6、根据步骤5训练完成的模型,通过模型中的特征提取器,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。
作为本发明的进一步改进,步骤1中,对语音信号采集的具体过程为:采集不同母语的受试者的语音,包括持续元音或重复音节,同时记录受试者是否有冻结步态症状,收集受试者使用“语言1”的语音数据,并整理为源域数据库;整理母语为“语言2”的语音数据并记为目标域数据库。
作为本发明的进一步改进,步骤2中,对语音数据进行去噪增强预处理,然后对语音信号提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注,具体过程为:
步骤21、对源域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第个样本的Fbank特征记为/>,记其分类标签为/> ,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/> ,用one-hot向量[1,0]标识样本来自源域,组成源域样本对/>,其中,s代表该数据来源于源域;
步骤22、对目标域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第个样本的Fbank特征记为/>,记其分类标签为/> ,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/> ,用one-hot向量[0,1]标识样本来自目标域,组成目标域样本对/>,其中,t代表该数据来源于目标域。
作为本发明的进一步改进,步骤3中,训练一个基于Transformer编码块与多层前馈神经网络级联的特征提取器,其中,/>为网络参数,对原始的Fbank特征/>进行解纠缠获得一个蕴含病理信息的域不变声学特征向量/>和一个包含域信息的特征向量/>,具体过程为:
步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器,该特征提取器/>的输出为两个同样长度的向量,其中一个向量为对特征向量解纠缠后获得的包含语音病理信息的高级表征向量/>,另外一个为对特征向量解纠缠后获得的包含域信息的高级表征向量/>。
作为本发明的进一步改进,步骤4中,训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”,同时还将训练两个分类器用于预测输入的特征向量的症状标签,具体过程为:
步骤41、将步骤3所述的特征向量输入分类器/>,其中/>为网络参数,获取第/>个样本的症状标签/>,将特征向量/>和其通过分类器/>获得的标签/>进行叉乘,再将结果输入域鉴别器/>进行识别,获得其域标签/>,其中,/>为网络参数;
步骤42、将步骤3所述的特征向量输入域鉴别器,其中,/>为网络参数,获取第/>个样本的域标签,将特征向量/>和其通过域鉴别器/>获得的标签/>进行叉乘,再将结果输入分类器/>识别其症状标签,获得结果,其中,/>为网络参数。
作为本发明的进一步改进,步骤5中,根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数,具体过程为:
步骤51、对于病理信息特征向量,其通过分类器/>,和领域鉴别器/>的对抗学习,融合病理信息并排除域信息,为了排除域信息,我们将通过最小化分类器/>的损失,同时最大化域鉴别器/>的损失,因此我们将有如下所示的目标函数:
,
其中,为分类器/>的损失函数,/>为域鉴别器/>的损失函数;
步骤52、对于域特征向量与病理信息特征向量/>不同的是,其通过分类器/>,和域鉴别器/>的对抗学习,融合域信息并排除病理特征信息,为了排除病理信息,我们将通过最小化域鉴别器/>的损失,同时最大化分类器/>的损失,因此,我们将有如下所示的目标函数:/>,
其中,为分类器/>的损失函数,/>为域鉴别器/>的损失函数;
步骤53、对于病理信息特征向量,为进一步确保其排除了域信息并与域特征向量/>不同,我们通过对每个域数据提取的病理信息特征向量/>和领域特征向量/>在子空间上实施正交约束来定义差分损失,将差分损失最小化以促进信息的解纠缠,记矩阵/>为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵/>为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵/>为由目标域数据提取的病理特征向量作为行组成的矩阵,/>为由目标域数据提取的域信息特征向量作为行组成的矩阵,其目标函数计算方式为:
,
其中,表示矩阵转置;
步骤54、模型的总体优化目标函数为:,模型将根据这个总体优化目标函数采用SGD优化方法。
作为本发明的进一步改进,还包括进行模型的优化与参数的迭代:
,
固定特征提取器的参数、分类器/>的参数/>、域鉴别器/>的参数/>,并最大化如下损失函数:
。
作为本发明的进一步改进,步骤6中,根据步骤5训练完成的模型,通过模型中的特征提取器,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,具体过程为:根据步骤5所述方法训练好的模型,固定特征提取器/>输出特征向量这一支路的模型参数,通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,获得最终的输出结果为一个跨语言分析声学特征/>。
为实现上述目的,本发明还提供了一种跨语言域不变声学特征提取系统,应用如上所述的跨语言域不变声学特征提取方法。
作为本发明的进一步改进,所述跨语言域不变声学特征提取系统包括:语音数据预处理模块、特征解纠缠学习模块、条件对抗迁移学习模块、模型训练与参数优化模块和冻结步态声学特征提取模块。
本发明的有益效果是:本发明在面对时序数据时能够捕获更加长的时序依赖关系,帮助基于语音的跨域冻结步态分析模型实现更好的性能,使得获取到的域不变病理声学特征的域不变特性得到更好地保证。
附图说明
图1是本发明跨语言域不变声学特征提取方法的流程示意图。
图2是本发明跨语言域不变声学特征提取方法的跨语言分析模型训练阶段框架图。
图3是本发明跨语言域不变声学特征提取方法的冻结步态跨语言声学分析特征提取模型框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
如图1至图3所示,本发明是一种基于特征解纠缠和条件对抗网络模型的跨语言域不变声学特征提取方法和系统,主要包括以下步骤:
步骤1、语音信号采集:采集不同母语的受试者的语音(包括持续元音、重复音节等),同时记录受试者是否有冻结步态症状。这里,以包含两种不同语言的语音数据集为例,收集其中使用“语言1”的语音数据,并整理为源域数据库;整理母语为“语言2”的语音数据并记为目标域数据库;
步骤2、对步骤1所述的语音信号提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注;具体步骤如下:
步骤21、将源域数据库的每一条原始语音数据进行25ms帧长10ms的偏移量分帧提取40维的Fbank特征序列记为,记其分类标签为/>(存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1]),记其域标签为/> (用one-hot向量[1,0]标识样本来自源域),组成源域样本对/>。其中/>代表该数据来源于源域,/>为样本数量;
步骤22、将目标域数据库中有冻结步态症状信息的每一条原始语音数据进行25ms帧长10ms的偏移量分帧提取40维的Fbank特征序列记为,记其分类标签为 (存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1]),记其域标签为/>(用one-hot向量[0,1]标识样本来自目标域),组成目标域样本对/>。其中代表该数据来源于目标域,/>为样本数量;
步骤3、训练一个基于Transformer编码块与两层含有32个神经元前馈神经网络级联的特征提取器,将步骤2所述的样本特征向量/>输入该特征提取器,其中,/>为网络参数,提取高级语义表达并将语音特征/>进行解纠缠为两个向量:具体步骤为:
步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器,该特征提取器/>的输出为两个同样长度的向量,其中一个向量为对特征向量/>解纠缠获得的包含病理症状信息的16维高级抽象表征向量/>,另外一个为对特征向量解纠缠获得的包含域信息的16维高级抽象表征向量/>;
步骤4、训练两个域鉴别器用于鉴别输入鉴别器的特征向量来自于源域还是目标域,同时还将训练两个分类器用于分类输入的特征向量的症状标签:具体步骤为:
步骤41、将步骤3所述的特征向量输入分类器/>,其中/>为网络参数,获取第/>个样本的症状标签/>,将特征向量/>和其通过分类器/>获得的标签/>进行叉乘,再将结果输入域鉴别器/>进行识别,其中/>为网络参数,获得其域标签/>;
步骤42、将步骤3所述的特征向量输入域鉴别器,其中/>为网络参数,获取第/>个样本的域标签,将特征向量/>和其通过域鉴别器/>获得的标签/>进行叉乘,再将结果输入分类器/>识别其症状标签,其中/>为网络参数,获得结果/>:
步骤5、根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数,其具体步骤为:
步骤51、对于病理信息特征向量,其通过分类器/>,和域鉴别器/>的对抗学习,融合病理信息并排除域信息。为了排除域信息,我们将通过最小化分类器/>的损失同时最大化域鉴别器/>的损失,因此我们将有如下所示的目标函数:
,
其中,为分类器/>的损失函数将采用交叉熵损失函数,其形式为:
,
其中,C代表类别数量,为符号函数,如果样本i的真实类别等于c,则/>取1,反之为0;/>为分类器将样本i预测为类别c的概率。域鉴别器/>也将采用上述损失函数。
步骤52、对于域特征向量与病理信息特征向量/>不同的是,其通过分类器/>,和域鉴别器/>的对抗学习,融合域信息并排除病理特征信息。为了排除病理信息,我们将通过最小化域鉴别器/>的损失同时最大化分类器/>的损失,因此我们将有如下所示的目标函数:
,
其中为分类器/>的损失函数,/>为域鉴别器/>的损失函数,其皆为交叉熵损失函数;
步骤53、对于病理信息特征向量,为进一步确保其排除了域信息并与域特征向量/>不同。我们通过对每个域数据提取的病理信息特征向量/>和领域特征向量/>在子空间上实施正交约束来定义差分损失,将差分损失最小化以促进信息的解纠缠。记矩阵/>为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵/>为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵/>为由目标域数据提取的病理特征向量作为行组成的矩阵,/>为由目标域数据提取的域信息特征向量作为行组成的矩阵,其目标函数计算方式为:
,
其中,表示矩阵转置。
步骤54、模型的总体优化目标函数为:,模型将根据这个总体优化目标函数采用随机梯度下降法(Stochastic gradient descent,SGD)优化方法,以如下所示方式进行模型的优化与参数的迭代:
,
固定特征提取器的参数、分类器/>的参数/>、域鉴别器/>的参数/>,并最大化如下损失函数:
,
步骤6、根据步骤5所述方法训练好的模型,固定特征提取器输出特征向量这一支路的模型参数,通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征/>。
本发明还提供了一种跨语言域不变声学特征提取系统,所述跨语言域不变声学特征提取系统包括:
语音数据预处理模块:用于执行步骤1和2,对获得的多个跨语言的冻结步态语音数据库的原始语音数据提取Fbank特征,并完成样本的症状标签和域标签标注工作,制作用于模型学习的源域数据集和目标域数据集;
特征解纠缠学习模块:用于执行步骤3,通过基于Transformer编码块的特征提取器对原始的Fbank特征进行解纠缠获得一个蕴含病理信息的域不变声学特征向量,一个包含域信息的特征向量;
条件对抗迁移学习模块:用于执行步骤4,对所述的病理信息特征向量进行条件对抗迁移学习获取域不变声学病理信息,对所述的域特征向量进行条件对抗迁移学习获取域信息;
模型训练与参数优化模块:用于执行步骤5,使用随机梯度下降法(Stochasticgradient descent,SGD)优化方法交替迭代模型的总体目标函数,并更新模型的网路参数;
冻结步态声学特征提取模块:用于执行步骤6,根据步骤5所述方法训练好的模型,固定特征提取器输出特征向量/>这一支路的模型参数,通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,获得最终的输出结果为一个跨语言分析声学特征/>。
综上所述,使用保留了更多语音原始信息的Fbank特征,并将其作为高级特征学习器的输入;基于Transformer编码块的特征提取器在面对时序数据时能够捕获更加长的时序依赖关系。通过显式地解纠缠域信息和域不变的病理信息,从复杂的信息中分离出具备跨域迁移的病理语音信息表征,帮助基于语音的跨域冻结步态分析模型实现更好的性能。通过条件对抗学习的方式,进一步的使得源域与目标域在公共特征空间上的条件分布差异得到更好的消除,使得获取到的域不变病理声学特征的域不变特性得到更好地保证。通过引入两个向量间的正交约束,进一步解纠缠了两种信息的关联。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种跨语言域不变声学特征提取方法,其特征在于,主要包括以下步骤:
步骤1、语音信号采集:采集母语不同的受试者参与语音采集任务的语音,以及记录受试者是否有冻结步态症状;
步骤2、对语音数据进行预处理,提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时根据语音数据来源的语言不同,将“语言1”和“语言2”作为“源域”和“目标域”进行域标签标注;
步骤3、训练一个Transformer编码块与多层前馈神经网络级联的特征提取器,将样本特征向量/>输入该特征提取器/>,提取高级语义表达并将所述样本特征向量/>解纠缠获得一个蕴含病理信息的域不变声学特征向量/>和一个包含域信息的特征向量/>,其中,/>为网络参数;
步骤4、将步骤3所述的域不变声学特征向量输入分类器/>,其中为网络参数,获取第/>个样本的症状标签/>,将域不变声学特征向量和其通过分类器/>获得的症状标签/>进行叉乘,再将结果输入域鉴别器进行识别,获得其域标签/>,其中,/>为网络参数;将步骤3所述的包含域信息的特征向量/>输入域鉴别器,其中,/>为网络参数,获取第/>个样本的域标签,将特征向量/>和其通过域鉴别器/>获得的域标签/>进行叉乘,再将结果输入分类器/>识别其症状标签,获得结果,其中,/>为网络参数;
步骤5、根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数;
步骤6、根据步骤5方法训练好的模型,固定特征提取器输出特征向量/>这一支路的模型参数,通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征/>。
2.根据权利要求1所述的跨语言域不变声学特征提取方法,其特征在于,步骤1中,对语音信号采集的具体过程为:采集不同母语的受试者的语音,包括持续元音或重复音节,同时记录受试者是否有冻结步态症状,收集受试者使用“语言1”的语音数据,并整理为源域数据库;整理母语为“语言2”的语音数据并记为目标域数据库。
3.根据权利要求2所述的跨语言域不变声学特征提取方法,其特征在于,步骤2中,对语音数据进行去噪增强预处理,然后对语音信号提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注,具体过程为:
步骤21、对源域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第个样本的Fbank特征记为/>,记其分类标签为/> ,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/> ,用one-hot向量[1,0]标识样本来自源域,组成源域样本对/>,其中, s代表该数据来源于源域;
步骤22、对目标域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第个样本的Fbank特征记为/>,记其分类标签为/>,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/> ,用one-hot向量[0,1]标识样本来自目标域,组成目标域样本对/>,其中,t代表该数据来源于目标域。
4.根据权利要求3所述的跨语言域不变声学特征提取方法,其特征在于,步骤3中,训练一个基于Transformer编码块与多层前馈神经网络级联的特征提取器,其中,/>为网络参数,对原始的Fbank特征向量进行解纠缠获得一个蕴含病理信息的域不变声学特征向量/>和一个包含域信息的特征向量,具体过程为:
步骤31、将步骤2所述的样本特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器/>,该特征提取器/>的输出为两个同样长度的向量,其中一个向量为对特征向量解纠缠后获得的蕴含病理信息的域不变声学特征向量/>,另外一个为对特征向量解纠缠后获得的包含域信息的高级表征向量/>。
5.根据权利要求1所述的跨语言域不变声学特征提取方法,其特征在于,步骤5中,根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数,具体过程为:
步骤51、对于病理信息特征向量,其通过分类器/>,和领域鉴别器/>的对抗学习,融合病理信息并排除域信息,为了排除域信息,我们将通过最小化分类器/>的损失,同时最大化域鉴别器/>的损失,因此我们将有如下所示的目标函数:
,
其中,为分类器/>的损失函数,/>为域鉴别器/>的损失函数;
步骤52、对于域特征向量与病理信息特征向量/>不同的是,其通过分类器/>,和域鉴别器/>的对抗学习,融合域信息并排除病理特征信息,为了排除病理信息,我们将通过最小化域鉴别器/>的损失,同时最大化分类器/>的损失,因此,我们将有如下所示的目标函数:
,
其中,为分类器/>的损失函数,/>为域鉴别器/>的损失函数;
步骤53、对于病理信息特征向量,为进一步确保其排除了域信息并与域特征向量/>不同,我们通过对每个域数据提取的病理信息特征向量/>和领域特征向量/>在子空间上实施正交约束来定义差分损失,将差分损失最小化以促进信息的解纠缠,记矩阵/>为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵/>为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵/>为由目标域数据提取的病理特征向量作为行组成的矩阵,/>为由目标域数据提取的域信息特征向量作为行组成的矩阵,其目标函数计算方式为:
,
其中,表示矩阵转置;
步骤54、模型的总体优化目标函数为:,模型将根据这个总体优化目标函数采用SGD优化方法。
6.根据权利要求5所述的跨语言域不变声学特征提取方法,其特征在于,还包括进行模型的优化与参数的迭代:
,
固定特征提取器的参数、分类器/>的参数/>、域鉴别器/>的参数/>,并最大化如下损失函数:
。
7.根据权利要求5所述的跨语言域不变声学特征提取方法,其特征在于,步骤6中,根据步骤5训练完成的模型,通过模型中的特征提取器,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,具体过程为:根据步骤5所述方法训练好的模型,固定特征提取器/>输出特征向量/>这一支路的模型参数,通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,获得最终的输出结果为一个跨语言分析声学特征/>。
8.一种跨语言域不变声学特征提取系统,其特征在于:应用如权利要求1-7中任一项所述的跨语言域不变声学特征提取方法。
9.根据权利要求8所述的跨语言域不变声学特征提取系统,其特征在于,所述跨语言域不变声学特征提取系统包括:语音数据预处理模块、特征解纠缠学习模块、条件对抗迁移学习模块、模型训练与参数优化模块和冻结步态声学特征提取模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558163.0A CN116312484B (zh) | 2023-05-18 | 2023-05-18 | 跨语言域不变声学特征提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558163.0A CN116312484B (zh) | 2023-05-18 | 2023-05-18 | 跨语言域不变声学特征提取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116312484A CN116312484A (zh) | 2023-06-23 |
CN116312484B true CN116312484B (zh) | 2023-09-08 |
Family
ID=86803537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310558163.0A Active CN116312484B (zh) | 2023-05-18 | 2023-05-18 | 跨语言域不变声学特征提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312484B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN112529063A (zh) * | 2020-12-03 | 2021-03-19 | 重庆大学 | 一种适用于帕金森语音数据集的深度域适应分类方法 |
CN113901209A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于类型感知的汉越跨语言事件检测方法 |
CN114299996A (zh) * | 2021-12-31 | 2022-04-08 | 南京邮电大学 | 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统 |
DE202022107050U1 (de) * | 2022-12-17 | 2023-01-31 | Vikas Mittal | Ein auf maschinellem Lernen basierendes System zur Klassifizierung der Parkinson-Krankheit anhand akustischer Merkmale |
-
2023
- 2023-05-18 CN CN202310558163.0A patent/CN116312484B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN112529063A (zh) * | 2020-12-03 | 2021-03-19 | 重庆大学 | 一种适用于帕金森语音数据集的深度域适应分类方法 |
CN113901209A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于类型感知的汉越跨语言事件检测方法 |
CN114299996A (zh) * | 2021-12-31 | 2022-04-08 | 南京邮电大学 | 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统 |
DE202022107050U1 (de) * | 2022-12-17 | 2023-01-31 | Vikas Mittal | Ein auf maschinellem Lernen basierendes System zur Klassifizierung der Parkinson-Krankheit anhand akustischer Merkmale |
Non-Patent Citations (1)
Title |
---|
季薇 等.基于掩蔽自监督语音特征提取的帕金森病检测方法.《电子与信息学报》.2023,第45卷正文1-9页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116312484A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN111191660A (zh) | 一种基于多通道协同胶囊网络的直肠癌病理学图像分类方法 | |
CN105810191A (zh) | 融合韵律信息的汉语方言辨识方法 | |
CN111597328A (zh) | 一种新事件主题提取方法 | |
CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类系统及方法 | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
CN116312484B (zh) | 跨语言域不变声学特征提取方法和系统 | |
CN115713085B (zh) | 文献主题内容分析方法及装置 | |
CN114841214B (zh) | 基于半监督判别投影的脉搏数据分类方法及装置 | |
CN113870869A (zh) | 一种基于样本不均衡的半监督语音测谎方法 | |
Zhang et al. | Speech emotion recognition method in educational scene based on machine learning | |
CN114067788A (zh) | 一种基于cnn和lstm结合的粤剧唱腔分类方法 | |
Hossain et al. | Stacked Convolutional Autoencoder with Multi-label Extreme Learning Machine (SCAE-MLELM) for Bangla Regional Language Classification | |
Das et al. | Assamese dialect identification using semi-supervised learning | |
Pentari et al. | Graph-based representations of speech signals: A novel approach for emotion recognition | |
Singh et al. | Using deep learning techniques and inferential speech statistics for AI synthesised speech recognition | |
CN115910099B (zh) | 一种基于深度概率图神经网络的乐器自动识别方法 | |
CN115565540B (zh) | 一种侵入式脑机接口汉语发音解码方法 | |
Anguraj et al. | Analysis of influencing features with spectral feature extraction and multi-class classification using deep neural network for speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |