CN116312484A - 跨语言域不变声学特征提取方法和系统 - Google Patents

跨语言域不变声学特征提取方法和系统 Download PDF

Info

Publication number
CN116312484A
CN116312484A CN202310558163.0A CN202310558163A CN116312484A CN 116312484 A CN116312484 A CN 116312484A CN 202310558163 A CN202310558163 A CN 202310558163A CN 116312484 A CN116312484 A CN 116312484A
Authority
CN
China
Prior art keywords
domain
feature
language
acoustic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310558163.0A
Other languages
English (en)
Other versions
CN116312484B (zh
Inventor
季薇
王传瑜
李云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310558163.0A priority Critical patent/CN116312484B/zh
Publication of CN116312484A publication Critical patent/CN116312484A/zh
Application granted granted Critical
Publication of CN116312484B publication Critical patent/CN116312484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种跨语言域不变声学特征提取方法和系统,所述方法主要包括以下步骤:语音信号采集;对语音数据进行预处理;训练编码块与多层前馈神经网络级联的特征提取器,提取高级语义表达并将语音特征解纠缠为两个向量;训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”;进行模型的损失计算,并更新模型的网络参数;通过模型中的特征提取器,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。相较于现有技术,本发明在面对时序数据时能够捕获更加长的时序依赖关系,帮助基于语音的跨域冻结步态分析模型实现更好的性能,使得获取到的域不变病理声学特征的域不变特性得到更好地保证。

Description

跨语言域不变声学特征提取方法和系统
技术领域
本发明涉及一种跨语言域不变声学特征提取方法和系统,属于深度学习技术领域。
背景技术
受限于帕金森病患者语音样本的稀缺性和高昂的数据标注成本,基于语音的冻结步态声学分析发展缓慢。这是因为:语音样本的质量极易受采集环境和患者的配合程度等因素影响,同时数据的标签需要专业医生才能标注。截至目前,国内外已有少量公开的帕金森病语音数据集,这些数据集分别来自不同母语的受试者,采集方式亦存在差异,且单个数据集均存在数据容量不够大的问题。如果能够整合多个数据集进行模型的训练,这将能够极大地改善数据量不足的问题。
但传统的基于语音的声学分析技术对数据进行了一个基本假设:训练和测试数据来源于同一数据分布,表现为训练集和测试集在统计学上具有相似的统计概率分布,比如同属于步态冻结患者的语音在基频、jitter、shimmer等声学特征在数值上具有相似的分布范围。当使用来自不同国家的帕金森病患者语音数据集时,由于受试者母语发音特点的差异,将导致受试者语音提取的声学特征在统计概率分布上存在一定的差异,其数值的分布范围会受母语发音习惯的影响而改变。如果只是简单地将不同数据集的数据混合一起进行训练,必将为模型带来更多的混淆因素,使得模型的分析能力下降。传统的基于语音的声学分析方法无法有效地解决跨语言的分类识别问题,也无法将研究成果推广到分布在更广阔地域的患者使用。
有鉴于此,确有必要提出一种跨语言域不变声学特征提取方法和系统,以解决上述问题。
发明内容
本发明的目的在于提供一种跨语言域不变声学特征提取方法和系统,能够解决跨语言的冻结步态声学分析问题。
为实现上述目的,本发明提供了一种跨语言域不变声学特征提取方法,主要包括以下步骤:
步骤1、语音信号采集:采集母语不同的受试者参与语音采集任务的语音,以及记录受试者是否有冻结步态症状;
步骤2、对语音数据进行预处理,提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注;
步骤3、训练一个Transformer编码块与多层前馈神经网络级联的特征提取器
Figure SMS_1
,将步骤2的样本特征向量/>
Figure SMS_2
输入该特征提取器/>
Figure SMS_3
,提取高级语义表达并将语音特征/>
Figure SMS_4
解纠缠为两个向量,其中,/>
Figure SMS_5
为网络参数;
步骤4、训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”,同时还将训练两个分类器用于预测输入的特征向量的症状标签;
步骤5、根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数;
步骤6、根据步骤5训练完成的模型,通过模型中的特征提取器
Figure SMS_6
,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。
作为本发明的进一步改进,步骤1中,对语音信号采集的具体过程为:采集不同母语的受试者的语音,包括持续元音或重复音节,同时记录受试者是否有冻结步态症状,收集受试者使用“语言1”的语音数据,并整理为源域数据库;整理母语为“语言2”的语音数据并记为目标域数据库。
作为本发明的进一步改进,步骤2中,对语音数据进行去噪增强预处理,然后对语音信号提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注,具体过程为:
步骤21、对源域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第
Figure SMS_7
个样本的Fbank特征记为/>
Figure SMS_8
,记其分类标签为/>
Figure SMS_9
,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/>
Figure SMS_10
,用one-hot向量[1,0]标识样本来自源域,组成源域样本对/>
Figure SMS_11
,其中,s代表该数据来源于源域;
步骤22、对目标域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第
Figure SMS_12
个样本的Fbank特征记为/>
Figure SMS_13
,记其分类标签为/>
Figure SMS_14
,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/>
Figure SMS_15
,用one-hot向量[0,1]标识样本来自目标域,组成目标域样本对/>
Figure SMS_16
,其中,t代表该数据来源于目标域。
作为本发明的进一步改进,步骤3中,训练一个基于Transformer编码块与多层前馈神经网络级联的特征提取器
Figure SMS_17
,其中,/>
Figure SMS_18
为网络参数,对原始的Fbank特征/>
Figure SMS_19
进行解纠缠获得一个蕴含病理信息的域不变声学特征向量/>
Figure SMS_20
和一个包含域信息的特征向量/>
Figure SMS_21
,具体过程为:
步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器
Figure SMS_22
,该特征提取器/>
Figure SMS_23
的输出为两个同样长度的向量,其中一个向量为对特征向量解纠缠后获得的包含语音病理信息的高级表征向量/>
Figure SMS_24
,另外一个为对特征向量解纠缠后获得的包含域信息的高级表征向量/>
Figure SMS_25
作为本发明的进一步改进,步骤4中,训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”,同时还将训练两个分类器用于预测输入的特征向量的症状标签,具体过程为:
步骤41、将步骤3所述的特征向量
Figure SMS_27
输入分类器/>
Figure SMS_31
,其中/>
Figure SMS_34
为网络参数,获取第/>
Figure SMS_28
个样本的症状标签/>
Figure SMS_30
,将特征向量/>
Figure SMS_33
和其通过分类器/>
Figure SMS_36
获得的标签/>
Figure SMS_26
进行叉乘,再将结果输入域鉴别器/>
Figure SMS_29
进行识别,获得其域标签
Figure SMS_32
,其中,/>
Figure SMS_35
为网络参数;
步骤42、将步骤3所述的特征向量
Figure SMS_39
输入域鉴别器/>
Figure SMS_42
,其中,/>
Figure SMS_45
为网络参数,获取第/>
Figure SMS_38
个样本的域标签/>
Figure SMS_41
,将特征向量/>
Figure SMS_44
和其通过域鉴别器/>
Figure SMS_47
获得的标签/>
Figure SMS_37
进行叉乘,再将结果输入分类器
Figure SMS_40
识别其症状标签,获得结果/>
Figure SMS_43
,其中,/>
Figure SMS_46
为网络参数。
作为本发明的进一步改进,步骤5中,根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数,具体过程为:
步骤51、对于病理信息特征向量
Figure SMS_48
,其通过分类器/>
Figure SMS_49
,和领域鉴别器/>
Figure SMS_50
的对抗学习,融合病理信息并排除域信息,为了排除域信息,我们将通过最小化分类器/>
Figure SMS_51
的损失,同时最大化域鉴别器/>
Figure SMS_52
的损失,因此我们将有如下所示的目标函数:
Figure SMS_53
其中,
Figure SMS_54
为分类器/>
Figure SMS_55
的损失函数,/>
Figure SMS_56
为域鉴别器/>
Figure SMS_57
的损失函数;
步骤52、对于域特征向量
Figure SMS_58
与病理信息特征向量/>
Figure SMS_59
不同的是,其通过分类器/>
Figure SMS_60
,和域鉴别器/>
Figure SMS_61
的对抗学习,融合域信息并排除病理特征信息,为了排除病理信息,我们将通过最小化域鉴别器/>
Figure SMS_62
的损失,同时最大化分类器/>
Figure SMS_63
的损失,因此,我们将有如下所示的目标函数:/>
Figure SMS_64
其中,
Figure SMS_65
为分类器/>
Figure SMS_66
的损失函数,/>
Figure SMS_67
为域鉴别器/>
Figure SMS_68
的损失函数;
步骤53、对于病理信息特征向量
Figure SMS_70
,为进一步确保其排除了域信息并与域特征向量/>
Figure SMS_72
不同,我们通过对每个域数据提取的病理信息特征向量/>
Figure SMS_75
和领域特征向量/>
Figure SMS_71
在子空间上实施正交约束来定义差分损失,将差分损失最小化以促进信息的解纠缠,记矩阵/>
Figure SMS_73
为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵/>
Figure SMS_74
为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵/>
Figure SMS_76
为由目标域数据提取的病理特征向量作为行组成的矩阵,/>
Figure SMS_69
为由目标域数据提取的域信息特征向量作为行组成的矩阵,其目标函数计算方式为:
Figure SMS_77
其中,
Figure SMS_78
表示矩阵转置;
步骤54、模型的总体优化目标函数为:
Figure SMS_79
,模型将根据这个总体优化目标函数采用SGD优化方法。
作为本发明的进一步改进,还包括进行模型的优化与参数的迭代:
Figure SMS_80
固定特征提取器的参数
Figure SMS_81
、分类器/>
Figure SMS_82
的参数/>
Figure SMS_83
、域鉴别器/>
Figure SMS_84
的参数/>
Figure SMS_85
,并最大化如下损失函数:
Figure SMS_86
作为本发明的进一步改进,步骤6中,根据步骤5训练完成的模型,通过模型中的特征提取器
Figure SMS_87
,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,具体过程为:根据步骤5所述方法训练好的模型,固定特征提取器/>
Figure SMS_88
输出特征向量
Figure SMS_89
这一支路的模型参数,通过这个训练好的特征提取器/>
Figure SMS_90
即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,获得最终的输出结果为一个跨语言分析声学特征/>
Figure SMS_91
为实现上述目的,本发明还提供了一种跨语言域不变声学特征提取系统,应用如上所述的跨语言域不变声学特征提取方法。
作为本发明的进一步改进,所述跨语言域不变声学特征提取系统包括:语音数据预处理模块、特征解纠缠学习模块、条件对抗迁移学习模块、模型训练与参数优化模块和冻结步态声学特征提取模块。
本发明的有益效果是:本发明在面对时序数据时能够捕获更加长的时序依赖关系,帮助基于语音的跨域冻结步态分析模型实现更好的性能,使得获取到的域不变病理声学特征的域不变特性得到更好地保证。
附图说明
图1是本发明跨语言域不变声学特征提取方法的流程示意图。
图2是本发明跨语言域不变声学特征提取方法的跨语言分析模型训练阶段框架图。
图3是本发明跨语言域不变声学特征提取方法的冻结步态跨语言声学分析特征提取模型框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
如图1至图3所示,本发明是一种基于特征解纠缠和条件对抗网络模型的跨语言域不变声学特征提取方法和系统,主要包括以下步骤:
步骤1、语音信号采集:采集不同母语的受试者的语音(包括持续元音、重复音节等),同时记录受试者是否有冻结步态症状。这里,以包含两种不同语言的语音数据集为例,收集其中使用“语言1”的语音数据,并整理为源域数据库;整理母语为“语言2”的语音数据并记为目标域数据库;
步骤2、对步骤1所述的语音信号提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注;具体步骤如下:
步骤21、将源域数据库的每一条原始语音数据进行25ms帧长10ms的偏移量分帧提取40维的Fbank特征序列记为
Figure SMS_92
,记其分类标签为/>
Figure SMS_93
(存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1]),记其域标签为/>
Figure SMS_94
(用one-hot向量[1,0]标识样本来自源域),组成源域样本对/>
Figure SMS_95
。其中/>
Figure SMS_96
代表该数据来源于源域,/>
Figure SMS_97
为样本数量;
步骤22、将目标域数据库中有冻结步态症状信息的每一条原始语音数据进行25ms帧长10ms的偏移量分帧提取40维的Fbank特征序列记为
Figure SMS_98
,记其分类标签为/>
Figure SMS_99
(存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1]),记其域标签为/>
Figure SMS_100
(用one-hot向量[0,1]标识样本来自目标域),组成目标域样本对/>
Figure SMS_101
。其中/>
Figure SMS_102
代表该数据来源于目标域,/>
Figure SMS_103
为样本数量;
步骤3、训练一个基于Transformer编码块与两层含有32个神经元前馈神经网络级联的特征提取器
Figure SMS_104
,将步骤2所述的样本特征向量/>
Figure SMS_105
输入该特征提取器
Figure SMS_106
,其中,/>
Figure SMS_107
为网络参数,提取高级语义表达并将语音特征/>
Figure SMS_108
进行解纠缠为两个向量:具体步骤为:
步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器
Figure SMS_109
,该特征提取器/>
Figure SMS_110
的输出为两个同样长度的向量,其中一个向量为对特征向量/>
Figure SMS_111
解纠缠获得的包含病理症状信息的16维高级抽象表征向量/>
Figure SMS_112
,另外一个为对特征向量解纠缠获得的包含域信息的16维高级抽象表征向量/>
Figure SMS_113
步骤4、训练两个域鉴别器用于鉴别输入鉴别器的特征向量来自于源域还是目标域,同时还将训练两个分类器用于分类输入的特征向量的症状标签:具体步骤为:
步骤41、将步骤3所述的特征向量
Figure SMS_116
输入分类器/>
Figure SMS_118
,其中/>
Figure SMS_121
为网络参数,获取第/>
Figure SMS_115
个样本的症状标签/>
Figure SMS_119
,将特征向量/>
Figure SMS_122
和其通过分类器/>
Figure SMS_124
获得的标签/>
Figure SMS_114
进行叉乘,再将结果输入域鉴别器/>
Figure SMS_117
进行识别,其中/>
Figure SMS_120
为网络参数,获得其域标签/>
Figure SMS_123
步骤42、将步骤3所述的特征向量
Figure SMS_127
输入域鉴别器/>
Figure SMS_129
,其中/>
Figure SMS_131
为网络参数,获取第/>
Figure SMS_126
个样本的域标签/>
Figure SMS_130
,将特征向量/>
Figure SMS_132
和其通过域鉴别器/>
Figure SMS_134
获得的标签/>
Figure SMS_125
进行叉乘,再将结果输入分类器
Figure SMS_128
识别其症状标签,其中/>
Figure SMS_133
为网络参数,获得结果/>
Figure SMS_135
步骤5、根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数,其具体步骤为:
步骤51、对于病理信息特征向量
Figure SMS_136
,其通过分类器/>
Figure SMS_137
,和域鉴别器/>
Figure SMS_138
的对抗学习,融合病理信息并排除域信息。为了排除域信息,我们将通过最小化分类器/>
Figure SMS_139
的损失同时最大化域鉴别器/>
Figure SMS_140
的损失,因此我们将有如下所示的目标函数:
Figure SMS_141
其中,
Figure SMS_142
为分类器/>
Figure SMS_143
的损失函数将采用交叉熵损失函数,其形式为:
Figure SMS_144
其中,C代表类别数量,
Figure SMS_145
为符号函数,如果样本i的真实类别等于c,则/>
Figure SMS_146
取1,反之为0;/>
Figure SMS_147
为分类器将样本i预测为类别c的概率。域鉴别器/>
Figure SMS_148
也将采用上述损失函数。
步骤52、对于域特征向量
Figure SMS_149
与病理信息特征向量/>
Figure SMS_150
不同的是,其通过分类器/>
Figure SMS_151
,和域鉴别器/>
Figure SMS_152
的对抗学习,融合域信息并排除病理特征信息。为了排除病理信息,我们将通过最小化域鉴别器/>
Figure SMS_153
的损失同时最大化分类器/>
Figure SMS_154
的损失,因此我们将有如下所示的目标函数:
Figure SMS_155
其中
Figure SMS_156
为分类器/>
Figure SMS_157
的损失函数,/>
Figure SMS_158
为域鉴别器/>
Figure SMS_159
的损失函数,其皆为交叉熵损失函数;
步骤53、对于病理信息特征向量
Figure SMS_161
,为进一步确保其排除了域信息并与域特征向量/>
Figure SMS_164
不同。我们通过对每个域数据提取的病理信息特征向量/>
Figure SMS_166
和领域特征向量/>
Figure SMS_162
在子空间上实施正交约束来定义差分损失,将差分损失最小化以促进信息的解纠缠。记矩阵/>
Figure SMS_163
为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵/>
Figure SMS_165
为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵/>
Figure SMS_167
为由目标域数据提取的病理特征向量作为行组成的矩阵,/>
Figure SMS_160
为由目标域数据提取的域信息特征向量作为行组成的矩阵,其目标函数计算方式为:
Figure SMS_168
其中,
Figure SMS_169
表示矩阵转置。
步骤54、模型的总体优化目标函数为:
Figure SMS_170
,模型将根据这个总体优化目标函数采用随机梯度下降法(Stochastic gradient descent,SGD)优化方法,以如下所示方式进行模型的优化与参数的迭代:
Figure SMS_171
固定特征提取器的参数
Figure SMS_172
、分类器/>
Figure SMS_173
的参数/>
Figure SMS_174
、域鉴别器/>
Figure SMS_175
的参数/>
Figure SMS_176
,并最大化如下损失函数:
Figure SMS_177
步骤6、根据步骤5所述方法训练好的模型,固定特征提取器
Figure SMS_178
输出特征向量/>
Figure SMS_179
这一支路的模型参数,通过这个训练好的特征提取器/>
Figure SMS_180
即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征/>
Figure SMS_181
本发明还提供了一种跨语言域不变声学特征提取系统,所述跨语言域不变声学特征提取系统包括:
语音数据预处理模块:用于执行步骤1和2,对获得的多个跨语言的冻结步态语音数据库的原始语音数据提取Fbank特征,并完成样本的症状标签和域标签标注工作,制作用于模型学习的源域数据集和目标域数据集;
特征解纠缠学习模块:用于执行步骤3,通过基于Transformer编码块的特征提取器对原始的Fbank特征进行解纠缠获得一个蕴含病理信息的域不变声学特征向量,一个包含域信息的特征向量;
条件对抗迁移学习模块:用于执行步骤4,对所述的病理信息特征向量
Figure SMS_182
进行条件对抗迁移学习获取域不变声学病理信息,对所述的域特征向量进行条件对抗迁移学习获取域信息;
模型训练与参数优化模块:用于执行步骤5,使用随机梯度下降法(Stochasticgradient descent,SGD)优化方法交替迭代模型的总体目标函数,并更新模型的网路参数;
冻结步态声学特征提取模块:用于执行步骤6,根据步骤5所述方法训练好的模型,固定特征提取器
Figure SMS_183
输出特征向量/>
Figure SMS_184
这一支路的模型参数,通过这个训练好的特征提取器/>
Figure SMS_185
即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,获得最终的输出结果为一个跨语言分析声学特征/>
Figure SMS_186
综上所述,使用保留了更多语音原始信息的Fbank特征,并将其作为高级特征学习器的输入;基于Transformer编码块的特征提取器在面对时序数据时能够捕获更加长的时序依赖关系。通过显式地解纠缠域信息和域不变的病理信息,从复杂的信息中分离出具备跨域迁移的病理语音信息表征,帮助基于语音的跨域冻结步态分析模型实现更好的性能。通过条件对抗学习的方式,进一步的使得源域与目标域在公共特征空间上的条件分布差异得到更好的消除,使得获取到的域不变病理声学特征的域不变特性得到更好地保证。通过引入两个向量间的正交约束,进一步解纠缠了两种信息的关联。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种跨语言域不变声学特征提取方法,其特征在于,主要包括以下步骤:
步骤1、语音信号采集:采集母语不同的受试者参与语音采集任务的语音,以及记录受试者是否有冻结步态症状;
步骤2、对语音数据进行预处理,提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注;
步骤3、训练一个Transformer编码块与多层前馈神经网络级联的特征提取器
Figure QLYQS_1
,将步骤2的样本特征向量/>
Figure QLYQS_2
输入该特征提取器/>
Figure QLYQS_3
,提取高级语义表达并将语音特征/>
Figure QLYQS_4
解纠缠为两个向量,其中,/>
Figure QLYQS_5
为网络参数;
步骤4、训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”,同时还将训练两个分类器用于预测输入的特征向量的症状标签;
步骤5、根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数;
步骤6、根据步骤5训练完成的模型,通过模型中的特征提取器
Figure QLYQS_6
,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。
2.根据权利要求1所述的跨语言域不变声学特征提取方法,其特征在于,步骤1中,对语音信号采集的具体过程为:采集不同母语的受试者的语音,包括持续元音或重复音节,同时记录受试者是否有冻结步态症状,收集受试者使用“语言1”的语音数据,并整理为源域数据库;整理母语为“语言2”的语音数据并记为目标域数据库。
3.根据权利要求2所述的跨语言域不变声学特征提取方法,其特征在于,步骤2中,对语音数据进行去噪增强预处理,然后对语音信号提取Fbank特征,根据受试者是否存在冻结步态症状进行分类标签标注,同时还将根据数据来源于“源域”或“目标域”进行域标签标注,具体过程为:
步骤21、对源域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第
Figure QLYQS_7
个样本的Fbank特征记为/>
Figure QLYQS_8
,记其分类标签为/>
Figure QLYQS_9
,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/>
Figure QLYQS_10
,用one-hot向量[1,0]标识样本来自源域,组成源域样本对/>
Figure QLYQS_11
,其中, s代表该数据来源于源域;
步骤22、对目标域数据库中的原始语音数据进行预处理,并提取Fbank特征,其中,第
Figure QLYQS_12
个样本的Fbank特征记为/>
Figure QLYQS_13
,记其分类标签为/>
Figure QLYQS_14
,存在冻结步态时,标签用one-hot向量[1,0]表示,否则为[0,1],记其域标签为/>
Figure QLYQS_15
,用one-hot向量[0,1]标识样本来自目标域,组成目标域样本对/>
Figure QLYQS_16
,其中,t代表该数据来源于目标域。
4.根据权利要求3所述的跨语言域不变声学特征提取方法,其特征在于,步骤3中,训练一个基于Transformer编码块与多层前馈神经网络级联的特征提取器
Figure QLYQS_17
,其中,/>
Figure QLYQS_18
为网络参数,对原始的Fbank特征/>
Figure QLYQS_19
进行解纠缠获得一个蕴含病理信息的域不变声学特征向量/>
Figure QLYQS_20
和一个包含域信息的特征向量/>
Figure QLYQS_21
,具体过程为:
步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器
Figure QLYQS_22
,该特征提取器/>
Figure QLYQS_23
的输出为两个同样长度的向量,其中一个向量为对特征向量解纠缠后获得的包含语音病理信息的高级表征向量/>
Figure QLYQS_24
,另外一个为对特征向量解纠缠后获得的包含域信息的高级表征向量/>
Figure QLYQS_25
5.根据权利要求4所述的跨语言域不变声学特征提取方法,其特征在于,步骤4中,训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”,同时还将训练两个分类器用于预测输入的特征向量的症状标签,具体过程为:
步骤41、将步骤3所述的特征向量
Figure QLYQS_27
输入分类器/>
Figure QLYQS_30
,其中/>
Figure QLYQS_32
为网络参数,获取第/>
Figure QLYQS_28
个样本的症状标签/>
Figure QLYQS_31
,将特征向量/>
Figure QLYQS_33
和其通过分类器/>
Figure QLYQS_35
获得的标签
Figure QLYQS_26
进行叉乘,再将结果输入域鉴别器/>
Figure QLYQS_29
进行识别,获得其域标签
Figure QLYQS_34
,其中,/>
Figure QLYQS_36
为网络参数;
步骤42、将步骤3所述的特征向量
Figure QLYQS_38
输入域鉴别器/>
Figure QLYQS_41
,其中,/>
Figure QLYQS_44
为网络参数,获取第/>
Figure QLYQS_39
个样本的域标签/>
Figure QLYQS_40
,将特征向量/>
Figure QLYQS_43
和其通过域鉴别器/>
Figure QLYQS_46
获得的标签/>
Figure QLYQS_37
进行叉乘,再将结果输入分类器
Figure QLYQS_42
识别其症状标签,获得结果/>
Figure QLYQS_45
,其中,/>
Figure QLYQS_47
为网络参数。
6.根据权利要求1所述的跨语言域不变声学特征提取方法,其特征在于,步骤5中,根据步骤4所获得的输出,进行模型的损失计算,并更新模型的网络参数,具体过程为:
步骤51、对于病理信息特征向量
Figure QLYQS_48
,其通过分类器/>
Figure QLYQS_49
,和领域鉴别器/>
Figure QLYQS_50
的对抗学习,融合病理信息并排除域信息,为了排除域信息,我们将通过最小化分类器/>
Figure QLYQS_51
的损失,同时最大化域鉴别器/>
Figure QLYQS_52
的损失,因此我们将有如下所示的目标函数:
Figure QLYQS_53
其中,
Figure QLYQS_54
为分类器/>
Figure QLYQS_55
的损失函数,/>
Figure QLYQS_56
为域鉴别器/>
Figure QLYQS_57
的损失函数;
步骤52、对于域特征向量
Figure QLYQS_58
与病理信息特征向量/>
Figure QLYQS_59
不同的是,其通过分类器
Figure QLYQS_60
,和域鉴别器/>
Figure QLYQS_61
的对抗学习,融合域信息并排除病理特征信息,为了排除病理信息,我们将通过最小化域鉴别器/>
Figure QLYQS_62
的损失,同时最大化分类器/>
Figure QLYQS_63
的损失,因此,我们将有如下所示的目标函数:
Figure QLYQS_64
其中,
Figure QLYQS_65
为分类器/>
Figure QLYQS_66
的损失函数,/>
Figure QLYQS_67
为域鉴别器/>
Figure QLYQS_68
的损失函数;
步骤53、对于病理信息特征向量
Figure QLYQS_70
,为进一步确保其排除了域信息并与域特征向量
Figure QLYQS_72
不同,我们通过对每个域数据提取的病理信息特征向量/>
Figure QLYQS_74
和领域特征向量
Figure QLYQS_71
在子空间上实施正交约束来定义差分损失,将差分损失最小化以促进信息的解纠缠,记矩阵/>
Figure QLYQS_73
为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵/>
Figure QLYQS_75
为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵/>
Figure QLYQS_76
为由目标域数据提取的病理特征向量作为行组成的矩阵,/>
Figure QLYQS_69
为由目标域数据提取的域信息特征向量作为行组成的矩阵,其目标函数计算方式为:
Figure QLYQS_77
其中,
Figure QLYQS_78
表示矩阵转置;
步骤54、模型的总体优化目标函数为:
Figure QLYQS_79
,模型将根据这个总体优化目标函数采用SGD优化方法。
7.根据权利要求6所述的跨语言域不变声学特征提取方法,其特征在于,还包括进行模型的优化与参数的迭代:
Figure QLYQS_80
固定特征提取器的参数
Figure QLYQS_81
、分类器/>
Figure QLYQS_82
的参数/>
Figure QLYQS_83
、域鉴别器/>
Figure QLYQS_84
的参数/>
Figure QLYQS_85
,并最大化如下损失函数:
Figure QLYQS_86
8.根据权利要求6所述的跨语言域不变声学特征提取方法,其特征在于,步骤6中,根据步骤5训练完成的模型,通过模型中的特征提取器
Figure QLYQS_87
,即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,具体过程为:根据步骤5所述方法训练好的模型,固定特征提取器/>
Figure QLYQS_88
输出特征向量/>
Figure QLYQS_89
这一支路的模型参数,通过这个训练好的特征提取器/>
Figure QLYQS_90
即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征,获得最终的输出结果为一个跨语言分析声学特征/>
Figure QLYQS_91
9.一种跨语言域不变声学特征提取系统,其特征在于:应用如权利要求1-8中任一项所述的跨语言域不变声学特征提取方法。
10.根据权利要求9所述的跨语言域不变声学特征提取系统,其特征在于,所述跨语言域不变声学特征提取系统包括:语音数据预处理模块、特征解纠缠学习模块、条件对抗迁移学习模块、模型训练与参数优化模块和冻结步态声学特征提取模块。
CN202310558163.0A 2023-05-18 2023-05-18 跨语言域不变声学特征提取方法和系统 Active CN116312484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310558163.0A CN116312484B (zh) 2023-05-18 2023-05-18 跨语言域不变声学特征提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310558163.0A CN116312484B (zh) 2023-05-18 2023-05-18 跨语言域不变声学特征提取方法和系统

Publications (2)

Publication Number Publication Date
CN116312484A true CN116312484A (zh) 2023-06-23
CN116312484B CN116312484B (zh) 2023-09-08

Family

ID=86803537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310558163.0A Active CN116312484B (zh) 2023-05-18 2023-05-18 跨语言域不变声学特征提取方法和系统

Country Status (1)

Country Link
CN (1) CN116312484B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118036732A (zh) * 2024-04-11 2024-05-14 神思电子技术股份有限公司 基于临界对抗学习的社会事件图谱关系补全方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349564A (zh) * 2019-07-22 2019-10-18 苏州思必驰信息科技有限公司 一种跨语言语音识别方法和装置
CN112529063A (zh) * 2020-12-03 2021-03-19 重庆大学 一种适用于帕金森语音数据集的深度域适应分类方法
CN113901209A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于类型感知的汉越跨语言事件检测方法
CN114299996A (zh) * 2021-12-31 2022-04-08 南京邮电大学 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统
DE202022107050U1 (de) * 2022-12-17 2023-01-31 Vikas Mittal Ein auf maschinellem Lernen basierendes System zur Klassifizierung der Parkinson-Krankheit anhand akustischer Merkmale

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349564A (zh) * 2019-07-22 2019-10-18 苏州思必驰信息科技有限公司 一种跨语言语音识别方法和装置
CN112529063A (zh) * 2020-12-03 2021-03-19 重庆大学 一种适用于帕金森语音数据集的深度域适应分类方法
CN113901209A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于类型感知的汉越跨语言事件检测方法
CN114299996A (zh) * 2021-12-31 2022-04-08 南京邮电大学 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统
DE202022107050U1 (de) * 2022-12-17 2023-01-31 Vikas Mittal Ein auf maschinellem Lernen basierendes System zur Klassifizierung der Parkinson-Krankheit anhand akustischer Merkmale

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
EUN JUNG YEO ETC.: "Cross-lingual Dysarthria Severity Classification for English, Korean, and Tamil", 《2022 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)》, pages 566 - 574 *
NINA HOSSEINI-KIVANANI ETC.: "Automated Cross-language Intelligibility Analysis of Parkinson’s Disease Patients Using Speech Recognition Technologies", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: STUDENT RESEARCH WORKSHOP》, pages 74 - 80 *
WEI JI ETC.: "Stable dysphonia measures selection for Parkinson speech rehabilitation via diversity regularized ensemble", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 2264 - 2268 *
ZOLTAN GALAZ ETC.: "Comparison of CNN-Learned vs. Handcrafted Features for Detection of Parkinson’s Disease Dysgraphia in a Multilingual Dataset", 《ARTICLE》, vol. 16, pages 1 - 18 *
季薇 等: "基于掩蔽自监督语音特征提取的帕金森病检测方法", 《电子与信息学报》, vol. 45, pages 1 - 9 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118036732A (zh) * 2024-04-11 2024-05-14 神思电子技术股份有限公司 基于临界对抗学习的社会事件图谱关系补全方法及系统

Also Published As

Publication number Publication date
CN116312484B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN111191660A (zh) 一种基于多通道协同胶囊网络的直肠癌病理学图像分类方法
CN108537119A (zh) 一种小样本视频识别方法
CN116312484B (zh) 跨语言域不变声学特征提取方法和系统
CN112259104A (zh) 一种声纹识别模型的训练装置
CN105810191A (zh) 融合韵律信息的汉语方言辨识方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN116451114A (zh) 基于企业多源实体特征信息的物联网企业分类系统及方法
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
CN116434759B (zh) 一种基于srs-cl网络的说话人识别方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN108766462A (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法
CN111984790A (zh) 一种实体关系抽取方法
CN115713085B (zh) 文献主题内容分析方法及装置
CN114841214B (zh) 基于半监督判别投影的脉搏数据分类方法及装置
CN116050419A (zh) 一种面向科学文献知识实体的无监督识别方法及系统
Pentari et al. Graph-based representations of speech signals: A novel approach for emotion recognition
Hossain et al. Stacked Convolutional Autoencoder with Multi-label Extreme Learning Machine (SCAE-MLELM) for Bangla Regional Language Classification
Das et al. Assamese dialect identification using semi-supervised learning
Singh Speaker emotion Recognition System using Artificial neural network classification method for brain-inspired application
CN115910099B (zh) 一种基于深度概率图神经网络的乐器自动识别方法
CN116503674B (zh) 一种基于语义指导的小样本图像分类方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant