CN112908317B

CN112908317B - 一种针对认知障碍的语音识别系统

Info

Publication number: CN112908317B
Application number: CN201911227560.XA
Authority: CN
Inventors: 严泉雷; 苏荣锋; 王岚; 燕楠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-04-07
Anticipated expiration: 2039-12-04
Also published as: WO2021109856A1; CN112908317A

Abstract

本发明提供一种针对认知障碍的语音识别系统。该系统包括：声学特征提取器、声学模型、语言模型、发音词典和解码器，所述声学模型与所述声学特征提取器和解码器具有通信连接，所述语言模型和所述发音词典分别与所述声学模型具有通信连接，其中所述声学特征提取器用于提取相关的语音特征并发送至所述声学模型；所述声学模型用于基于所述语音特征通过训练提取区分音素和域的语音特征；所述解码器在基于所述区分音素和域的语音特征、声学上下文、所述发音词典和所述语言模型的知识源组成的搜索空间中，获得识别文本。本发明的系统能够提高认知障碍者的语音识别准确性。

Description

一种针对认知障碍的语音识别系统

技术领域

本发明涉及认知障碍辅助诊断技术领域，尤其涉及一种针对认知障碍的语音识别系统。

背景技术

认知障碍老人在世界上是一个分布广泛的群体，尤其是对于早期认知障碍老人，因其语音的特殊性，针对这类人的语音识别系统的性能并未达到一个理想水平，因此，社会对早期认知障碍老人的语音识别技术是迫切需要的。而对于早期认知障碍老人患者的语音识别系统来说，主要问题在于早期认知障碍老人语音数据本身的稀缺性和采集的困难性。

早期认知障碍老人因其认知和记忆上的障碍，言语表达中表现出语言流利度的下降，语速迟缓、停顿增多等特点，导致其言语的韵律、时间、发音等方面出现异常。这些异常使得早期认知障碍老人的语音较正常人有显著差距，所以，通用的语音识别系统并不适用于早期认知障碍老人。所以用于早期认知障碍老人的语音识别系统是目前一个亟待解决的问题。

目前，尚未有用于早期认知障碍的有效技术，而在现有的早期认知障碍语音识别系统中，训练语音数据仅使用了7个小时匈牙利老人语音数据；声学模型建模使用的是层次卷积神经网络，通过两个卷积神经网络的层级式连接，第一层级的卷积神经网络使用语音的多帧声学特征的拼接为输入，第二层级的卷积神经网络使用前一层级网络的连续多次后验概率输出结果拼接作为输入，以第二层级网络输出的音素概率作为声学模型的输出概率；语言模型采用的二元文法的音素级语言模型。这种语音识别系统在低数据资源的情况下对早期认知障碍老人取得一定的识别效果。

总之，现有技术主要存在以下问题：仅使用了数据量较小的适配老人数据作为语音识别声学模型的训练数据，导致深度神经网络模型的性能不佳；没有将说话人自适应技术应用于早期认知障碍老人语音识别系统，忽略了早期认知障碍患者因病情严重程度不同导致的说话人之间差异较大的问题。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种针对认知障碍的语音识别系统，能够提高认知障碍的正确识别率，对于早期认知障碍者尤其有效。

根据本发明的一方面，提供了一种针对认知障碍的语音识别系统。该系统包括声学特征提取器、声学模型、语言模型、发音词典和解码器，所述声学模型与所述声学特征提取器和解码器具有通信连接，所述语言模型和所述发音词典分别与所述声学模型具有通信连接，其中：所述声学特征提取器用于提取相关的语音特征并发送至所述声学模型；所述声学模型用于基于所述语音特征通过训练提取区分音素和域的语音特征；所述解码器在基于所述区分音素和域的语音特征、声学上下文、所述发音词典和所述语言模型的知识源组成的搜索空间中，获得识别文本。

在一个实施例中，所述声学特征提取器提取的语音特征是限制性最大似然回归值。

在一个实施例中，所述声学模型包括特征提取器、音素判别器和域分类器，所述特征提取器通过神经网络抽象出深层语音特征，该深层语音特征分别输入到所述音素判别器和所述域分类器中。

在一个实施例中，所述特征提取器的神经网络的隐含层之间插入学习性隐层单元贡献模型，该学习性隐层单元贡献模型针对每一个的说话人，定义一个权重向量，用特定人的自适应数据进行自适应训练。

在一个实施例中，所述音素判别器包括依次连接的两层全连接层，所述域分类器包括依次连接梯度翻转层和两层全连接层，其中所述梯度翻转层与所述特征提取器的输出连接。

在一个实施例中，所述音素判别器根据交叉熵准计算损失函数值，采用反向传播算法，由后往前更新所述音素判别器和所述特征提取器的参数。

在一个实施例中，所述域判别器，根据交叉熵准则计算损失函数值，采用反向传播算法，由后往前更新所述域分类器的参数，当方向传播至所述特征提取器时，将其梯度反置，并乘以常数，然后再继续向后传播更新所述特征提取器的参数。

与现有技术相比，本发明的优点在于：通过引入大量非老人非早期认知障碍患者语音数据作为声学模型的训练数据，有效解决了早期认知障碍语音数据稀缺的问题，可用于训练的语音数据量的增多显著提高了模型的准确性和泛化性；针对早期认知障碍患者说话人之间语音差距较大问题，分别从特征角度和模型角度运用说话人自适应技术，使得每一个说话人的特征与模型相适配，有效提高了语音识别系统的识别率。因此，本发明在缺乏早期认知障碍者语音数据的情况下，能够有效地提高认知障碍者的语音识别准确率。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的针对认知障碍的语音识别系统的示意图；

图2是根据本发明一个实施例的LHUC说话自适应权重向量结构图；

图3是根据本发明一个实施例的LHUC应用于神经网络声学模型的示例；

图4是根据本发明一个实施例的域对抗神经网络声学模型结构的示意图；

图5是根据本发明一个实施例的声学模型训练的流程图；

图6是根据本发明一个实施例的认知障碍声学模型结构图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

参见图1所示，本发明提供的针对认知障碍的语音识别系统包括声学特征提取器、语言模型、声学模型、发音词典和解码器等，其中，声学模型和声学特征提取器和解码器具有通信连接，语言模型和发音词典分别与解码器具有通信连接。简言之，本发明的系统主要包括声学模型和语言模型两个模型，原始语音经过声学特征提取后，将特征输入到声学模型中；在声学模型，语言模型和发音词典的联合解码下，得到语音对应的识别文本。下文具体介绍各模块或模型的功能。

1)关于语言模型和发音字典

在一个实施例中，采用的语言模型是基于SRILM工具训练得到的中文三元语法语言模型，由四个子模型加权插值合成得到，四个模型分别训练来自GiGAWORD数据库中文转录、TDT4中文数据库中文转录、MECSD2018训练集中文转录和网络来源口语语料库。

在一个实施例中，发音词典采用的是含有5万八千词的中文发音词典，基本涵盖中文领域常用字词。

2)、关于声学特征提取器

声学特征提取器用于从语音信号中提取声学特征并将所提取的特征输入到声学模型中。

在一个实施例中，使用的原始声学特征为感知线性预测特征(PLP)和基频特征(Pitch)，例如，对语音信号按25ms帧长和10ms帧移分帧后提取13维的感知线性预测特征和3维的基频特征，在这16维的特征基础上分别作一阶，二阶，三阶差分，拼接为64维特征。为考虑时序信号上下文的相关性，最终使用连续11帧的特征拼接作为最终的声学模型的输入特征。

在提取说话人相关特征时，采用限制性最大似然回归值(CMLLR)用于后续的深度神经网络的说话人自适应训练中，CMLLR的作用体现在通过将说话人相关的特征通过矩阵变换的方式尽可能的将特征映射到说话人无关的维度上，使其与说话人无关的模型相匹配，以达到更好的性能。

例如，具体地，首先在已有的语音识别系统上针对训练数据中的每一个说话人估计一个变换矩阵，变换矩阵的估计基于当前数据中该说话人的所有数据，以最大似然为准则，在训练集上的转录文本上估计。变换矩阵估计完成后，将其加载到对应的说话人的原始声学特征上，以获得每个说话人的限制性最大似然回归特征。对于测试集中的限制性最大似然回归特征，采用已有语音识别系统上的解码结果训练的标签来估计对应的变换矩阵。原始特征经估计的变换矩阵的变换，转化为说话人相关的CMLLR特征。

3)、关于声学模型

在一个实施例中，声学模型采用深度神经网络-隐马尔可夫混合系统(DNN-HMM)实现，隐马尔可夫模型对语音信号的时序属性建模，深度神经网络用于对语音信号的观察概率建模。深度神经网络模型不需要对声学特征所服从的分布进行假设，且可以采用连续的拼接帧特征更好的利用上下文的信息。而针对早期障碍老人语音数据少和缺乏说话人自适应技术的问题，本文分别采用域对抗神经网络和学习性隐层单元贡献模型来解决。

具体地，参见图2和图3所示，学习性隐层单元贡献模型(LHUC)自适应在原始说话人独立的神经网络模型的基础上，针对每一个的说话人，定义一个权重向量，用特定人的自适应数据进行自适应训练，保留原说话人独立网络中的参数不变，只更新每个说话人中的自适应参数。对于隐含层l，说话人s对第j个隐含层节点h_j ^l,s，其输出定义为：

其中，激活函数定义为：

ξ(·)＝2sigmoid(·) (2)

对于M个说话人，隐含层节点数为N，定义M个长度为N的向量，初始化为0，对每个说话人s，选取对应的向量r^s作为权重向量激活函数的输入。权重向量被初始化为0，此时自适应网络与原网络一致，随着自适应训练的进行，r^s会更新，神经元的输出会得到一个(0，2)范围内的比例变化。在上式中，w、b分别表示对应层的权重和偏置。

学习性隐层单元贡献模型自适应方法的优点在于：自参数量较小，与隐含层节点数相同，可以用少量数据训练得到；没有改变网络原始结构与参数，使用灵活；自适应参数形式简单，可直接应用于其他前馈神经网络中。

在引入大量新的得非早期认知障碍非老人数据的基础上，进一步地，本发明采用域对抗神经网络来减弱域外数据与域内数据的差异化。

参见图4所示，域对抗神经网络应用于神经网络声学模型建模由三部分组成，在提取声学特征后，首先经过一个特征提取器，其后提取的深层特征分别输入到音素判别器和域分类器中，音素判别器直接输出预测的音素，其中域分类器和特征提取器之间的梯度翻转层在网络进行前向计算时，不对传入数值做任何操作，直接传入下一层中，当训练时需要反向传播时，经过梯度翻转层时，将梯度值倒置。

基于图4的结构，使得特征提取器所提取的特征具有以下特性：特性1)、获得对音素有显著区分性的特征；特性2)、获得域外数据和早期认知障碍老人数据中所共有的特征。

其中，特性1通过音素判别器实现，在训练过程中，根据当前的判别结果，改进特征提取器的参数，使其提取的特征对音素具有显著区分性；特性2则通过域分类器来实现，通过域分类器找到无法对两类数据明显区分的特征，即特征提取器提取的特征应使得域分类器无法将两个域的数据分开，通过这种方式即可使得特征提取器提取的特征符合特性2。

本发明的具体训练流程包括：训练数据经过特征提取器，通过神经网络抽象出深层网络特征；提取的深层特征分别输入到音素判别器和域分类器中；音素判别器获得深层特征后，得到当前网络的音素判别结果，根据交叉熵准则计算当前的损失函数值，采用反向传播算法，由后往前更新音素判别器和特征提取器的参数；域判别器获得深层特征后，输入得到当前网络的域判别结果，根据交叉熵准则计算当前的损失函数值，采用反向传播算法，由后往前更新域分类器的参数，当方向传播至特征提取器时，将其梯度反置，并乘以常数λ，然后再继续向后传播更新特征提取器的参数；重复上述步骤至系统拟合收敛。

具体地，结合图5和图6所示，本发明的声学模型的整体训练流程包括：在基于原始语音识别系统针对训练数据中的每一个说话人估计一个CMLLR变换矩阵后，将原始的感知线性预测特征(PLP)和基频特征(Pitch)转化为说话人相关的CMLLR特征，实际输入神经网络的特征为连续11帧的CMLLR特征；然后按照图6搭建的声学模型的整体框架，在特征提取器的隐含层之间插入LHUC向量层，特征提取器最后一层提取的深度神经网络特征分别输入音素判别器和域分类器中。整个系统基于交叉熵准则，利用反向传播算法训练。

综上，本发明实施例运用限制性最大似然回归方法与学习性隐层单元贡献模型通过说话人自适应方法解决早期认知障碍患者不同说话人间语音差异较大的问题。并且，运用域对抗网络搭建声学模型使得引入大量域外数据作为模型训练数据可行，可利用的训练数据量的提高使得系统的性能提升，获得更好的识别效果。

4)、关于解码器

解码器的主要功能是：给定输入特征序列的情况下，在由声学模型、声学上下文、发音词典和语言模型等四种知识源组成的搜索空间中，寻找最佳词串。

在一个实施例中，解码器基于维特比(Viterbi)搜索方法实现寻找最佳词串功能，具体采用基于有限支持状态向量机的静态编译方式实现，将所有知识源统一编译在一个状态网络中，并去除冗余信息，组成搜索空间。在解码过程中，根据节点间的转移权重获得概率信息，计算得到最佳词串文本。

需说明的是，在本发明实施例中，解码器、声学特征提取器和声学模型等可采用软件或硬件实现，硬件可以是处理器或逻辑电路等。此外，本发明对特征提取器、音素判别器和域分类器的层数不作限制。为提高模型训练精度，本领域技术人员可设置具有更多层的神经网络模型。

综上所述，本发明引入大量非老人非早期认知障碍患者的域外语音数据来训练模型，在模型训练过程中，通过训练方法和模型结构的调整，尽可能减少引入因域外语音数据和早期认知障碍患者语音数据之间的差异带来的影响，提升了深度神经网络模型的数据训练量，使声学模型得到有效的性能提升。在模型训练过程中，考虑各个早期认知障碍说话人的差异，首先提取与早期认知障碍说话人相关的特征，其次对于声学模型，则针对各个早期认知障碍说话人做相应的调整，通过这两种方法能够减少模型和早期认知障碍说话人的特征之间的不适配情况。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种针对认知障碍的语音识别系统，其特征在于，包括声学特征提取器、声学模型、语言模型、发音词典和解码器，所述声学模型与所述声学特征提取器和解码器具有通信连接，所述语言模型和所述发音词典分别与所述声学模型具有通信连接，其中：

所述声学特征提取器用于提取相关的语音特征并发送至所述声学模型；

所述声学模型用于基于所述语音特征通过训练提取区分音素和域的语音特征；

所述解码器在基于所述区分音素和域的语音特征、声学上下文、所述发音词典和所述语言模型的知识源组成的搜索空间中，获得识别文本；

其中，所述声学模型包括特征提取器、音素判别器和域分类器，所述特征提取器通过神经网络抽象出深层语音特征，该深层语音特征分别输入到所述音素判别器和所述域分类器中；

其中，所述特征提取器的神经网络的隐含层之间插入学习性隐层单元贡献模型，该学习性隐层单元贡献模型针对每一个的说话人，定义一个权重向量，用特定人的自适应数据进行自适应训练；

其中，所述音素判别器包括依次连接的两层全连接层，所述域分类器包括依次连接一层梯度翻转层和两层全连接层，其中所述梯度翻转层与所述特征提取器的输出连接。

2.根据权利要求1所述的系统，其特征在于，所述声学特征提取器提取的语音特征是限制性最大似然回归值。

3.根据权利要求1所述的系统，其特征在于，所述音素判别器根据交叉熵准计算损失函数值，采用反向传播算法，由后往前更新所述音素判别器和所述特征提取器的参数。

4.根据权利要求1所述的系统，其特征在于，所述域分类器，根据交叉熵准则计算损失函数值，采用反向传播算法，由后往前更新所述域分类器的参数，当方向传播至所述特征提取器时，将其梯度反置，并乘以常数，然后再继续向后传播更新所述特征提取器的参数。