CN116153298A

CN116153298A - 一种认知功能障碍筛查用的语音识别方法和装置

Info

Publication number: CN116153298A
Application number: CN202211532775.4A
Authority: CN
Inventors: 王刚; 任汝静; 谢心怡; 王金涛
Original assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Current assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-05-23

Abstract

本发明涉及一种认知功能障碍筛查用的语音识别方法和装置，其中，方法包括：获取待检测的音频信号；将所述音频信号输入语音识别模型中进行识别，得到识别结果，其中，所述语音识别模型中的声学模型部分通过语音数据训练得到；语言模型部分包括通用语言模型与专病语言模型，专病语言模型根据阿尔茨海默病及相关认知障碍收集的对应文本数据得到，通用语言模型与专病语言模型进行自学习融合；特征提取部分用于基于声学模型部分获取音频信号中的音频特征；解码器部分用于对提取出的音频特征进行识别，在识别时，根据解码参数动态地在通用语言模型与专病语言模型中进行选择。本发明能够平衡通用和医疗专病场景识别效果。

Description

一种认知功能障碍筛查用的语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种认知功能障碍筛查用的语音识别方法和装置。

背景技术

阿尔茨海默病是最常见的神经变性疾病，也是痴呆最主要的病因，主要表现为认知功能进行性下降，伴有精神、行为障碍，严重影响患者的日常生活能力和生活质量。阿尔茨海默病的病程包含临床前阶段，轻度认知损害阶段和痴呆阶段，现有的药物治疗只能一定程度上缓解疾病进展，无法治愈疾病，这强调了早期诊断、早期干预的重要性。而在临床实践中，由于起病隐匿，往往患者就诊时认知功能已经出现较为严重的损害。

从20世纪60年代开始，语音识别使用的方法以简单的模板匹配为主。进入80年代后，语音识别研究方向逐渐转向基于统计模型的技术思路，如高斯混合分布-隐马尔可夫模型(GMM-HMM)，实现了从孤立词到大词汇量语音识别的突破性发展，但识别的精度和速度尚未达到实用门槛。2006年Hinton提出用深度置信网络(Deep Belief Networks,DBN)初始化神经网络，使得训练深层的神经网络变得容易，从而掀起了以深度神经网络(Deep NeuralNetwork,DNN)、循环神经网络(Recurrent Neural Networks,RNN)和卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习(Deep Learning，DL)浪潮，并取得了很好的实用效果。基于神经网络的语音识别框架主要由声学模型、语言模型以及发音模型三部分构成，声学模型与语言模型是单独训练，其关联性较弱。针对不同的语种和方言口音，需要构建不同的发音字典，存在专业门槛高、构建成本高、周期长以及质量差等多种问题。另外，现有的语音识别软件也不适用于阿尔茨海默病患者，如无语音片段检出等功能和专病领域识别效果差。

发明内容

本发明所要解决的技术问题是提供一种认知功能障碍筛查用的语音识别方法和装置，能够平衡通用和医疗专病场景识别效果。

本发明解决其技术问题所采用的技术方案是：提供一种认知功能障碍筛查用的语音识别方法，包括以下步骤：

获取待检测的音频信号；

将所述音频信号输入语音识别模型中进行识别，得到识别结果，其中，所述语音识别模型包括：声学模型部分、语言模型部分、特征提取部分和解码器部分，所述声学模型部分通过语音数据训练得到；所述语言模型部分包括通用语言模型与专病语言模型，所述专病语言模型根据阿尔茨海默病及相关认知障碍收集的对应文本数据得到，所述通用语言模型与专病语言模型进行自学习融合；所述特征提取部分用于基于所述声学模型部分获取音频信号中的音频特征；所述解码器部分用于对提取出的音频特征进行识别，在识别时，根据解码参数动态地在通用语言模型与专病语言模型中进行选择。

所述解码器部分包括依次连接的第一单向长短时记忆模块、注意力层模块和第二单向长短时记忆模块；所述第二单向长短时记忆模块的输出与语言模型部分的输出进行融合，具体为：所述语言模型部分的输入为上一次所述解码器部分的输出，并与两个长短时记忆模块组成RNN-LM，所述RNN-LM的输出与所述第二单向长短时记忆模块的输出一起计算一个门控用于对通用语言模型与专病语言模型进行选择，选择之后与所述第二单向长短时记忆模块的输出一起进行分类，得到最终解码结果。

所述声学模型部分还进行多口音自适应处理，具体为：采用通用识别模型对训练用语音数据进行声学部分的解码，并利用解码结果与标注形成基于音素层面的残差向量用以表征当前发音人与标准发音人的差异，然后通过设定阈值筛选出当前声学模型对该发音人识别差异性较大的部分作为方言口音残差向量，并利用聚类的方式对筛选出的方言口音进行聚类并形成固定数目的方言口音记忆向量，并采用注意力机制对聚类后的方言特征进行加权，得到口音特征；将口音特征学习提炼后融入到当前声学模型中，将方言口音数据映射到标准发音的空间上。

所述的认知功能障碍筛查用的语音识别方法还包括对所述音频信号进行有效性检测。

所述对所述音频信号进行有效性检测，包括：

对所述音频信号进行语音片段检测，得到至少一个语音片段；

针对每个语音片段，基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

本发明解决其技术问题所采用的技术方案是：提供一种认知功能障碍筛查用的语音识别装置，包括：

获取模块，用于获取待检测的音频信号；

识别模块，用于将所述音频信号输入语音识别模型中进行识别，得到识别结果，其中，所述语音识别模型包括：声学模型部分、语言模型部分、特征提取部分和解码器部分，所述声学模型部分通过语音数据训练得到；所述语言模型部分包括通用语言模型与专病语言模型，所述专病语言模型根据阿尔茨海默病及相关认知障碍收集的对应文本数据得到，所述通用语言模型与专病语言模型进行自学习融合；所述特征提取部分用于基于所述声学模型部分获取音频信号中的音频特征；所述解码器部分用于对提取出的音频特征进行识别，在识别时，根据解码参数动态地在通用语言模型与专病语言模型中进行选择。

所述的认知功能障碍筛查用的语音识别装置还包括：有效性检测模块，用于对所述音频信号进行有效性检测。

所述有效性检测模块包括：第一检测单元，用于对所述音频信号进行语音片段检测，得到至少一个语音片段；第二检测单元，用于针对每个语音片段，基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过基于端到端的超大规模领域语言模型自适应方法平衡通用和医疗专病场景识别效果，通过利用已知训练数据对不同区域患者的方言口音变化进行统计，实现基于方言口音变化规律的记忆单元的构建，提升识别鲁棒性和准确率。本发明还利用对患者有效语音片段进行检测，进一步分析有声片段个数、时长和无声停顿等意图，从而满足对阿尔茨海默病患者语音特征分析需求。

附图说明

图1是本发明语音识别方法的整体流程示意图；

图2是本发明实施方式中多口音自适应处理示意图；

图3是本发明实施方式中解码器部分的处理示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的第一实施方式涉及一种认知功能障碍筛查用的语音识别方法，包括以下步骤：

步骤1，获取待检测的音频信号；

步骤2，对所述音频信号进行有效性检测，具体为：对所述音频信号进行语音片段检测，得到至少一个语音片段；针对每个语音片段，基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

本实施方式中，针对待检测的音频信号进行语音片段检测，得到至少一个语音片段之后，针对每个语音片段，至少基于该语音片段对应的文本内容，对该语音片段进行有效性检测，从而判断该语音片段是否为有效语音片段。由于本实施方式中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测，相对于将检测出的语音片段直接作为有效语音片段，提升了有效语音片段的检测准确率。

步骤3，将所述音频信号输入语音识别模型中进行识别，得到识别结果。其中，所述语音识别模型包括：声学模型部分、语言模型部分、特征提取部分和解码器部分，所述声学模型部分通过语音数据训练得到；所述语言模型部分包括通用语言模型与专病语言模型，所述专病语言模型根据阿尔茨海默病及相关认知障碍收集的对应文本数据得到，所述通用语言模型与专病语言模型进行自学习融合；所述特征提取部分用于基于所述声学模型部分获取音频信号中的音频特征；所述解码器部分用于对提取出的音频特征进行识别，在识别时，根据解码参数动态地在通用语言模型与专病语言模型中进行选择。

本实施方式中声学模型部分针对不同医院的患者群体特征及口音的多样性，考虑利用已知训练数据对不同区域患者的方言口音变化进行统计，实现基于方言口音变化规律的记忆单元的构建。如图1所示，首先借助通用识别模型对大规模训练数据进行声学部分的解码，并利用解码结果与标注形成基于音素层面的残差向量用以表征当前发音人与标准发音人的差异，然后通过设定阈值筛选出当前模型对该发音人识别差异性较大的部分作为方言口音残差向量，并利用聚类的方式对筛选出的方言口音部分进行聚类并形成固定数目的方言口音记忆向量，用以实现发音方式的方言口音表征。考虑到不同区域方言口音的特性是类似的，采用少量数据将口音特征学习提炼后，将对应的特征融入到声学模型当中，将方言口音数据映射到标准发音的空间上，从而实现不同方言口音的识别效果优化。此外，由于采用注意力机制对聚类后的方言特征进行加权，对于只有少量方言数据的区域，通过模型训练过程中对口音记忆向量的微调，在对应方言区域也可以取得比较理想的效果。

本实施方式为平衡通用和医疗专病场景识别效果，用到基于端到端的超大规模领域语言模型自适应方法。首先，需要结合阿尔茨海默病等神经内科收集对应文本数据，训练专病语言模型；其次，将通用语言模型与专病模型进行自学习融合，在保证日常用语通用效果的同时，动态的实现阿尔茨海默病评测等专病应用领域的识别效果。该技术需要将通用主语言模型与医疗专病语言模型通过门控机制进行融合，门控参数在模型训练过程中动态学习，解码器根据相关解码参数，动态地在通用主语言模型与医疗专病语言模型进行选择，较好保障了识别效果，具体如图3所示。

图3中左侧为通用端到端(Encoder-Decoder，ED)模型结构示意图，EDDecoder端是一个自回归解码的结构，输入为上一次解码结果(y_t-1)与上一次解码的上下文向量(c_t-1)，经过一个单向长短时记忆模块(lstmp)用于自回归解码，自回归解码的隐层向量(s_t ^d)再与EDEncoder端输出(H_enc)进行Attention操作(Att-ctx-dec)得到本次解码的上下文向量(c_t)，本次解码的上下文向量再经过一个单向长短时记忆模块(lstmp)以及一个分类模块得到本次解码的解码结果。ED模型能够很好的用于序列建模，但是却受限于训练数据，只采用语音标注数据训练ED模型，则语言模型大数据量的优势就无法很好的利用。最直接的做法是对ED的解码结果用语言模型进行简单的查分浅融合。这种浅融合的方式虽然能够对ED的结果进行一定程度上的纠正，但是用大数据量训练的语言模型所覆盖的场景与ED训练医疗专病语料有很大的偏差，这种偏差会导致融合效果有限。为此，对ED模型做调整，采用ED与领域语言模型融合训练的方案。具体是在ED模型结构上，将decoder端与RNN语言模型进行融合训练的过程。通过融合训练的方式，使得模型的decoder端能同时学到语言模型的大文本语料信息。如(图3右)所示，前面的自回归、Attention以及分类lstmp模块与ED的decoder端一致，融合训练ColdFusion将第二个lstmp的隐层输出

与RNN语言模型的隐层进行融合。RNN语言模型的输入为上一次解码结果，经过两个长短时记忆模块组成RNN-LM。RNN-LM的隐层输出/>

与/>

一起计算一个门控(LM-gate)用于对领域语言模型进行选择，选择之后与/>

一起进行分类，得到最终解码结果。

不难发现，本发明通过基于端到端的超大规模领域语言模型自适应方法平衡通用和医疗专病场景识别效果，通过利用已知训练数据对不同区域患者的方言口音变化进行统计，实现基于方言口音变化规律的记忆单元的构建，本发明还利用对患者有效语音片段进行检测，从而提升识别准确率。

本发明的第二实施方式涉及一种认知功能障碍筛查用的语音识别装置，包括：

获取模块，用于获取待检测的音频信号；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种认知功能障碍筛查用的语音识别方法，其特征在于，包括以下步骤：

获取待检测的音频信号；

2.根据权利要求1所述的认知功能障碍筛查用的语音识别方法，其特征在于，所述解码器部分包括依次连接的第一单向长短时记忆模块、注意力层模块和第二单向长短时记忆模块；所述第二单向长短时记忆模块的输出与语言模型部分的输出进行融合，具体为：所述语言模型部分的输入为上一次所述解码器部分的输出，并与两个长短时记忆模块组成RNN-LM，所述RNN-LM的输出与所述第二单向长短时记忆模块的输出一起计算一个门控用于对通用语言模型与专病语言模型进行选择，选择之后与所述第二单向长短时记忆模块的输出一起进行分类，得到最终解码结果。

3.根据权利要求1所述的认知功能障碍筛查用的语音识别方法，其特征在于，所述声学模型部分还进行多口音自适应处理，具体为：采用通用识别模型对训练用语音数据进行声学部分的解码，并利用解码结果与标注形成基于音素层面的残差向量用以表征当前发音人与标准发音人的差异，然后通过设定阈值筛选出当前声学模型对该发音人识别差异性较大的部分作为方言口音残差向量，并利用聚类的方式对筛选出的方言口音进行聚类并形成固定数目的方言口音记忆向量，并采用注意力机制对聚类后的方言特征进行加权，得到口音特征；将口音特征学习提炼后融入到当前声学模型中，将方言口音数据映射到标准发音的空间上。

4.根据权利要求1所述的认知功能障碍筛查用的语音识别方法，其特征在于，还包括对所述音频信号进行有效性检测。

5.根据权利要求4所述的认知功能障碍筛查用的语音识别方法，其特征在于，所述对所述音频信号进行有效性检测，包括：

6.一种认知功能障碍筛查用的语音识别装置，其特征在于，包括：

获取模块，用于获取待检测的音频信号；

7.根据权利要求6所述的认知功能障碍筛查用的语音识别装置，其特征在于，所述解码器部分包括依次连接的第一单向长短时记忆模块、注意力层模块和第二单向长短时记忆模块；所述第二单向长短时记忆模块的输出与语言模型部分的输出进行融合，具体为：所述语言模型部分的输入为上一次所述解码器部分的输出，并与两个长短时记忆模块组成RNN-LM，所述RNN-LM的输出与所述第二单向长短时记忆模块的输出一起计算一个门控用于对通用语言模型与专病语言模型进行选择，选择之后与所述第二单向长短时记忆模块的输出一起进行分类，得到最终解码结果。

8.根据权利要求6所述的认知功能障碍筛查用的语音识别装置，其特征在于，所述声学模型部分还进行多口音自适应处理，具体为：采用通用识别模型对训练用语音数据进行声学部分的解码，并利用解码结果与标注形成基于音素层面的残差向量用以表征当前发音人与标准发音人的差异，然后通过设定阈值筛选出当前声学模型对该发音人识别差异性较大的部分作为方言口音残差向量，并利用聚类的方式对筛选出的方言口音进行聚类并形成固定数目的方言口音记忆向量，并采用注意力机制对聚类后的方言特征进行加权，得到口音特征；将口音特征学习提炼后融入到当前声学模型中，将方言口音数据映射到标准发音的空间上。

9.根据权利要求6所述的认知功能障碍筛查用的语音识别装置，其特征在于，还包括：

有效性检测模块，用于对所述音频信号进行有效性检测。

10.根据权利要求9所述的认知功能障碍筛查用的语音识别装置，其特征在于，所述有效性检测模块包括：第一检测单元，用于对所述音频信号进行语音片段检测，得到至少一个语音片段；第二检测单元，用于针对每个语音片段，基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。