CN114999453A

CN114999453A - 一种基于语音识别的术前访视系统及相应语音识别方法

Info

Publication number: CN114999453A
Application number: CN202210579631.8A
Authority: CN
Inventors: 范文文
Original assignee: Second Xiangya Hospital of Central South University
Current assignee: Second Xiangya Hospital of Central South University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-02
Anticipated expiration: 2042-05-25
Also published as: CN114999453B

Abstract

本发明公开了一种基于语音识别的术前访视系统及相应语音识别方法。本发明的系统包括：图像采集装置、声音采集装置、语音识别模块、访视问题数据库、智能语音模块以及手动录入装置，所述图像采集装置设置于系统的前侧，面向患者用于对患者的图像进行采集，所述声音采集装置为多路语音采集装置，用于采集患者的语音数据，所述访视问题数据库中按类别存储有相关疾病的预置访视问题，所述智能语音模块与所述声音采集装置相连，用于接收患者的语音数据并将患者语音数据转换成对应的回答文本，所述手动录入装置用于接收医护人员或者患者的手动信息输入。

Description

一种基于语音识别的术前访视系统及相应语音识别方法

技术领域

本发明属于医疗器械技术领域，具体涉及一种基于语音识别的术前访视系统及相应语音识别方法。

背景技术

随着医学模式和护理观念的转变，手术室普遍开展了术前访视。手术室护士进行术前访视对缓解手术患者紧张情绪的作用正日益凸显出来,大部分患者希望能在手术前对手术室环境、治疗效果等进行提前了解。甚至部分患者在手术前因恐惧而失眠，导致身体进一步虚弱。患者手术前心理需求的满足，焦虑、恐惧等不良心理反应的减轻，可减少术后并发症，促进切口愈合，利于术后康复。由于我国开展术前访视工作时间不长，术前访视中存在的问题较多。

一方面，护理人员对术前访视工作的认识不足，手术室护士的传统工作就是配合完成手术治疗，容易忽视对患者的全期护理，另一方面，术前访视质量难以保证，首先因为人力不足导致开展术前访视有困难，其次，虽然手术室护士中的部分人员可能经历过多次手术，对手术过程很好地了解。但是，护士的学历水平以及医学素养与医生还是存在着很大差距，即使进行了访视，许多也只是流于形式，处于应付检查状态，访视的规范化受到限制，没有标准流程，国内值得借鉴的方法和经验相对较少，访视的质量监控体系基本上带有探索的性质，缺乏量化指标，绝大部分术前访视仅仅是基于仅有的访视制度或规范流水化完成访视，作用有限。

不少医院术前访视的对象只是选择性开展，访视的形式单一，大多口头讲解，缺乏沟通技巧，由于术前宣教是由病房护士和手术室护士分别在不同的时间完成，常常会出现宣教内容重复、不一致或缺漏现象，尤其某些问题和信息是患者真正关心的，病房护士和手术室护士却无法解答。

当前的术前访视与术前评估分离，术前评估是术前访视的第一步.是对患者术前的情况进行评估。根据术前评估提出护理诊断和护理计划，进行针对性地术前宣教和指导。但仅少量医院同时进行了术前评估和术前访视。说明术前访视的程序和方法都存在问题和缺陷，没有术前评估的术前访视存在盲目性.无法满足患者的真实需求。

发明内容

为解决上述问题，需要大力提升术前访视的信息化与智能化水平。术前访视的信息化推动访视内容的记录和处理由纸质向数字化过渡，有助于医务人员更方便地采集和处理数据，降低成本并提高工作效率；术前访视的智能化以提供自动化、个性化访视为目标，基于最新的人工智能技术，通过智能语音交互、智能状态评估、智能护理决策等技术手段让访视更加便捷高效。

为实现上述目的，本发明提供如下技术方案：

一种术前访视系统，所述系统包括：图像采集装置、声音采集装置、语音识别模块、访视问题数据库、智能语音模块以及手动录入装置，所述图像采集装置设置于系统的前侧，面向患者用于对患者的图像进行采集，所述声音采集装置为多路语音采集装置，用于采集患者的语音数据，所述访视问题数据库中按类别存储有相关疾病的预置访视问题，所述智能语音模块与所述声音采集装置相连，用于接收患者的语音数据并将患者语音数据转换成对应的回答文本，所述手动录入装置用于接收医护人员或者患者的手动信息输入，所述语音识别模块包括用于对语音信号进行预处理的语音信号预处理模块，用于对语音进行分割的语音分割模块，用于对语音段进行长语音、中语音和短语音分类的语音分类模块，用于从长语音和中语音中进行类短语音提取的语音提取模块，用于对短语音和类短语音进行分类的短语音分类模型模块，以及能够基于短语音分类进行语音识别模型更新的语音识别模型。

优选地，所述的术前访视系统还包括问题匹配模块，所述问题匹配模块基于患者语音数据中所包含的患者问题与访视问题数据库中的问题进行匹配，进而将相应问题的回答范本呈现在所述术前访视系统的显示屏幕上。

优选地，所述的术前访视系统还包括智能语音模块，所述智能语音模块用于将文本数据转换成语音数据进行对外输出。

优选地，所述的术前访视系统还包括公网患者数据库和院内患者病历库，所述公网患者数据库中存储有各类疾病的相关患者病例信息，所述院内患者病历库中存储有本院相关疾病的患者病例及治疗方面的详细信息。

优选地，所述语音提取模块用于对短语音和类短语音进行分帧和加窗，得到短时加窗的语音信号x_l[n]，

x_l[n]＝w[n]x[n+lL]，

其中，0≤n≤N-1，w[n]是窗函数，N为窗长度，l为帧索引序列，L表示帧移长度。

优选地，所述语音识别模型包括情绪短语音分类子模型、短语音方言分类子模型以及语音识别总模型。

本发明还提供了一种用于所述的术前访视系统的语音识别方法，其特征在于，所述方法包括：

接收声音采集装置采集到的语音信号，对终端接收的语音信号进行降/去噪处理；

对处理后的语音信号按照信号的短时平均幅度以及短时平均过零率是否达到预定阈值确定语音间歇，基于语音间歇的长短是否超过设定阈值，进行信号分割，形成多个有效语音段；

基于语音段的长度对其进行分类，分为长语音、中语音和短语音三部分；

截取所述长语音、中语音中短时平均幅度高于语音整体平均幅度预定值的片段作为“类短语音”；

对于短语音和类短语音，事先构建情绪短语音子库以及方言短语音子库；

对短语音和类短语音进行特征提取，特征提取过程包括分帧、加窗、短时傅里叶列变换；

分别构建短语音情绪分类子模型、短语音方言分类子模型，对于短语音和类短语音进行情绪分类和方言分类；

构建语音识别模型并对所述语音识别模型进行训练，基于情绪分类和方言分类更新语音识别模型的训练数据集，并且对所述语音识别模型的进行修正训练；

利用修正训练后的语音识别模型对进行语音识别。

本发明采用采用文字、人工智能语音交互式医疗健康机器人进行不同术前访视方式的研究，为患者围术期的护理提供理论依据。

(1)针对人机交互问题，本申请的发明人在研究过程中注意到病人在术前访视过程中，其语音识别与普通的语音识别存在较大差异，术前访视病人极易出现情绪激动、悲痛、甚至哭泣等情绪，导致不仅影响语音识别的质量，并且还会影响术前访视质量，因此，本发明通过设置前置的分类模型对患者的情绪进行分类，然后可以更准确地确定患者的情绪和方言分类，并且及时通过补充训练来更新识别模型，可以大幅度提升极端情绪下的识别准确率。

(2)本发明采用了语音+触屏+按键的多模交互方案，其中语音识别技术，采用了创新的语言识别模型和方法，即使患者发音不准、存在方言、情绪激动的情况下，依然可以保持语音高识别率。

(3)借助强大的语音识别、语义理解、自然语音合成等技术，语音交互医疗健康服务机器人能够准确识别术前访视问题。通话双方可以有多轮对话，机器人也不怕被中途打断。在后台，机器人与人工客服协作办公，机器人无法解决的问题转交人工。

附图说明

图1为本发明实施例的术前访视系统的结构示意图；

图2为本发明实施例的术前访视系统中识别方法的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图2，本实施例的术前访视系统包括：图像采集装置1、声音采集装置2、语音识别模块3、访视问题数据库4、患者数据库5、智能语音模块6、以及手动录入装置7。优选地，术前访视系统还包括显示屏幕以及显示控制装置8，显示屏幕用于显示所采集到的患者图像、访视问题以及对患者问题的解答。

本发明的术前访视系统可以通过移动终端配合服务器的方式来实现，图像采集装置、声音采集装置、访视问题数据库、语音识别模块、智能语音模块以及手动录入装置可以集成在手机、平板等移动终端内，分别通过移动终端的对应摄像头、麦克等实现，患者数据库5可以集成在服务器内，问题匹配模块8可以集成在二者中的其中一个内。

图像采集装置用于采集患者图像，基于患者图像进行身份匹配，以确认患者身份。

声音采集装置用于接收并存储患者或者医护人员的声音信息，并输出给语音识别模块，音频采样率范围可以是8kHz～48kHz；AD采样精度可以选择8bit或16bit。

语音识别模块的工作过程如下

步骤1.1、在接收到声音采集装置采集到的语音信号后，语音识别模块对终端接收的语音信号首先进行降/去噪处理，噪声包括系统噪声、设备、环境引起的噪声等。此处降噪需要实时处理可以采用现有的FIR(Finite Impulse Response)，IIR(Infinite ImpulseResponse)滤波器或者LMS(Least Mean Square)等来进行。

步骤1.2、对处理后的语音信号按照信号的短时平均幅度以及短时平均过零率是否达到预定阈值确定语音间歇，基于语音间歇的长短是否超过设定阈值，进行信号分割，形成多个有效语音段；

步骤1.3、基于语音段的长度对其进行分类，分为长语音、中语音和短语音三部分。

本申请的发明人在对语音识别的研究过程中发现，虽然利用卷积神经网络模型可以将语音的上下文信息整体转换成向量在模型中进行整体训练和识别，但是，语音识别过程中，情绪情况和方言类别对于语音识别的精度影响很大，而对说话人语言的方言类型以及情绪类型识别起到关键作用的却是其中的短语音或者长语音中声音语调等存在明显拐点或者突出变化的语音片段，我们这里成为“类短语音”。而若将整段语音都进行处理再构建方言识别模型和情绪识别模型分别进行整段语音识别，则容易导致系统庞大，影响运行效率。

因此，这里对分割后的中、长语音分别进行处理，截取所述长语音、中语音中短时平均幅度高于语音整体平均幅度预定值、或者幅度变化率高于整体平均幅度变化率预定量的片段。比如，对于语音进行加窗处理，确定窗口内幅度高于整体平均幅度60％的预定时间段内的语音以及该段语音的前沿或后续关联语音，比如1-2s内的语音作为类短语音，单独处理，即，对于高幅度语音，判断其长度是否超过阈值，若不超过长度阈值(比如，设为1.5-3s)，则对该高幅度语音以及其前序一定时间，比如前序0.5s以及后续0.5s的整体语音进行截取获得“类短语音”。

对于短语音和类短语音，事先构建情绪短语音子库以及方言短语音子库。

对短语音和类短语音进行特征提取，特征提取过程包括分帧、加窗、短时傅里叶列变换等。分帧的目的主要是降低数据量，假设采样率为16kHz，若每个采样点数据直接用来进行计算，则数据量是相当庞大的。因此，以20ms或25ms为一帧，对信号进行分帧。但是考虑到简单的分帧，在时域上对信号进行有限截断，对应的频域的通带较窄，从而导致频谱泄露。并且考虑语音信号的短时平稳性，对每帧语音信号进行加窗处理，得到短时加窗的语音信号，如下所示：

x_l[n]＝w[n]x[n+lL]

对处理后的语音信号进行短时傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列。特征提取可以采用现有的特征提取方式，这里不再详述。比如，所提取特征包括CQCC特征、MFCC特征、语音图谱特征、Fbank特征等特征中的一种或多种。本实施例中，采用39维MFCC特征作为输入，包括12维原始MFCC特征、12维一阶差分、12维二阶差分、一维原始能量、一维一阶差分、一维二阶差分。在本实施例的一种优选实现方式中，从中随机选取10维原始MFCC特征、10维一阶差分、9维二阶差分、一维原始能量、一维一阶差分、一维二阶差分，共计32维特征作为输入特征。当然，若希望将更多特征纳入考虑，也可以采用全部的39维MFCC特征作为输入。

步骤1.4、分别构建短语音情绪分类子模型、短语音方言分类子模型。

利用训练样本数据，分别基于情绪短语音子库、方言短语音子库对短语音情绪分类子模型、短语音方言分类子模型进行训练。

短语音情绪分类子模型采用第一CNN网络模型。本实施例中，为了简化描述，网络模型采用五层结构，包括第一卷积层、第一池化层、第二卷积层、第二池化层、输出层，输出层采用单路输出，输出情绪分类E₁。

短语音情绪分类子模型的输入采用从原始MFCC特征中选取的16维或32维特征作为输入特征。

短语音情绪分类子模型的损失函数采用：

其中，N为样本数目，yi是第i个训练样本的真实情绪分类向量，ai是第i个训练样本在当前循环输出的分类向量，μ表示基于方言的修正系数，基于方言类型分别为不同类型方言设定修正系数的区间，为了简化描述，这里均以二分类为例，由于多分类可以分解为多个二分类的组合，所以本领域技术人员可以基于二分类进行扩展。

短语音方言分类子模型采用第二CNN网络模型，包括第三卷积层、第三池化层、第四卷积层、第四池化层、第二输出层，第二输出层采用单路输出，输出方言分类E₂。短语音方言分类子模型的输入采用从原始MFCC特征中选取的32维特征作为输入特征，所选取特征至少包括：。

短语音方言分类子模型的损失函数采用：

其中，M为样本数目(这里可以取M＝N)，z_j是第j个训练样本的真实方言分类向量，b_j是第j个训练样本在当前循环输出的分类向量，σ表示基于情绪的修正系数，根据情绪类型分别为相应情绪设定修正系数区间。

在训练过程中，两个模型交替迭代训练，以两个模型的总体分类准确率最高为收敛条件

确定最终的模型参数和修正参数，其中，E_T1和E_R1等分别代表对应模型分类正确的样本。

具体而言，在进行模型训练时，在两个模型之间添加交叉调用语句，初始状态下分别给短语音方言分类子模型和短语音情绪分类子模型设定初始情绪类型和方言类型，并相应设定初始修正参数，比如，初始情绪类型设定为稳定，初始方言类型设定为普通话，初始情绪和方言修正参数分别为1。

然后，以当地医院采集的历史语音数据经过人为方言类型标定后作为训练数据对短语音方言分类子模型进行训练，迭代预定次数后确定当前模型的分类准确率。并且对于训练样本中的每一类样本(这里以二分类为例)，对于方言分类模型而言，对于第一分类和第二分类，分别设定不同的情绪修正系数，对每一组分类系数组合，以该组合所对应的所有样本的分类偏差最小为优化条件进行优化，确定最优情绪补偿系数组合σ₁、σ₂。

以当地医院采集的历史语音数据经过人为情绪类型标定后作为训练数据对短语音情绪分类子模型进行训练，迭代预定次数后确定当前模型的分类准确率。对于情绪分类模型而言，对于每一类情绪分类，即，第一情绪分类和第二情绪分类，分别设定不同的方言修正系数，对每一组分类系数组合，以该组合所对应的所有样本的分类偏差最小为优化条件进行优化，确定最优方言修正系数组合μ₁、μ₂。

以两个模型的总体分类准确率最高为收敛条件，确定两个模型的模型参数以及对于每一种情绪类型的情绪修正系数组合σ₁、σ₂，方言修正系数组合μ₁、μ₂。

分别构建基于不同情绪类型的训练子集和基于不同方言类型的训练子集。

基于情绪类型和方言类型的组合从语言训练数据库中调取训练数据集，对总体语音识别模型进行更新训练，总体语音识别模型可以采用现有语音识别模型。

本实施例中，由于语音识别系统过于复杂，总体语音识别模型采用现有成熟语音识别模型即可，本实施例中，采用基于DeepSpeech语音识别系统的CTC模型。

首先对于各个语音片段进行声学特征序列提取。特征提取采用声学特征序列提取模块实现，对输入语音序列进行特征提取。然后将输入语音序列转换进行流式编码，并输出声学编码状态序列。

接下来采用CTC(Connectionist Temporal Classification)映射进行语音文本标记位置关系映射。举例而言，假设输入序列(音频)映射为X＝[x₁,x₂,…,x_N]，其相应的输出序列(转录)即为Y＝[y₁,y₂,…,y_N]。将字符与音素对齐的操作就相当于在X和Y之间建立一个准确的映射。

为了建立X和Y之间的映射关系，构建递归神经网络模型(RNN)以音频序列作为输入，以相应音频序列对应的字符作为输出，确定二者之间的映射关系。

通过神经网络模型可以输出识别出的文字信息，将文字信息显示在显示屏幕上供患者进行确认，或者可以直接对患者的语音数据以及相应识别出的信息进行记录备查。

对于语音识别模型，基于短语音以及类段语音所确定的患者语音类型，即时性调用相应训练数据，对语音识别模型进行加强训练。比如，术前访视过程中，在进行正式问题沟通之前，会与病人进行一些前序的沟通，与病人进行身份确认等，这些信息是需要在医护人员远程或现场指导并存在准确信息的。因此，可以利用此时的沟通时间提取患者的短语音，进行模型的调整，模型的更新过程可以实时进行，不断更新。

在另一种实现方式中，优选地，对于每个患者，在对其进行术前访视的开始阶段，通过在屏幕显示与病症相关的若干关键词，请病人点击并朗读，系统接收病人对于病症相关关键词的声音信息将对应关键词作为标签作为修正训练数据，带入到模型中进行模型的加强训练。

测试过程中，以方言(普通话和四川方言)和情绪(平静和激动)均为二分类作为测试基础，分别构建两种方言和两种情绪的训练数据集500份，每个样本包含一段时长为5分钟的语音数据以及对应文本数据。每个训练样本既包含了方言分类，又包含了情绪分类。取五分之一的数据集数据作为测试数据，其余用作训练数据。

将测试数据分为两部分，第一部分直接带入到识别模型中进行识别，第二部分对其进行情绪分类和方言分类，然后基于情绪分类和方言分类，对应调取相应的类型的训练数据集，对语音识别模型进行更新训练。

经测试：对于没有进行预先情绪分类和方言分类并更新训练后的语音识别模型，其对于普通话语音数据的识别准确率为87％，而对于四川方言的识别准确率仅为74％；而对于进行预先情绪分类和方言分类并更新训练后的语音识别模型，对于普通话的识别准确率可以提高至91％,而对于四川方言的识别准确率可以提高到88％。

因此，本发明的语音识别方法通过针对性的进行更新训练可以显著提升语音识别的准确率。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于语音识别的术前访视系统，其特征在于，所述系统包括：图像采集装置、声音采集装置、语音识别模块、访视问题数据库、智能语音模块以及手动录入装置，所述图像采集装置设置于系统的前侧，面向患者用于对患者的图像进行采集，所述声音采集装置为多路语音采集装置，用于采集患者的语音数据，所述访视问题数据库中按类别存储有相关疾病的预置访视问题，所述智能语音模块与所述声音采集装置相连，用于接收患者的语音数据并将患者语音数据转换成对应的回答文本，所述手动录入装置用于接收医护人员或者患者的手动信息输入，所述语音识别模块包括用于对语音信号进行预处理的语音信号预处理模块，用于对语音进行分割的语音分割模块，用于对语音段进行长语音、中语音和短语音分类的语音分类模块，用于从长语音和中语音中进行类短语音提取的语音提取模块，用于对短语音和类短语音进行分类的短语音分类模型模块，以及能够基于短语音分类进行语音识别模型更新训练的语音识别模型。

2.根据权利要求1所述的术前访视系统，其特征在于，还包括问题匹配模块，所述问题匹配模块基于患者语音数据中所包含的患者问题与访视问题数据库中的问题进行匹配，进而将相应问题的回答范本呈现在所述术前访视系统的显示屏幕上。

3.根据权利要求2所述的术前访视系统，其特征在于，还包括智能语音模块，所述智能语音模块用于将文本数据转换成语音数据进行对外输出。

4.根据权利要求2所述的术前访视系统，其特征在于，还包括患者数据库，所述患者数据库中存储有各类疾病的相关患者病例信息。

5.根据权利要求2所述的术前访视系统，其特征在于，语音提取模块用于对短语音和类短语音进行分帧和加窗，得到短时加窗的语音信号x_l[n]，

x_l[n]＝w[n]x[n+lL]，

6.根据权利要求5所述的术前访视系统，其特征在于，所述语音识别模型包括短语音情绪分类子模型、短语音方言分类子模型以及语音识别模型。

7.根据权利要求5所述的术前访视系统，其特征在于，所述语音识别模型包括短语音情绪分类子模型和短语音方言分类子模型采用独立损失函数进行单独训练并以总体分类准确率为最优条件进行总体优化训练。

8.一种用于权利要求1所述的术前访视系统的语音识别方法，其特征在于，所述方法包括：

利用修正训练后的语音识别模型对进行语音识别。