CN111768758A

CN111768758A - 基于视频判读技术的自助化基础生命支持考核系统

Info

Publication number: CN111768758A
Application number: CN202010724686.4A
Authority: CN
Inventors: 张燕姿
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-13
Anticipated expiration: 2040-07-24
Also published as: CN111768758B

Abstract

本发明公开一种基于视频判读技术的自助化基础生命支持考核系统，包括：数据采集模块，所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频；智能判读模块，所述智能判读模块包括语音识别模块和动作识别模块，所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读，所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读。自助化考核中央控制单元，所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。本发明可智能化、自动化地真实记录并准确分析学生BLS操作过程情况，可代替教师直接对学生BLS操作过程进行考核打分，节约教师资源。

Description

基于视频判读技术的自助化基础生命支持考核系统

技术领域

本发明涉及医疗技术领域，尤其涉及一种基于视频判读技术的自助化基础生命支持考核系统。

背景技术

缺血性心脏疾病是高病死率疾病之一，是全球公认的重大公共卫生问题。缺血性心脏疾病发病时最主要的临床表现是心脏骤停。在美国，每年约有155000人因院外心脏骤停接受急救医疗，其中仅有不到8％患者存活。根据国际共识，院外心脏骤停患者治疗成功的关键在于经基础生命支持(BLS)培训的旁观者的存在，他们随时准备好，愿意并且能够采取行动进行紧急救援。有研究表明BLS培训可提高无医护知识背景的旁观者实施的心肺复苏成功率，并将院外心脏骤停患者的存活率提高2-4倍。甚至2015年1月世界卫生组织已认可将BLS培训纳入全球所有学校甚至儿童的课程中。可见，BLS培训对于提高社会人群整体心肺复苏率至关重要。但是目前在学校实施BLS培训与考核的重要障碍是缺乏教师。

目前国内BLS培训考核的模式依然是在固定时间、固定场所，学校组织教师授课，随堂考核。教师来源常常是一线医生、护士等医务工作者。这些医务工作者常面临繁重的临床工作任务，教学时间有限。如，一个完整的BLS操作需要用时约2分钟，一个班级平均50名学生,仅是BLS考核部分，将花费教师至少100分钟时间，而这100分钟时间内，最后一个学生除了2分钟的考试时间外，其余时间均在等待，浪费了师生的时间。另外所用设备常常是包含有投影仪的多媒体教室以及复苏模拟人。复苏模拟人虽然可以对BLS的关键技术心肺复苏(CPR)中的胸外按压技能进行客观评价，但是这些指标只是完成BLS中客观操作的一小部分内容的考核与评价，仅是完成院外心脏骤停生存链中的第二步骤。生存链中最关键的第一个步骤“识别和启动应急反应系统”以及后续步骤“快速除颤”等都需要在教师的监考下才能完成考核。同时，目前心肺复苏考核的技术更新重点多在于或更新按压监测准确性，或提高模拟人仿真度，最终的考核仍然依托于教师对学生操作信息的判读，不能节约教师资源，实现BLS考核全过程的无师化，自动化，智能化。

发明内容

本发明旨在提供一种基于视频判读技术的自助化基础生命支持考核系统，可智能化、自动化地真实记录并准确分析学生BLS操作过程情况，解决背景技术中提出的问题。

为达到上述目的，本发明是采用以下技术方案实现的：

本发明公开的基于视频判读技术的自助化基础生命支持考核系统，包括：

数据采集模块，所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频；

智能判读模块，所述智能判读模块包括语音识别模块和动作识别模块，所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读，所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读。

自助化考核中央控制单元，所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。

优选的，所述语音识别模块对语音的识别采用以下步骤：

a.1、提取音频数据；

a.2、建立LSTM语言模型；

a.3、建立LSTM+CPC声学模型；

a.4、构建字典；

a.5、解码后输出文本信息；

a.6、文本检查模块对文本信息数据进行文本识别判读。

优选的，在步骤a.2中，包括以下子步骤：

a.2.1、构建文本数据库，将将BLS考核内容可能涉及到的文本数据进行标注、分词；

a.2.2、建立并训练LSTM语言模型，所述LSTM模型由一个嵌入层，一个隐藏层和一个密集层组成，将文本数据库中的句子概率拆解成每个词的概率积；

其中，LSTM层由多个细胞单元构成，每个细胞单元包括输入节点(g_t)、输入门(i_t)、内部状态节点(s_t)、忘记门(f_t)、输出门(o_t)，最终输出值为计算公式分别为：

i_t＝σ(w_ixx_t+w_ihh_t-1+b_i)

f_t＝σ(w_fxx_t+w_fhh_t-1+b_f)

s_t＝(g_t·i_t+s_t-1·f_t)

o_t＝σ(w_oxx_t+w_ohh_t-1+b_o)

h_t＝s_t·o_t

上述公式中：x_t代表当前时刻网络的输入值，h_t-1代表上一时刻的输出值，w代表权重矩阵，w_gx表示输入节点g输入值x的权重，b_g，b_i，b_t，b_o表示输入节点的偏置项，

表示用tanh函数，σ()表示用sigmoid函数。

其中，密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率，即：

P(w₁,…,w_n)＝P(w₁)*P(w₂|w₁)*…*P(w_n|w_n-1,…,w₁)；

上述公式中：P()表示联合概率函数，w_n表示句子中的第n个词，P(w₂|w₁)表示句子中在出现词w₁的条件下，出现词w₂的概率，P(w_n|w_n-1,…,w₁)表示出现句子中存在词w_n- ₁....w₁条件下，出现w_n的概率。

优选的，步骤a.3包括以下子步骤：

a.3.1、声学特征提取，对BLS视频信息数据中的语音进行分帧；分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取；

a.3.2、建立LSTM+CTC声学模型，将提取到的声学特征转换成音素或字词；所述LSTM+CTC声学模型包括LSTM双向网络、CTC损失函数；

所述LSTM双向网络模型用于将语音数据转换成音素，LSTM双向网络模型包括输入层，前进层(h_t)，后退层(h′_t)，输出层(o_t)，所述前进层(h_t)，后退层(h′_t)，输出层(o_t)的表达式分别为：

h_t＝f(w₁x_t+w₂h_t-1)

h′_t＝f(w₃x_t+w₅h_t-1)

o_t＝g(w₄h_t+w₆h′_t)

其中，w₁,w₂…w₆代表LSTM双向网络中的6个共享权值。

所述CTC损失函数用于对音素进行最大相似度训练，直接输出序列预测概率，CTC损失函数为：

其中，S＝{(x₁,z₁),(x₂,z₂),...(x_N,z_N)},表示有N个训练样本，x是输入样本，输入样本为提取的声学特征，z是对应的真实输出标签，对于其中一个样本(x,z)，x＝(x₁,x₂,x₃,...,x_T)表示一个长度为T帧的数据，每一帧的数据是一个维度为m的向量，即每个x_i∈R^m，x_i是第i帧的数据经过LPC计算后得到的结果；z＝(z₁,z₂,z₃,...z_U)表示这段样本语音对应正确的音素，N_w:(R^m)^T→(Rⁿ)^T代表LSTM模型中x的变换。

优选的，步骤a.4包括以下子步骤：

a.4.1、构建语言模型字典：为每个词赋予唯一的索引，输入向量

输出条件概率

采用Softmax函数进行归一化分类，计算公式为：

其中，n_i＝(n-1)m，n-1代表前n-1个词，m表示特征向量的大小，k表示字典的大小，v_i表示字典v中的第i个字，

表示前n-1个词的条件概率；

a.4.2、构建发音字典；

步骤a.5包括：将步骤a.2中语言模型输出的概率、步骤a.3中声学模型转换出的声素、步骤a.4中字典结合解码，进行文本输出，计算公式为：

其中，P(X|H)为声学模型，P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列，以及音素序列对字序列的后验概率；P(W)为语言模型；

对新采集的受训者的BLS操作语音信息数据，重复步骤a.2-a.5，得到BLS操作文本语句信息；

步骤a.6包括根据文本检测并抽取出关键时间点序列，并与字典进行相似度对比，

所述文本检查模块对文本信息数据进行文本识别判读的规则策略设定如下：

设置文本参数库里词语的关键字权重，权重向量W＝{w1,w2....wn}；

所述相似度对比为：计算已设定的关键字权重与新采集的文本之间的余弦相似度，计算公式为：

x_i代表句子A中每个词出现次数*权重，y_i代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时，两个文本相近；

对新转化的受训者的BLS操作语音文本数据，重复步骤5.2-5.6，得到BLS操作语音识别判读结果。

优选的，所述动作识别模块对动作的识别包括以下步骤：

b.1、视频帧序列提取，根据音频识别结果，结合关键词匹配的时间点序列提取指定时间点的视频帧；

b.2、构建骨架序列拓朴图信息；

b.3、建立并训练ST-GCN模型；

b.4、动作分类。

优选的，步骤b.2中，所述构建骨架序列拓朴图信息以关节为图节点，以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图，其表达式为：

G＝(V,E)

式中：V代表节点集，V＝{v_ti|t＝1,…,T,i＝1,...,N}，表示第t帧的第i个节点的特征向量F(v_ti)；E代表边的集合，有两个子集组成，第一个子集是每一帧帧内骨骼点的链接Es＝{v_tiv_tj|(i,j)∈H},H表示人体骨骼点集合，第二个子集表示不同帧间的链接，Ef＝{v_tiv(t+1)_i}。

优选的，所述ST-GCN模型包括输入层、初始化层、三层卷积层、池化层、全链接层、输出层，其中，每层卷积层包括一个ATT单元，一个GCN单元，一个TCN单元；卷积层的输入与输出公式如下：

其中，f_in代表输入通道数为c的特征图，卷积核大小K*K；B(v_ti)代表采样函数，l_ti(v_tj)代表单帧标签图，w(l_ti(v_tj))代表权重方程，Z_ti(v_tj)代表归一化项。将空间域的模型扩展到时间域中，采样函数更换为

Γ控制时间域的卷积核大小，权重方程中l_ti(v_tj)更换为

优选的，所述动作分类采用softmax进行动作分类操作，得到预测动作类别的概率值。

进一步的，本发明还包括数据管理模块，所述数据管理模块包括注册登录模块，视频记录模块，成绩展示模块。

本发明可智能化、自动化地真实记录并准确分析学生BLS操作过程情况，可代替教师直接对学生BLS操作过程进行考核打分，节约教师资源。

附图说明

图1为本发明的架构框图；

图2为智能判读模块的架构图；

图3为语音识别模块的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

如图1所示，本发明包括自助化考核中央控制单元、管理模块、数据采集模块和智能判读模块，实现学生自助化BLS技能操作的考核。

具体的，数据采集模块包括注册与登录终端，视频采集终端，模拟人终端；数据管理模块包括注册登录模块，视频记录模块，成绩展示模块；智能判读模块包括语音识别模块、动作识别模块。2)注册登录终端和注册登录模块记录学生注册与登录信息；模拟人终端记录学生操作过程中的按压位置，按压深度，按压频率，每次吹气量等信息；视频采集终端通过摄像设备采集学生BLS技能操作全过程，包括学生操作过程中的动作和声音信息数据；视频记录模块，存储并输出由视频采集终端采集的视频。视频判读模块对学生的操作视频进行智能化自动化视频判读打分。成绩展示模块综合展示视频判读模块与模拟人终端输出的考核打分结果。

本发明的使用方法：步骤：1)学生通过在注册登录模块注册并登录账号；2)与模拟人终端配合完成单人BLS操作；3)在视频记录模块观看已完成的操作视频；4)在成绩展示模块查询考核成绩。

如图2所示，智能判读模块包括语音识别模块、动作识别模块。1)语音识别模块提取视频信息数据中的音频数据进行语音识别判读；2)动作识别模块提取视频信息数据中的图像数据进行动作识别判读。

1、如图3所示，提取视频信息数据中的音频数据进行语音识别判读，包含语音识别模块、文本检测模块。步骤：1)提取音频数据；2)建立LSTM语言模型；3)建立LSTM+CPC声学模型；4)构建字典；5)解码后输出文本信息；6)文本检查模块对文本信息数据进行文本识别判读。

1.1、其中，建立LSTM语言模型的步骤如下：1)构建文本数据库；2)建立并训练LSTM语言模型；

1.1.1、构建文本数据库：将BLS考核内容可能涉及到的文本数据如“前方有人倒地”“确保现场安全”“先生先生你怎么了”“女士醒一醒”“呼之不应，无呼吸”“喂，120”“有人晕倒”“街道小区楼栋”“需要AED”，“无脉搏搏动”“01、02、03、04…27、28、29、30”，“AED到达”“打开电源”“连接电极片”“除颤”“继续胸外按压”“脉搏恢复”“意识恢复”“可触及脉搏搏动”等进行人工标注、分词，构建文本数据库。

1.1.2、建立并训练LSTM语言模型：LSTM模型由一个嵌入层，一个隐藏层和一个密集层组成，将文本数据库中的句子概率拆解成每个词的概率积。

i_t＝σ(w_ixx_t+w_ihh_t-1+b_i)

f_t＝σ(w_fxx_t+w_fhh_t-1+b_f)

s_t＝(g_t·i_t+s_t-1·f_t)

o_t＝σ(w_oxx_t+w_ohh_t-1+b_o)

h_t＝S_t·o_t

表示用tanh函数，σ()表示用sigmoid函数。

P(w₁，…，w_n)＝P(w₁)*P(w₂|w₁)*…*P(w_n|w_n-1，…，w₁)；

上述公式中：P()表示联合概率函数，w_n表示句子中的第n个词，P(w₂|w₁)表示句子中在出现词w₁的条件下，出现词w₂的概率，P(w_n|w_n-1，…，w₁)表示出现句子中存在词w_n- ₁....w₁条件下，出现w_n的概率。

1.2建立LSTM+CPC声学模型。其特征在于，步骤1)声学特征提取：对BLS视频信息数据中的语音进行分帧；分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取；2)建立LSTM+CTC声学模型，将提取到的声学特征转换成音素/字词。

其中，LSTM+CTC声学模型：包括LSTM双向网络，CTC损失函数，其特征在于，步骤：1)通过LSTM双向网络模型将语音数据转换成音素；2)通过CTC损失函数对音素进行最大相似度训练，直接输出序列预测概率。

1.2.1、LSTM双向网络模型包括输入层，前进层(h_t)，后退层(h′_t)，输出层(o_t)，表达式分别为：

h_t＝f(w₁x_t+w₂h_t-1)

h′_t＝f(w₃x_t+w₅h_t-1)

o_t＝g(w₄h_t+w₆h′_t)

其中，w₁，w₂…w₆代表LSTM双向网络中的6个共享权值。

其中，S＝{(x₁，z₁)，(x₂，z₂)，...(x_N，z_N)}，表示有N个训练样本，x是输入样本，输入样本为提取的声学特征，z是对应的真实输出标签，对于其中一个样本(x，z)，x＝(x₁，x₂，x₃，...，x_T)表示一个长度为T帧的数据，每一帧的数据是一个维度为m的向量，即每个x_i∈R^m，x_i是第i帧的数据经过LPC计算后得到的结果；z＝(z₁，z₂，z₃，...z_U)表示这段样本语音对应正确的音素，N_w：(R^m)^T→(Rⁿ)^T代表LSTM模型中x的变换。

1.3、构建字典：

1.3.1构建语言模型字典：为每个词赋予唯一的索引，输入向量

输出条件概率

采用Softmax函数进行归一化分类，计算公式为：

表示前n-1个词的条件概率。

1.3.2构建发音字典：如“确QE”“保BO”“安AN”“全QN”等。

1.4解码后输出文本信息：其特征在于，将1.1中语言模型输出的概率、1.2中声学模型转换出的声素、1.3中字典结合解码，进行文本输出。计算公式为：

其中，P(X|H)为声学模型，P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列，以及音素序列对字序列的后验概率；P(W)为语言模型。

1.5对新采集的学生BLS操作语音信息数据，重复步骤1.1-1.4，得到BLS操作文本语句信息。

1.6文本检查模块对文本信息数据进行文本识别判读，其特征在于，步骤：1)检测；2)规则策略设定；3)相似度对比。

1.6.1检测：根据文本检测并抽取出关键时间点序列，文本检测结果如“前方有人倒地，确保现场安全”作为序列1，“先生先生你怎么了”“女士醒一醒”“呼之不应，无呼吸”作为序列2，“喂，120”“有人晕倒”“街道小区楼栋”“需要AED”作为序列3，“无脉搏搏动”“01、02、03、04…27、28、29、30”作为序列4，“AED到达”“打开电源”“连接电极片”“除颤”“继续胸外按压”作为序列5,“脉搏恢复”“意识恢复”“可触及脉搏搏动”作为序列6。

1.6.2规则策略设定：设置文本参数库里词语的关键字权重，权重向量W＝{w1,w2....wn}，其中

如“前方有人倒地，确保周围环境安全”关键词为：倒地，确保，环境，安全，则权重为(0,0,0.2,0.3,0,0.1,0.3)。

1.6.3相似度对比：计算已设定的关键字权重与新采集的文本之间的余弦相似度，计算公式为：

其中，x_i代表句子A中每个词出现次数*权重，y_i代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时，两个文本相近。

1.7对新转化的学生BLS操作语音文本数据，重复步骤1.1-1.6，得到BLS操作语音识别判读结果。

2、如图2所示：提取视频信息数据中的图像信息数据进行动作识别判读，包括步骤：1)视频帧序列提取；2)构建骨架序列拓朴图信息；3)建立并训练ST-GCN模型；4)动作分类。

2.1视频帧序列提取：根据音频识别结果，结合关键词匹配的时间点序列提取指定时间点的视频帧。

2.2构建骨架序列拓朴图信息：以关节为图节点，以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图(时空图)，计算公式为：

G＝(V,E)

V代表节点集，V＝{v_ti|t＝1,…,T,i＝1,...,N}，表示第t帧的第i个节点的特征向量F(v_ti)；E代表边的集合，有两个子集组成，第一个子集是每一帧帧内骨骼点的链接Es＝{v_tiv_tj|(i,j)∈H},H表示人体骨骼点集合。第二个子集表示不同帧间的链接，Ef＝{v_tiv(t+1)_i}。

2.3、建立并训练ST-GCN模型，包括输入层，初始化层，三层卷积层，池化层，全链接层，输出层。其中，每层卷积层包括一个ATT单元，一个GCN单元，一个TCN单元。

卷积层的输入与输出公式：

Γ控制时间域的卷积核大小，权重方程中l_ti(v_tj)更换为

2.4、输出动作分类：采用softmax进行动作分类操作，得到预测动作类别的概率值。

2.5、对新采集的学生BLS操作图像信息数据，重复步骤2.1-2.4，得到BLS操作动作识别判读结果。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。