CN111768758A - 基于视频判读技术的自助化基础生命支持考核系统 - Google Patents

基于视频判读技术的自助化基础生命支持考核系统 Download PDF

Info

Publication number
CN111768758A
CN111768758A CN202010724686.4A CN202010724686A CN111768758A CN 111768758 A CN111768758 A CN 111768758A CN 202010724686 A CN202010724686 A CN 202010724686A CN 111768758 A CN111768758 A CN 111768758A
Authority
CN
China
Prior art keywords
representing
video
module
layer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010724686.4A
Other languages
English (en)
Other versions
CN111768758B (zh
Inventor
张燕姿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202010724686.4A priority Critical patent/CN111768758B/zh
Publication of CN111768758A publication Critical patent/CN111768758A/zh
Application granted granted Critical
Publication of CN111768758B publication Critical patent/CN111768758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开一种基于视频判读技术的自助化基础生命支持考核系统,包括:数据采集模块,所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频;智能判读模块,所述智能判读模块包括语音识别模块和动作识别模块,所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读,所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读。自助化考核中央控制单元,所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。本发明可智能化、自动化地真实记录并准确分析学生BLS操作过程情况,可代替教师直接对学生BLS操作过程进行考核打分,节约教师资源。

Description

基于视频判读技术的自助化基础生命支持考核系统
技术领域
本发明涉及医疗技术领域,尤其涉及一种基于视频判读技术的自助化基础生命支持考核系统。
背景技术
缺血性心脏疾病是高病死率疾病之一,是全球公认的重大公共卫生问题。缺血性心脏疾病发病时最主要的临床表现是心脏骤停。在美国,每年约有155000人因院外心脏骤停接受急救医疗,其中仅有不到8%患者存活。根据国际共识,院外心脏骤停患者治疗成功的关键在于经基础生命支持(BLS)培训的旁观者的存在,他们随时准备好,愿意并且能够采取行动进行紧急救援。有研究表明BLS培训可提高无医护知识背景的旁观者实施的心肺复苏成功率,并将院外心脏骤停患者的存活率提高2-4倍。甚至2015年1月世界卫生组织已认可将BLS培训纳入全球所有学校甚至儿童的课程中。可见,BLS培训对于提高社会人群整体心肺复苏率至关重要。但是目前在学校实施BLS培训与考核的重要障碍是缺乏教师。
目前国内BLS培训考核的模式依然是在固定时间、固定场所,学校组织教师授课,随堂考核。教师来源常常是一线医生、护士等医务工作者。这些医务工作者常面临繁重的临床工作任务,教学时间有限。如,一个完整的BLS操作需要用时约2分钟,一个班级平均50名学生,仅是BLS考核部分,将花费教师至少100分钟时间,而这100分钟时间内,最后一个学生除了2分钟的考试时间外,其余时间均在等待,浪费了师生的时间。另外所用设备常常是包含有投影仪的多媒体教室以及复苏模拟人。复苏模拟人虽然可以对BLS的关键技术心肺复苏(CPR)中的胸外按压技能进行客观评价,但是这些指标只是完成BLS中客观操作的一小部分内容的考核与评价,仅是完成院外心脏骤停生存链中的第二步骤。生存链中最关键的第一个步骤“识别和启动应急反应系统”以及后续步骤“快速除颤”等都需要在教师的监考下才能完成考核。同时,目前心肺复苏考核的技术更新重点多在于或更新按压监测准确性,或提高模拟人仿真度,最终的考核仍然依托于教师对学生操作信息的判读,不能节约教师资源,实现BLS考核全过程的无师化,自动化,智能化。
发明内容
本发明旨在提供一种基于视频判读技术的自助化基础生命支持考核系统,可智能化、自动化地真实记录并准确分析学生BLS操作过程情况,解决背景技术中提出的问题。
为达到上述目的,本发明是采用以下技术方案实现的:
本发明公开的基于视频判读技术的自助化基础生命支持考核系统,包括:
数据采集模块,所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频;
智能判读模块,所述智能判读模块包括语音识别模块和动作识别模块,所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读,所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读。
自助化考核中央控制单元,所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。
优选的,所述语音识别模块对语音的识别采用以下步骤:
a.1、提取音频数据;
a.2、建立LSTM语言模型;
a.3、建立LSTM+CPC声学模型;
a.4、构建字典;
a.5、解码后输出文本信息;
a.6、文本检查模块对文本信息数据进行文本识别判读。
优选的,在步骤a.2中,包括以下子步骤:
a.2.1、构建文本数据库,将将BLS考核内容可能涉及到的文本数据进行标注、分词;
a.2.2、建立并训练LSTM语言模型,所述LSTM模型由一个嵌入层,一个隐藏层和一个密集层组成,将文本数据库中的句子概率拆解成每个词的概率积;
其中,LSTM层由多个细胞单元构成,每个细胞单元包括输入节点(gt)、输入门(it)、内部状态节点(st)、忘记门(ft)、输出门(ot),最终输出值为计算公式分别为:
Figure BDA0002601238900000031
it=σ(wixxt+wihht-1+bi)
ft=σ(wfxxt+wfhht-1+bf)
st=(gt·it+st-1·ft)
ot=σ(woxxt+wohht-1+bo)
ht=st·ot
上述公式中:xt代表当前时刻网络的输入值,ht-1代表上一时刻的输出值,w代表权重矩阵,wgx表示输入节点g输入值x的权重,bg,bi,bt,bo表示输入节点的偏置项,
Figure BDA0002601238900000041
表示用tanh函数,σ()表示用sigmoid函数。
其中,密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率,即:
P(w1,…,wn)=P(w1)*P(w2|w1)*…*P(wn|wn-1,…,w1);
上述公式中:P()表示联合概率函数,wn表示句子中的第n个词,P(w2|w1)表示句子中在出现词w1的条件下,出现词w2的概率,P(wn|wn-1,…,w1)表示出现句子中存在词wn- 1....w1条件下,出现wn的概率。
优选的,步骤a.3包括以下子步骤:
a.3.1、声学特征提取,对BLS视频信息数据中的语音进行分帧;分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取;
a.3.2、建立LSTM+CTC声学模型,将提取到的声学特征转换成音素或字词;所述LSTM+CTC声学模型包括LSTM双向网络、CTC损失函数;
所述LSTM双向网络模型用于将语音数据转换成音素,LSTM双向网络模型包括输入层,前进层(ht),后退层(h′t),输出层(ot),所述前进层(ht),后退层(h′t),输出层(ot)的表达式分别为:
ht=f(w1xt+w2ht-1)
h′t=f(w3xt+w5ht-1)
ot=g(w4ht+w6h′t)
其中,w1,w2…w6代表LSTM双向网络中的6个共享权值。
所述CTC损失函数用于对音素进行最大相似度训练,直接输出序列预测概率,CTC损失函数为:
Figure BDA0002601238900000051
其中,S={(x1,z1),(x2,z2),...(xN,zN)},表示有N个训练样本,x是输入样本,输入样本为提取的声学特征,z是对应的真实输出标签,对于其中一个样本(x,z),x=(x1,x2,x3,...,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xi∈Rm,xi是第i帧的数据经过LPC计算后得到的结果;z=(z1,z2,z3,...zU)表示这段样本语音对应正确的音素,Nw:(Rm)T→(Rn)T代表LSTM模型中x的变换。
优选的,步骤a.4包括以下子步骤:
a.4.1、构建语言模型字典:为每个词赋予唯一的索引,输入向量
Figure BDA0002601238900000052
输出条件概率
Figure BDA0002601238900000053
采用Softmax函数进行归一化分类,计算公式为:
Figure BDA0002601238900000054
其中,ni=(n-1)m,n-1代表前n-1个词,m表示特征向量的大小,k表示字典的大小,vi表示字典v中的第i个字,
Figure BDA0002601238900000055
表示前n-1个词的条件概率;
a.4.2、构建发音字典;
步骤a.5包括:将步骤a.2中语言模型输出的概率、步骤a.3中声学模型转换出的声素、步骤a.4中字典结合解码,进行文本输出,计算公式为:
Figure BDA0002601238900000061
其中,P(X|H)为声学模型,P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;P(W)为语言模型;
对新采集的受训者的BLS操作语音信息数据,重复步骤a.2-a.5,得到BLS操作文本语句信息;
步骤a.6包括根据文本检测并抽取出关键时间点序列,并与字典进行相似度对比,
所述文本检查模块对文本信息数据进行文本识别判读的规则策略设定如下:
设置文本参数库里词语的关键字权重,权重向量W={w1,w2....wn};
所述相似度对比为:计算已设定的关键字权重与新采集的文本之间的余弦相似度,计算公式为:
Figure BDA0002601238900000062
xi代表句子A中每个词出现次数*权重,yi代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时,两个文本相近;
对新转化的受训者的BLS操作语音文本数据,重复步骤5.2-5.6,得到BLS操作语音识别判读结果。
优选的,所述动作识别模块对动作的识别包括以下步骤:
b.1、视频帧序列提取,根据音频识别结果,结合关键词匹配的时间点序列提取指定时间点的视频帧;
b.2、构建骨架序列拓朴图信息;
b.3、建立并训练ST-GCN模型;
b.4、动作分类。
优选的,步骤b.2中,所述构建骨架序列拓朴图信息以关节为图节点,以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图,其表达式为:
G=(V,E)
式中:V代表节点集,V={vti|t=1,…,T,i=1,...,N},表示第t帧的第i个节点的特征向量F(vti);E代表边的集合,有两个子集组成,第一个子集是每一帧帧内骨骼点的链接Es={vtivtj|(i,j)∈H},H表示人体骨骼点集合,第二个子集表示不同帧间的链接,Ef={vtiv(t+1)i}。
优选的,所述ST-GCN模型包括输入层、初始化层、三层卷积层、池化层、全链接层、输出层,其中,每层卷积层包括一个ATT单元,一个GCN单元,一个TCN单元;卷积层的输入与输出公式如下:
Figure BDA0002601238900000071
其中,fin代表输入通道数为c的特征图,卷积核大小K*K;B(vti)代表采样函数,lti(vtj)代表单帧标签图,w(lti(vtj))代表权重方程,Zti(vtj)代表归一化项。将空间域的模型扩展到时间域中,采样函数更换为
Figure BDA0002601238900000072
Γ控制时间域的卷积核大小,权重方程中lti(vtj)更换为
Figure BDA0002601238900000073
优选的,所述动作分类采用softmax进行动作分类操作,得到预测动作类别的概率值。
进一步的,本发明还包括数据管理模块,所述数据管理模块包括注册登录模块,视频记录模块,成绩展示模块。
本发明可智能化、自动化地真实记录并准确分析学生BLS操作过程情况,可代替教师直接对学生BLS操作过程进行考核打分,节约教师资源。
附图说明
图1为本发明的架构框图;
图2为智能判读模块的架构图;
图3为语音识别模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
如图1所示,本发明包括自助化考核中央控制单元、管理模块、数据采集模块和智能判读模块,实现学生自助化BLS技能操作的考核。
具体的,数据采集模块包括注册与登录终端,视频采集终端,模拟人终端;数据管理模块包括注册登录模块,视频记录模块,成绩展示模块;智能判读模块包括语音识别模块、动作识别模块。2)注册登录终端和注册登录模块记录学生注册与登录信息;模拟人终端记录学生操作过程中的按压位置,按压深度,按压频率,每次吹气量等信息;视频采集终端通过摄像设备采集学生BLS技能操作全过程,包括学生操作过程中的动作和声音信息数据;视频记录模块,存储并输出由视频采集终端采集的视频。视频判读模块对学生的操作视频进行智能化自动化视频判读打分。成绩展示模块综合展示视频判读模块与模拟人终端输出的考核打分结果。
本发明的使用方法:步骤:1)学生通过在注册登录模块注册并登录账号;2)与模拟人终端配合完成单人BLS操作;3)在视频记录模块观看已完成的操作视频;4)在成绩展示模块查询考核成绩。
如图2所示,智能判读模块包括语音识别模块、动作识别模块。1)语音识别模块提取视频信息数据中的音频数据进行语音识别判读;2)动作识别模块提取视频信息数据中的图像数据进行动作识别判读。
1、如图3所示,提取视频信息数据中的音频数据进行语音识别判读,包含语音识别模块、文本检测模块。步骤:1)提取音频数据;2)建立LSTM语言模型;3)建立LSTM+CPC声学模型;4)构建字典;5)解码后输出文本信息;6)文本检查模块对文本信息数据进行文本识别判读。
1.1、其中,建立LSTM语言模型的步骤如下:1)构建文本数据库;2)建立并训练LSTM语言模型;
1.1.1、构建文本数据库:将BLS考核内容可能涉及到的文本数据如“前方有人倒地”“确保现场安全”“先生先生你怎么了”“女士醒一醒”“呼之不应,无呼吸”“喂,120”“有人晕倒”“街道小区楼栋”“需要AED”,“无脉搏搏动”“01、02、03、04…27、28、29、30”,“AED到达”“打开电源”“连接电极片”“除颤”“继续胸外按压”“脉搏恢复”“意识恢复”“可触及脉搏搏动”等进行人工标注、分词,构建文本数据库。
1.1.2、建立并训练LSTM语言模型:LSTM模型由一个嵌入层,一个隐藏层和一个密集层组成,将文本数据库中的句子概率拆解成每个词的概率积。
其中,LSTM层由多个细胞单元构成,每个细胞单元包括输入节点(gt)、输入门(it)、内部状态节点(st)、忘记门(ft)、输出门(ot),最终输出值为计算公式分别为:
Figure BDA0002601238900000091
it=σ(wixxt+wihht-1+bi)
ft=σ(wfxxt+wfhht-1+bf)
st=(gt·it+st-1·ft)
ot=σ(woxxt+wohht-1+bo)
ht=St·ot
上述公式中:xt代表当前时刻网络的输入值,ht-1代表上一时刻的输出值,w代表权重矩阵,wgx表示输入节点g输入值x的权重,bg,bi,bt,bo表示输入节点的偏置项,
Figure BDA0002601238900000101
表示用tanh函数,σ()表示用sigmoid函数。
其中,密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率,即:
P(w1,…,wn)=P(w1)*P(w2|w1)*…*P(wn|wn-1,…,w1);
上述公式中:P()表示联合概率函数,wn表示句子中的第n个词,P(w2|w1)表示句子中在出现词w1的条件下,出现词w2的概率,P(wn|wn-1,…,w1)表示出现句子中存在词wn- 1....w1条件下,出现wn的概率。
1.2建立LSTM+CPC声学模型。其特征在于,步骤1)声学特征提取:对BLS视频信息数据中的语音进行分帧;分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取;2)建立LSTM+CTC声学模型,将提取到的声学特征转换成音素/字词。
其中,LSTM+CTC声学模型:包括LSTM双向网络,CTC损失函数,其特征在于,步骤:1)通过LSTM双向网络模型将语音数据转换成音素;2)通过CTC损失函数对音素进行最大相似度训练,直接输出序列预测概率。
1.2.1、LSTM双向网络模型包括输入层,前进层(ht),后退层(h′t),输出层(ot),表达式分别为:
ht=f(w1xt+w2ht-1)
h′t=f(w3xt+w5ht-1)
ot=g(w4ht+w6h′t)
其中,w1,w2…w6代表LSTM双向网络中的6个共享权值。
所述CTC损失函数用于对音素进行最大相似度训练,直接输出序列预测概率,CTC损失函数为:
Figure BDA0002601238900000111
其中,S={(x1,z1),(x2,z2),...(xN,zN)},表示有N个训练样本,x是输入样本,输入样本为提取的声学特征,z是对应的真实输出标签,对于其中一个样本(x,z),x=(x1,x2,x3,...,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xi∈Rm,xi是第i帧的数据经过LPC计算后得到的结果;z=(z1,z2,z3,...zU)表示这段样本语音对应正确的音素,Nw:(Rm)T→(Rn)T代表LSTM模型中x的变换。
1.3、构建字典:
1.3.1构建语言模型字典:为每个词赋予唯一的索引,输入向量
Figure BDA0002601238900000112
输出条件概率
Figure BDA0002601238900000113
采用Softmax函数进行归一化分类,计算公式为:
Figure BDA0002601238900000114
其中,ni=(n-1)m,n-1代表前n-1个词,m表示特征向量的大小,k表示字典的大小,vi表示字典v中的第i个字,
Figure BDA0002601238900000121
表示前n-1个词的条件概率。
1.3.2构建发音字典:如“确QE”“保BO”“安AN”“全QN”等。
1.4解码后输出文本信息:其特征在于,将1.1中语言模型输出的概率、1.2中声学模型转换出的声素、1.3中字典结合解码,进行文本输出。计算公式为:
Figure BDA0002601238900000122
其中,P(X|H)为声学模型,P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;P(W)为语言模型。
1.5对新采集的学生BLS操作语音信息数据,重复步骤1.1-1.4,得到BLS操作文本语句信息。
1.6文本检查模块对文本信息数据进行文本识别判读,其特征在于,步骤:1)检测;2)规则策略设定;3)相似度对比。
1.6.1检测:根据文本检测并抽取出关键时间点序列,文本检测结果如“前方有人倒地,确保现场安全”作为序列1,“先生先生你怎么了”“女士醒一醒”“呼之不应,无呼吸”作为序列2,“喂,120”“有人晕倒”“街道小区楼栋”“需要AED”作为序列3,“无脉搏搏动”“01、02、03、04…27、28、29、30”作为序列4,“AED到达”“打开电源”“连接电极片”“除颤”“继续胸外按压”作为序列5,“脉搏恢复”“意识恢复”“可触及脉搏搏动”作为序列6。
1.6.2规则策略设定:设置文本参数库里词语的关键字权重,权重向量W={w1,w2....wn},其中
Figure BDA0002601238900000131
如“前方有人倒地,确保周围环境安全”关键词为:倒地,确保,环境,安全,则权重为(0,0,0.2,0.3,0,0.1,0.3)。
1.6.3相似度对比:计算已设定的关键字权重与新采集的文本之间的余弦相似度,计算公式为:
Figure BDA0002601238900000132
其中,xi代表句子A中每个词出现次数*权重,yi代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时,两个文本相近。
1.7对新转化的学生BLS操作语音文本数据,重复步骤1.1-1.6,得到BLS操作语音识别判读结果。
2、如图2所示:提取视频信息数据中的图像信息数据进行动作识别判读,包括步骤:1)视频帧序列提取;2)构建骨架序列拓朴图信息;3)建立并训练ST-GCN模型;4)动作分类。
2.1视频帧序列提取:根据音频识别结果,结合关键词匹配的时间点序列提取指定时间点的视频帧。
2.2构建骨架序列拓朴图信息:以关节为图节点,以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图(时空图),计算公式为:
G=(V,E)
V代表节点集,V={vti|t=1,…,T,i=1,...,N},表示第t帧的第i个节点的特征向量F(vti);E代表边的集合,有两个子集组成,第一个子集是每一帧帧内骨骼点的链接Es={vtivtj|(i,j)∈H},H表示人体骨骼点集合。第二个子集表示不同帧间的链接,Ef={vtiv(t+1)i}。
2.3、建立并训练ST-GCN模型,包括输入层,初始化层,三层卷积层,池化层,全链接层,输出层。其中,每层卷积层包括一个ATT单元,一个GCN单元,一个TCN单元。
卷积层的输入与输出公式:
Figure BDA0002601238900000141
其中,fin代表输入通道数为c的特征图,卷积核大小K*K;B(vti)代表采样函数,lti(vtj)代表单帧标签图,w(lti(vtj))代表权重方程,Zti(vtj)代表归一化项。将空间域的模型扩展到时间域中,采样函数更换为
Figure BDA0002601238900000142
Γ控制时间域的卷积核大小,权重方程中lti(vtj)更换为
Figure BDA0002601238900000143
2.4、输出动作分类:采用softmax进行动作分类操作,得到预测动作类别的概率值。
2.5、对新采集的学生BLS操作图像信息数据,重复步骤2.1-2.4,得到BLS操作动作识别判读结果。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.基于视频判读技术的自助化基础生命支持考核系统,其特征在于,包括:
数据采集模块,所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频;
智能判读模块,所述智能判读模块包括语音识别模块和动作识别模块,所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读,所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读;
自助化考核中央控制单元,所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。
2.根据权利要求1所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,所述语音识别模块对语音的识别采用以下步骤:
a.1、提取音频数据;
a.2、建立LSTM语言模型;
a.3、建立LSTM+CPC声学模型;
a.4、构建字典;
a.5、解码后输出文本信息;
a.6、文本检查模块对文本信息数据进行文本识别判读。
3.根据权利要求2所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,在步骤a.2中,包括以下子步骤:
a.2.1、构建文本数据库,将将BLS考核内容可能涉及到的文本数据进行标注、分词;
a.2.2、建立并训练LSTM语言模型,所述LSTM模型由一个嵌入层,一个隐藏层和一个密集层组成,将文本数据库中的句子概率拆解成每个词的概率积;
其中,隐藏层由多个细胞单元构成,每个细胞单元包括输入节点(gt)、输入门(it)、内部状态节点(st)、忘记门(ft)、输出门(ot),最终输出值的计算公式分别为:
Figure FDA0002601238890000021
it=σ(wixxt+wihht-1+bi)
ft=σ(wfxxt+wfhht-1+bf)
st=(gt·it+st-1·ft)
ot=σ(woxxt+wohht-1+bo)
ht=st·ot
上述公式中:xt代表当前时刻网络的输入值,ht-1代表上一时刻的输出值,w代表权重矩阵,wgx表示输入节点g输入值x的权重,bg,bi,bt,bo表示输入节点的偏置项,
Figure FDA0002601238890000022
表示用tanh函数,σ()表示用sigmoid函数;
其中,密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率,即:
P(w1,…,wn)=P(w1)*P(w2|w1)*…*P(wn|wn-1,…,w1);
上述公式中:P()表示联合概率函数,wn表示句子中的第n个词,P(w2|w1)表示句子中在出现词w1的条件下,出现词w2的概率,P(wn|wn-1,…,w1)表示出现句子中存在词wn-1....w1条件下,出现wn的概率。
4.根据权利要求3所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,步骤a.3包括以下子步骤:
a.3.1、声学特征提取,对BLS视频信息数据中的语音进行分帧;分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取;
a.3.2、建立LSTM+CTC声学模型,将提取到的声学特征转换成音素或字词;所述LSTM+CTC声学模型包括LSTM双向网络、CTC损失函数;
所述LSTM双向网络模型用于将语音数据转换成音素,LSTM双向网络模型包括输入层,前进层(ht),后退层(h′t),输出层(ot),所述前进层(ht),后退层(h′t),输出层(ot)的表达式分别为:
ht=f(w1xt+w2ht-1)
h't=f(w3xt+w5ht-1)
ot=g(w4ht+w6h't)
其中,w1,w2…w6代表LSTM双向网络中的6个共享权值;
所述CTC损失函数用于对音素进行最大相似度训练,直接输出序列预测概率,CTC损失函数为:
Figure FDA0002601238890000031
其中,S={(x1,z1),(x2,z2),...(xN,zN)},表示有N个训练样本,x是输入样本,输入样本为提取的声学特征,z是对应的真实输出标签,对于其中一个样本(x,z),x=(x1,x2,x3,...,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xi∈Rm,xi是第i帧的数据经过LPC计算后得到的结果;z=(z1,z2,z3,...zU)表示这段样本语音对应正确的音素,Nw:(Rm)T→(Rn)T代表LSTM模型中x的变换。
5.根据权利要求2所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,
步骤a.4包括以下子步骤:
a.4.1、构建语言模型字典:为每个词赋予唯一的索引,输入向量
Figure FDA0002601238890000041
输出条件概率:
Figure FDA0002601238890000042
采用Softmax函数进行归一化分类,计算公式为:
Figure FDA0002601238890000043
其中,ni=(n-1)m,n-1代表前n-1个词,m表示特征向量的大小,k表示字典的大小,vi表示字典v中的第i个字,
Figure FDA0002601238890000044
表示前n-1个词的条件概率;
a.4.2、构建发音字典;
步骤a.5包括:将步骤a.2中语言模型输出的概率、步骤a.3中声学模型转换出的声素、步骤a.4中字典结合解码,进行文本输出,计算公式为:
Figure FDA0002601238890000045
其中,P(X|H)为声学模型,P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;P(W)为语言模型;
对新采集的受训者的BLS操作语音信息数据,重复步骤a.2-a.5,得到BLS操作文本语句信息;
步骤a.6包括根据文本检测并抽取出关键时间点序列,并与字典进行相似度对比,
所述文本检查模块对文本信息数据进行文本识别判读的规则策略设定如下:
设置文本参数库里词语的关键字权重,权重向量W={w1,w2....wn};
所述相似度对比为:计算已设定的关键字权重与新采集的文本之间的余弦相似度,计算公式为:
Figure FDA0002601238890000051
xi代表句子A中每个词出现次数*权重,yi代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时,两个文本相近;
对新转化的受训者的BLS操作语音文本数据,重复步骤5.2-5.6,得到BLS操作语音识别判读结果。
6.根据权利要求1-5任一项所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,所述动作识别模块对动作的识别包括以下步骤:
b.1、视频帧序列提取,根据音频识别结果,结合关键词匹配的时间点序列提取指定时间点的视频帧;
b.2、构建骨架序列拓朴图信息;
b.3、建立并训练ST-GCN模型;
b.4、动作分类。
7.根据权利要求6所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,步骤b.2中,所述构建骨架序列拓朴图信息以关节为图节点,以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图,其表达式为:
G=(V,E)
式中:V代表节点集,V={vti|t=1,…,T,i=1,...,N},表示第t帧的第i个节点的特征向量F(vti);E代表边的集合,有两个子集组成,第一个子集是每一帧帧内骨骼点的链接Es={vtivtj|(i,j)∈H},H表示人体骨骼点集合,第二个子集表示不同帧间的链接,Ef={vtiv(t+1)i}。
8.根据权利要求7所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,所述ST-GCN模型包括输入层、初始化层、三层卷积层、池化层、全链接层、输出层,其中,每层卷积层包括一个ATT单元,一个GCN单元,一个TCN单元;卷积层的输入与输出公式如下:
Figure FDA0002601238890000061
其中,fin代表输入通道数为c的特征图,卷积核大小K*K;B(vti)代表采样函数,lti(vtj)代表单帧标签图,w(lti(vtj))代表权重方程,Zti(vtj)代表归一化项。将空间域的模型扩展到时间域中,采样函数更换为
Figure FDA0002601238890000062
Γ控制时间域的卷积核大小,权重方程中lti(vtj)更换为
Figure FDA0002601238890000063
9.根据权利要求8所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,所述动作分类采用softmax进行动作分类操作,得到预测动作类别的概率值。
10.根据权利要求1所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,还包括数据管理模块,所述数据管理模块包括注册登录模块,视频记录模块,成绩展示模块。
CN202010724686.4A 2020-07-24 2020-07-24 基于视频判读技术的自助化基础生命支持考核系统 Active CN111768758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724686.4A CN111768758B (zh) 2020-07-24 2020-07-24 基于视频判读技术的自助化基础生命支持考核系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724686.4A CN111768758B (zh) 2020-07-24 2020-07-24 基于视频判读技术的自助化基础生命支持考核系统

Publications (2)

Publication Number Publication Date
CN111768758A true CN111768758A (zh) 2020-10-13
CN111768758B CN111768758B (zh) 2023-04-07

Family

ID=72727232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724686.4A Active CN111768758B (zh) 2020-07-24 2020-07-24 基于视频判读技术的自助化基础生命支持考核系统

Country Status (1)

Country Link
CN (1) CN111768758B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785254A (zh) * 2020-07-24 2020-10-16 四川大学华西医院 基于模拟人的自助化bls培训与考核系统
CN114216682A (zh) * 2021-12-03 2022-03-22 南京航空航天大学 一种基于tcn和bls的滚动轴承的寿命预测方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4360345A (en) * 1980-07-14 1982-11-23 American Heart Association, Inc. Health education system
AU1769992A (en) * 1991-05-22 1992-12-30 Ronald Gerry Dawson Sports training device
KR20090114608A (ko) * 2008-04-30 2009-11-04 김상철 심폐소생술 보조리듬장치
CN103106830A (zh) * 2013-02-06 2013-05-15 中国人民解放军第四军医大学 数字化急救技能模拟训练系统及方法
JP2016146870A (ja) * 2015-02-10 2016-08-18 シャープ株式会社 救命支援装置
CN109005202A (zh) * 2017-06-06 2018-12-14 北京医模科技股份有限公司 基于云平台的心肺复苏模拟、交互方法及系统
CN110037733A (zh) * 2019-04-01 2019-07-23 四川大学华西医院 一种便携式程控无线体音监测系统
CN110599844A (zh) * 2019-09-19 2019-12-20 南昌佰米哥物联科技有限公司 一种可以收集培训数据的自助化心肺复苏培训考核系统
CN111179718A (zh) * 2020-02-20 2020-05-19 苏州尚领医疗科技有限公司 一种心肺复苏培训仿真交互型模拟方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4360345A (en) * 1980-07-14 1982-11-23 American Heart Association, Inc. Health education system
AU1769992A (en) * 1991-05-22 1992-12-30 Ronald Gerry Dawson Sports training device
KR20090114608A (ko) * 2008-04-30 2009-11-04 김상철 심폐소생술 보조리듬장치
CN103106830A (zh) * 2013-02-06 2013-05-15 中国人民解放军第四军医大学 数字化急救技能模拟训练系统及方法
JP2016146870A (ja) * 2015-02-10 2016-08-18 シャープ株式会社 救命支援装置
CN109005202A (zh) * 2017-06-06 2018-12-14 北京医模科技股份有限公司 基于云平台的心肺复苏模拟、交互方法及系统
CN110037733A (zh) * 2019-04-01 2019-07-23 四川大学华西医院 一种便携式程控无线体音监测系统
CN110599844A (zh) * 2019-09-19 2019-12-20 南昌佰米哥物联科技有限公司 一种可以收集培训数据的自助化心肺复苏培训考核系统
CN111179718A (zh) * 2020-02-20 2020-05-19 苏州尚领医疗科技有限公司 一种心肺复苏培训仿真交互型模拟方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PETERISERBYT,ET AL: "Learning basic life support (BLS) with tablet PCs in reciprocal learning at school: Are videos superior to pictures? A randomized controlled trial", 《RESUSCITATION》 *
黄德贵: "全科医师数字模拟考核系统的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785254A (zh) * 2020-07-24 2020-10-16 四川大学华西医院 基于模拟人的自助化bls培训与考核系统
CN111785254B (zh) * 2020-07-24 2023-04-07 四川大学华西医院 基于模拟人的自助化bls培训与考核系统
CN114216682A (zh) * 2021-12-03 2022-03-22 南京航空航天大学 一种基于tcn和bls的滚动轴承的寿命预测方法及装置

Also Published As

Publication number Publication date
CN111768758B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
CN108921284B (zh) 基于深度学习的人际交互肢体语言自动生成方法及系统
CN111048167B (zh) 一种层级式病例结构化方法及系统
CN114064931A (zh) 一种基于多模态知识图谱的急救知识问答方法及系统
CN111768758B (zh) 基于视频判读技术的自助化基础生命支持考核系统
CN111785254B (zh) 基于模拟人的自助化bls培训与考核系统
CN109545299A (zh) 基于人工智能的脑血管疾病风险快速识别辅助提示系统及方法
Villatoro-Tello et al. Late Fusion of the Available Lexicon and Raw Waveform-Based Acoustic Modeling for Depression and Dementia Recognition.
Zhang et al. Intelligent speech technologies for transcription, disease diagnosis, and medical equipment interactive control in smart hospitals: A review
CN113934824A (zh) 一种基于多轮智能问答的相似病历匹配系统及方法
CN116092497A (zh) 一种基于知识图谱和人工智能的语义云脑机器人
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
CN110956142A (zh) 一种智能交互培训系统
Herasymova et al. Development of Intelligent Information Technology of Computer Processing of Pedagogical Tests Open Tasks Based on Machine Learning Approach.
Shi et al. Construction of english pronunciation judgment and detection model based on deep learning neural networks data stream fusion
CN116434786A (zh) 融合文本语义辅助的教师语音情感识别方法
Moummad et al. Learning audio features with metadata and contrastive learning
CN116011559A (zh) 基于伪单词序列生成的病例分类的零样本蒸馏系统及方法
Coro et al. Automatic detection of potentially ineffective verbal communication for training through simulation in neonatology
Macbeth et al. Crowdsourcing a parallel corpus for conceptual analysis of natural language
Gromang et al. The development of video analysis instrument to determine teacher's character
Zhang et al. CSFQGD: Chinese Sentence Fill-in-the-blank Question Generation Dataset for Examination
CN112380231A (zh) 一种具有抑郁障碍特征的训练用机器人系统和方法
Singh et al. Analyzing machine learning algorithms for speech impairment related issues
Zhang et al. Heallo: Conversational system for communication training in healthcare professional education

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant