CN114926772B - 一种咽拭子头部的跟踪与轨迹预测方法 - Google Patents

一种咽拭子头部的跟踪与轨迹预测方法 Download PDF

Info

Publication number
CN114926772B
CN114926772B CN202210826149.XA CN202210826149A CN114926772B CN 114926772 B CN114926772 B CN 114926772B CN 202210826149 A CN202210826149 A CN 202210826149A CN 114926772 B CN114926772 B CN 114926772B
Authority
CN
China
Prior art keywords
anchor point
swab
prediction
tracking
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210826149.XA
Other languages
English (en)
Other versions
CN114926772A (zh
Inventor
蔡磊
李岳峻
张炳远
徐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Institute of Science and Technology
Original Assignee
Henan Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Institute of Science and Technology filed Critical Henan Institute of Science and Technology
Priority to CN202210826149.XA priority Critical patent/CN114926772B/zh
Publication of CN114926772A publication Critical patent/CN114926772A/zh
Application granted granted Critical
Publication of CN114926772B publication Critical patent/CN114926772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/60Static or dynamic means for assisting the user to position a body part for biometric acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种咽拭子头部的跟踪与轨迹预测方法,包括以下步骤:实时采集被采样人员进行咽拭子采样过程中口腔内的视频数据,并将该视频数据在显示器上实时显示;通过目标识别算法得到咽拭子棉签头部的位置框,将所述位置框的中心点作为咽拭子棉签头部的识别锚点;根据识别锚点估计预测锚点并作为跟踪锚点在视频中显示,再将跟踪锚点输入轨迹预测模型后输出轨迹线,并将轨迹线在显示器上实时显示和更新。通过实时跟踪采样过程中咽拭子棉签头部及预测咽拭子棉签头部的轨迹,并将跟踪标识点和预测轨迹加载至被采样人员的口腔视频数据中形成示教视频,被采用人员通过示教视频的辅助可快速有效的对自己进行咽拭子采样。

Description

一种咽拭子头部的跟踪与轨迹预测方法
技术领域
本发明涉及咽拭子采样技术,具体涉及一种咽拭子头部的跟踪与轨迹预测方法。
背景技术
在咽拭子采样过程中,咽拭子棉签采集细菌培养能分离出致病菌,是诊断新冠病毒感染最主要采样方法。目前,无论是通过机械臂进行咽拭子采样还是人工进行咽拭子采样,在被采样人员的口腔内均会形成采样轨迹,而正确的采样轨迹会提高咽拭子采样的效率。
CN112932546A-一种基于视觉分析的咽拭子采样方法,描述了一种通过机械臂在患者口腔内部进行采样的方法,文件中提到“在步骤4.2中,判断实时获取的各个坐标与预设的目标坐标的差异度;在步骤4.3中,基于差异度的结果,调整预设的采样路径,以得到实时的采样路径。”根据描述可知:(1)摄像头安装在机械臂上,随机械臂移动,而其识别的目标为口腔内部采样位置,视觉识别的目标是静止的;(2)咽拭子与机械臂是一个整体,采样轨迹是机械臂的路径规划问题;(3)因此在摄像头移动过程中需要实时确定口腔可采样部位的坐标位置,所述差异度为口腔可采样部位的坐标位置差异;(4)以采样位置为目标点,根据是实时识别的位置差异,实时调整预设的采样路径,即机械臂的运动路径。其采样路径通过预设形成,根据预设的采样路径进行采样的话,则对采样过程具有一定的限制,特别是自助式咽拭子采样过程中被采样人员很难准确地按预设的采样路径进行咽拭子采样。
发明内容
针对现有技术中的问题,本发明提供一种咽拭子头部的跟踪与轨迹预测方法,目的在于在被采样人员自助式咽拭子采样过程中,可为被采样人员提供示教视频,在示教视频中实时跟踪显示咽拭子棉签头部的位置及实时规划咽拭子棉签头部的轨迹线,以提示被采样人员按实时更新的轨迹线进行咽拭子采样,咽拭子棉签头部需按所示的轨迹线在口腔内移动,以便于被采样人员能快速有效地对自己进行咽拭子采样。
一种咽拭子头部的跟踪与轨迹预测方法,包括以下步骤:
步骤1:实时采集被采样人员进行咽拭子采样过程中口腔内的视频数据,并将该视频数据在显示器上实时显示;
步骤2:截取所述视频数据存在有咽拭子棉签头部的第t-1视频帧和第t视频帧,通过目标识别算法对所述第t-1视频帧和第t视频帧中咽拭子棉签头部进行目标检测并得到咽拭子棉签头部的位置框,将所述位置框的中心点作为咽拭子棉签头部的识别锚点;获取第t-1视频帧中的识别锚点并作为第t-1识别锚点,获取第t视频帧中的识别锚点并作为第t识别锚点,所述t的初始值为2;
步骤3:根据所述第t-1识别锚点的均值通过状态转移矩阵估计第t预测锚点的均值,并计算出所述第t识别锚点和第t预测锚点的均值误差,并通过所述均值误差更新所述第t预测锚点的协方差;
步骤4:当所述协方差小于设定阈值时,则计算所述第t预测锚点的均值向量并将该均值向量的坐标数据作为第t跟踪锚点的位置坐标,并在显示屏上通过标识点显示该位置坐标且执行步骤5;否则执行步骤3;
步骤5:令t=t+1,并同时执行步骤2和步骤6;
步骤6:将t-1跟踪锚点至t+1跟踪锚点的位置坐标进行归一化处理并输入以长短期记忆网络LSTM为主干构建的轨迹预测模型中并输出轨迹点;
步骤7:将所述轨迹点进行并联拟合成一个完整的轨迹线,并在显示器上的所述视频数据中实时显示和更新所述轨迹线。
进一步:所述预测锚点的均值通过四维向量
Figure GDA0003851193570000028
来表征,cx,cy为锚点的坐标;vx,vy为速度变化值,初始化为零,所述预测锚点的均值
Figure GDA0003851193570000021
Figure GDA0003851193570000029
为前一帧预测锚点的均值,
Figure GDA00038511935700000210
为一个4×4的状态转移矩阵:
Figure GDA0003851193570000022
矩阵元素τ为当前帧识别锚点与前一帧识别锚点位置数据的差值;识别锚点和预测锚点的均值误差
Figure GDA0003851193570000023
Figure GDA0003851193570000024
为当前时刻视频帧中识别锚点的均值向量,
Figure GDA00038511935700000211
为测量矩阵,通过均值误差yt对预测锚点进行更新,进而得到更新后预测锚点的均值向量
Figure GDA0003851193570000025
R为咽拭子目标检测的噪声矩阵,更新后预测锚点的协方差
Figure GDA0003851193570000026
Pt-1为前一时刻视频帧中预测锚点的协方差,HT为测量矩阵的转置矩阵。
进一步:所述归一化处理的公式为:
Figure GDA0003851193570000027
公式中xi为视频帧轨迹点的坐标值,μ为t-1跟踪锚点至t+1跟踪锚点位置坐标的平均值;β为t-1跟踪锚点至t+1跟踪锚点位置坐标的标准差。通过归一化处理,消除了数据集中咽拭子轨迹点异常大或异常小的值,便于各轨迹点之间比较和加权,避免轨迹线的梯度消失和梯度爆炸现象。
进一步:所述轨迹预测模型包括两层LSTM网络、输入层、输出层、全连接层和卷积层,输入层经所述两层LSTM网络后再经全连接层与输出层连接,在所述卷积层的输入端与所述输入层和LSTM网络的公共端相连接,所述卷积层的输出端与所述全连接层的输入端连接。
进一步为:所述轨迹预测模型的输入为轨迹点向量xt,所述轨迹预测模型的输出为预测轨迹点向量Ht,所述轨迹预测模型的计算公式为:
Figure GDA0003851193570000031
其中,
Figure GDA0003851193570000032
为LSTM模块的计算函数,λ为卷积层的权重,WC为Conv卷积层的网络参数,C为误差值并通过网络训练获得;
每层所述LSTM网络均包括若干个LSTM模块,所述LSTM模块包括三个输入和两个输出,所述三个输入分别为前一时刻输出Ht-1、前一时刻状态信息Bt-1和当前时刻轨迹点向量Xt,所述两个输出分别为当前时刻输出Ht和当前时刻状态信息Bt,Ht则作为Ht-1输入同层中LSTM模块和作为下一层中LSTM模块的输入Xt,函数
Figure GDA00038511935700000312
计算公式如下:
Figure GDA0003851193570000033
Figure GDA0003851193570000034
其中,
Figure GDA00038511935700000314
为Hadamard乘积,tanh为激活函数,*表示卷积计算,
Figure GDA00038511935700000313
为t时刻经过衰减及记忆增强保留的特征;
ft、it和ot分别LSTM模块t时刻遗忘门的输出、输入门的输出和输出门的输出,计算公式如下:
Figure GDA0003851193570000035
Figure GDA0003851193570000036
Figure GDA0003851193570000037
Figure GDA0003851193570000038
其中,Wxc和Uhc分别为记忆增强保留特征的网络参数,σ为Sigmoid激活函数,Wxf、Uhf、Wxi、Uhi
Figure GDA0003851193570000039
分别为遗忘门的模型参数、输入门的模型参数和输出门的模型参数,Wcf、Wci
Figure GDA00038511935700000310
分别为记忆增强保留特征的融合权重参数,tanh为激活函数。
进一步为:轨迹预测模型训练的损失函数为
Figure GDA00038511935700000311
Pi为第i个轨迹点特征的预测值,Ri为第i个轨迹点特征实际值。
本发明的有益效果:通过实时跟踪采样过程中咽拭子棉签头部及实时预测咽拭子棉签头部的轨迹,并将跟踪标识点和预测轨迹加载至被采样人员的口腔视频数据中形成示教视频,被采用人员通过示教视频的辅助可快速有效的对自己进行咽拭子采样。
附图说明
图1为本发明的流程图;
图2为本发明中轨迹预测模型的结构图。
具体实施方式
下面结合附图对本发明做详细说明。下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本发明实例中的左、中、右、上、下等方位用语,仅是互为相对概念或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。
一种自助式咽拭子采样方法,包括以下步骤:
步骤1:通过扫描器获取被采样人员的身份信息,该身份信息可以为手机扫描登记信息网站进行登记而生成的咽拭子采样预约二维码,扫描器对二维码信息进行提取并发送至控制器,控制器接收到被采样人员的二维码信息后并保存,且将该被检测人员的身份信息与咽拭子棉签收集装置中当前试管的信息进行标记,开始执行采样咽拭子程序;
步骤2:控制器通过咽拭子棉签供应装置为被采样人员供应咽拭子棉签,并提醒用户拿取咽拭子棉签后将口腔对准摄像机;
步骤3:通过摄像机实时采集被采样人员的口腔视频数据并通过显示器显示;
步骤4:识别出所述口腔视频数据中用于咽拭子采样的器官特征,在显示器的画面内示意关于所述器官特征的咽拭子采样靶点和咽拭子采样轨迹,被采样人员通过显示器清楚的看见自己口腔,根据所示的咽拭子采样靶点和咽拭子采样轨迹,清楚地了解该怎么样对自己进行咽拭子采样;
步骤5:当被采样人员根据所述咽拭子采样靶点和咽拭子采样轨迹自行进行咽拭子采样时,通过所述口腔视频数据识别和跟踪咽拭子棉签的头部,当所述头部和所述咽拭子采样靶点在口腔内的深度在设定阈值范围内,同时所述头部和咽拭子采样轨迹重合,则判定咽拭子棉签在咽拭子采样靶点上擦拭成功并进行下一步骤,否则重复步骤5;
步骤6:通过咽拭子棉签收集装置收集被采用人员的咽拭子棉签,将咽拭子棉签的头部收集至与被采用人员身份信息相统一的试管中,单采时,一位被采样人员采样结束后,通过咽拭子棉签收集装置为下一位被采样人员供应新的试管;混采时,多位被采样人员采样结束后,通过咽拭子棉签收集装置为下一位被采样人员供应新的试管。
一种咽拭子采样有效性检测方法,包括以下步骤:
步骤1:通过摄像机实时采集被采样人员的口腔视频数据;
步骤2:识别出所述口腔视频数据中用于咽拭子采样的器官特征,并作为咽拭子采样靶点;
步骤3:令被采样人员自行进行咽拭子采样,在所述口腔视频数据中识别和跟踪咽拭子棉签的头部;
步骤4:当所述头部和所述咽拭子采样靶点在口腔内的深度在设定阈值范围内,同时所述头部和咽拭子采样轨迹重合,则判定咽拭子棉签在咽拭子采样靶点上擦拭成功,则认为咽拭子采样成功,否则执行步骤3。
其中,所述器官特征包括悬雍垂外形特征、左扁桃体外形特征和右扁桃体外形特征,将所述器官特征作为咽拭子采样靶点目标,通过目标识别算法构建咽拭子采样靶点目标识别网络,初始化咽拭子采样靶点目标识别网络的参数,输入咽拭子采样靶点目标的数据集并对所述咽拭子采样靶点目标识别网络进行参数训练;所述控制器通过所述咽拭子采样靶点目标识别网络识别所述器官特征,咽拭子采样靶点目标为视频数据中的器官特征。通过所述咽拭子采样靶点目标识别网络识别所述口腔视频数据中咽拭子采样靶点目标,并在所述显示器的画面内生产覆盖所述器官特征的目标框,目标框为便于识别的红色或者是黄色,将所述目标框的中心点作为咽拭子采样靶点,咽拭子采样靶点的颜色为与目标框相同的颜色,并将通过所述咽拭子采样靶点的轨迹作为所述咽拭子采样轨迹,咽拭子采样轨迹的颜色可以为与目标框颜色相同的颜色或者为与目标框不同的颜色,且咽拭子采样轨迹可以为带方向箭头的曲线。
判定所述头部和所述咽拭子采样靶点在口腔内的深度在设定阈值范围内的过程为,通过最大外接矩阵计算得到所述口腔视频数据中所述头部的最大外接轮廓框,通过最小外接矩形函数计算得到所述最大外接轮廓框内所述头部的最小外接矩形的宽度,并将该宽度记为P,所述摄像机距离所述头部的距离为D,D=(W×F)/P;通过最大外接矩阵计算得到所述口腔视频数据中所述咽拭子采样靶点的最大外接轮廓框,通过最小外接矩形函数计算得到所述最大外接轮廓框内所述咽拭子采样靶点的最小外接矩形的宽度,并将该宽度记为P′,所述摄像机距离所述咽拭子采样靶点的距离为D′,D′=(W′×F)/P′;其中,F为所述摄像机的焦距,W为所述头部的实际宽度,W′为所述咽拭子采样靶点的实际宽度;当D和D′之间的差值在设定范围内,则判定头部与咽拭子采样靶点接触。采集医护人员进行咽拭子采样时的P值并组成数据集,计算并保存该数据集的平均值A,当被采样人员进行咽拭子采样时的P值小于该平均值A时,认为该P值有效并用于所述D值的计算,否则重新计算P值。所述D′为悬雍垂外形特征、左扁桃体外形特征和右扁桃体外形特征三者与所述摄像机的距离的平均值。
为便于提取咽拭子的轮廓信息,可将彩色图像处理为仅有两个值的二值图像,所以在计算所述最大外接轮廓框之前,先将所述口腔视频数据进行阈值处理并得到二值图像。
在咽拭子棉签伸入口腔后会遮挡住某个器官特征,为避免影响对该咽器官特征对应的拭子采样靶点深度的判断,结合所述器官特征之间的相对位置关系构建器官特征之间的空间语义关系,通过所述空间语义关系计算得到被遮挡的所述器官特征,从而计算出该器官特征对应的拭子采样靶点深度,从而使系统可以正常判断咽拭子棉签是否成功擦拭该器官特征。
另外,为便于被采样人员能快速进行咽拭子采样,在所述摄像机的下侧固定安装有激光测距仪,通过该激光测距仪测得人脸嘴唇下部到所述摄像机的距离M,根据实验人员采样时的舒适性和所述口腔视频数据的清晰度通过实验得到距离M的标准区间,并在被采样人员采样时指导被采样人员移动至所述标准区间内。
与现有技术相比,通过在显示器的画面内示意关于所述器官特征的咽拭子采样靶点和咽拭子采样轨迹,以此对被采样人员进行示教,被采样人员可以根据示教内容对自己进行咽拭子采样,直观易学习且易操作,采样效率高,不用医护人员值守;通过对咽拭子棉签的头部的识别和跟踪,判断咽拭子棉签的头部是否成功的擦拭用于咽拭子采样的器官特征,从而实现被采样人员的自助式咽拭子采样,避免使用价格昂贵的机械手,从而大幅降低制造成本,便于推广。另外,被采样人员自行采样时可有效避免对口腔造成损伤,咽拭子采样本身不是很复杂的采样过程,所以具备一定动手能力的人员通过显示器的示教内容进行学习后可快速掌握。本发明可主要应用于青年和中年人群,其它人群可在医护或第三方人员陪同的情况下使用,从而可大幅缓解咽拭子采样人员需求压力,同时降低咽拭子采样的成本;所以,本发明主要应用于医院、高年级的学校和工业集聚区的企事业单位。
在一种自助式咽拭子采样方法及咽拭子采样有效性检测方法中,均需要对咽拭子棉签的头部进行跟踪和预测出咽拭子采样轨迹,从而对咽拭子采样进行有效性检测,一种咽拭子头部的跟踪与轨迹预测方法,如图1所示,包括以下步骤:
步骤1:实时采集被采样人员进行咽拭子采样过程中口腔内的视频数据,并将该视频数据在显示器上实时显示;
步骤2:截取所述视频数据存在有咽拭子棉签头部的第t-1视频帧和第t视频帧,通过目标识别算法对所述第t-1视频帧和第t视频帧中咽拭子棉签头部进行目标检测并得到咽拭子棉签头部的位置框,将所述位置框的中心点作为咽拭子棉签头部的识别锚点;获取第t-1视频帧中的识别锚点并作为第t-1识别锚点,获取第t视频帧中的识别锚点并作为第t识别锚点,所述t的初始值为2;直接通过位置框的中心点作为所述识别锚点,减少计算量且方便后续轨迹点的跟踪和预测;
步骤3:根据所述第t-1识别锚点的均值通过状态转移矩阵估计第t预测锚点的均值,并计算出所述第t识别锚点和第t预测锚点的均值误差,并通过所述均值误差更新所述第t预测锚点的协方差;
步骤4:当所述协方差小于设定阈值时,则计算所述第t预测锚点的均值向量并将该均值向量的坐标数据作为第t跟踪锚点的位置坐标,并在显示屏上通过标识点显示该位置坐标且执行步骤5;否则执行步骤3;
步骤5:令t=t+1,并同时执行步骤2和步骤6;
步骤6:将t-1跟踪锚点至t+1跟踪锚点的位置坐标进行归一化处理并输入以长短期记忆网络LSTM为主干构建的轨迹预测模型中并输出轨迹点;
步骤7:将所述轨迹点进行并联拟合成一个完整的轨迹线,并在显示器上的所述视频数据中实时显示和更新所述轨迹线。
其中,所述预测锚点的均值通过四维向量
Figure GDA00038511935700000710
来表征,cx,cy为锚点的坐标;vx,vy为速度变化值,初始化为零,所述预测锚点的均值
Figure GDA0003851193570000071
Figure GDA00038511935700000711
为前一帧预测锚点的均值,
Figure GDA00038511935700000712
为一个4×4的状态转移矩阵:
Figure GDA0003851193570000072
矩阵元素τ为当前帧识别锚点与前一帧识别锚点位置数据的差值;识别锚点和预测锚点的均值误差
Figure GDA0003851193570000073
Figure GDA0003851193570000074
为当前时刻视频帧中识别锚点的均值向量,
Figure GDA00038511935700000713
为测量矩阵且其作用是将四维的预测锚点均值向量
Figure GDA00038511935700000714
映射到与识别锚点同维度(二维)进行比较计算,
Figure GDA00038511935700000715
为测量矩阵
Figure GDA0003851193570000075
通过均值误差yt对预测锚点进行更新,进而得到更新后预测锚点的均值向量
Figure GDA0003851193570000076
R为咽拭子目标检测的噪声矩阵
Figure GDA0003851193570000077
更新后预测锚点的协方差
Figure GDA0003851193570000078
Pt-1为前一时刻视频帧中预测锚点的协方差,HT为测量矩阵的转置矩阵。
通过检测锚点和预测锚点的差值实现咽拭子目标的跟踪,考虑到视频数据目标检测过程中不可避免的预测锚点与检测锚点相对与咽拭子真实位置的误差问题,为了得到准确的跟踪位置数据,通过计算预测锚点与检测锚点差值的方式,利用数据训练得到最优的差值范围,使得到的跟踪锚点位置相对于咽拭子真实位置的误差最小。
所述归一化处理的公式为:
Figure GDA0003851193570000079
公式中xi为视频帧轨迹点的坐标值,μ为t-1跟踪锚点至t+1跟踪锚点位置坐标的平均值;β为t-1跟踪锚点至t+1跟踪锚点位置坐标的标准差。通过归一化处理,消除了数据集中咽拭子轨迹点异常大或异常小的值,便于各轨迹点之间比较和加权,避免轨迹线的梯度消失和梯度爆炸现象。
如图2所示,所述轨迹预测模型包括两层LSTM网络、输入层、输出层、全连接层和卷积层,输入层经所述两层LSTM网络后再经全连接层与输出层连接,在所述卷积层的输入端与所述输入层和LSTM网络的公共端相连接,所述卷积层的输出端与所述全连接层的输入端连接。
其中,轨迹预测模型的输入为轨迹点向量xt,输出为预测轨迹点向量Ht,整个轨迹预测模型计算公式:
Figure GDA0003851193570000081
公式中
Figure GDA00038511935700000810
为LSTM模块的计算函数;λ为卷积层的权重,WC为Conv卷积层的网络参数,C为误差值并通过网络训练获得。每层所述LSTM网络均包括若干个LSTM模块,所述LSTM模块包括分别有三个输入和两个输出。其中三个输入为前一时刻模块输出Ht-1、前一时刻状态信息Bt-1和当前时刻轨迹点向量Xt,两个输出分别为当前时刻输出Ht和当前时刻状态信息Bt。Ht则作为Ht-1输入同层LSTM模块和作为下一层LSTM模块的输入Xt。函数
Figure GDA00038511935700000811
计算公式如下:
Figure GDA0003851193570000082
Figure GDA0003851193570000083
公式中,
Figure GDA00038511935700000814
为Hadamard乘积;tanh为激活函数;*表示卷积计算;
Figure GDA00038511935700000812
为t时刻经过衰减及记忆增强保留的特征;ft、it和ot分别LSTM模块t时刻遗忘门的输出、输入门的输出和输出门的输出,计算公式如下:
Figure GDA0003851193570000084
Figure GDA0003851193570000085
Figure GDA0003851193570000086
Figure GDA0003851193570000087
公式中Wxc和Uhc分别为记忆增强保留特征的网络参数;σ为Sigmoid激活函数;Wxf、Uhf、Wxi、Uhi
Figure GDA0003851193570000088
分别为遗忘门的模型参数、输入门的模型参数和输出门的模型参数,Wcf、Wci
Figure GDA0003851193570000089
分别为记忆增强保留特征的融合权重参数且均通过网络训练得到,tanh为激活函数。
在轨迹预测模型的训练之前,需要将训练集切分为相同步长的多个数组,
Figure GDA00038511935700000813
表示输入数据的第一个数组中的第一条记录,s为步长即时间序列窗口大小;在训练过程中,轨迹点数据从输入层输入,输出层输出预测轨迹。在输入层之后相连的为第一层LSTM网络,在水平方向传播前一个LSTM单元学习的特征,使得网络可以考虑先前单元学习到的特征;使用第二个LSTM网络层堆叠在其后,其结构与上一层网络类似,以挖掘数据中更多的隐含信息;最后使用一个全连接层连接第二个LSTM层,其作为输出层,输出最终结果;
轨迹预测模型训练的损失函数为
Figure GDA0003851193570000091
Pi为第i个轨迹点特征的预测值,Ri为第i个轨迹点特征实际值。使用水平误差和时间误差评估模型,水平误差为预测轨迹点C和真实轨迹点T在二维平面下的欧式距离:
Figure GDA0003851193570000092
时间误差是指两条航迹中对应轨迹点的时间差值;
et=|tC-tT|
模型的训练过程,就是不断更新网络中各个权重的值,使得神经网络的输出不断接近真实值的过程。
将t-1跟踪锚点至t+1跟踪锚点的位置坐标进行归一化处理并输入训练好的轨迹预测模型中并输出轨迹点;将所述轨迹点进行并联拟合成一个完整的轨迹线。
另外,为证明轨迹预测模型和方法的有效性,使用水平误差和时间误差评估模型,水平误差为预测轨迹点C和真实轨迹点T在二维平面下的欧式距离:
Figure GDA0003851193570000093
时间误差是指两条航迹中对应轨迹点的时间差值;
et=|tC-tT|
依据上述误差评估方式构建轨迹预测模型训练的损失函数:
Figure GDA0003851193570000094
公式中Pi=[xC,yC,tC]为第i个轨迹点特征的预测值,Ri=[xT,yT,tT]为第i个轨迹点特征实际值。训练轨迹预测模型,通过最小化损失函数来实现。
通过平均位移误差(ADE)和最终位移误差(FDE)两个指标来评价训练得到的轨迹预测模型性能的好坏,即有效性。计算公式如下:
Figure GDA0003851193570000095
Figure GDA0003851193570000096
Figure GDA0003851193570000097
Figure GDA0003851193570000101
公式中,xCi、yCi为最终时间点的预测结果,xTi、yTi最终时间点的实际真实结果。使用60段自助咽拭子采样视频中提取的咽拭子棉签头部跟踪的轨迹进行测试,进项3s的轨迹预测更新,计算求得ADE值为1.28个像素距离,FDE值为1.58个像素距离。由指标值可知,轨迹预测模型预测得到的轨迹的误差在一个很小的范围,满足方法的应用要求,证明了轨迹预测模型和方法的有效性。
1、关于咽拭子棉签头部的跟踪方面:
现有基于视觉的目标跟踪检测方法通过计算目标预测的锚框和检测的锚框的大小与位置交并比IOU值,此过程需要通过锚框宽、高、顶点坐标、宽高比等特征数据来进行差值计算,获得最优跟踪锚框,计算量较大。
而咽拭子目标检测采用的是锚点,与锚框不同的,锚点仅包含目标的位置信息,即视频帧图像中的坐标(x,y)。由于在咽拭子采样咽拭子目标跟踪和预测过程中,不需要咽拭子的大小形状信息,因此在目标识别数据集准备阶段就用锚点进行标注,标注点位于咽拭子图像特征的重心位置。本专利方法计算前后视频帧中预测锚点与检测锚点的坐标位置距离,通过数据训练得到最优的距离范围,设定阈值,在阈值范围内则为有效预测锚点,即跟踪锚点。
本专利方法仅进行位置坐标的计算,在保证目的效果相同的情况下,极大地减少了视频处理过程中目标跟踪的计算量,提高方法实时性,降低设备成本,便于低成本的嵌入式主控制器设备部署。
2、关于咽拭子棉签头部的轨迹预测方面:
首先,咽拭子目标轨迹预测的目的是通过实时轨迹数据和预测模型完成对咽拭子运动轨迹的提前规划和显示。
现有类似基于视觉的车辆轨迹预测和基于视觉的人体行走轨迹预测方法,都是在固定的如公路、街道等场景下,在此场景下运动目标如车辆、行人都有一定的轨迹分布规律。在大量视频数据的训练下进行车辆和行人轨迹数据分布的计算分析,通过深度网络训练从大数据的轨迹分布数据先验来得到规定场景下的目标运动规则进行轨迹分布预测,从而预测出轨迹数据。
本专利轨迹预测方法,在算法层面,构建的深度学习的网络模型,其网络层的设计是基于预测过程对于先验轨迹数据的依赖,这里先验轨迹数据即实时的真实轨迹数据,即在t1时刻咽拭子预测网络模型的输入为一段时间(t0~t1)内的图像帧中咽拭子目标跟踪的轨迹序列数据
Figure GDA0003851193570000102
(图2中所示第一层输入数据),输出端为预测的从t1时刻周后一段时间(t1~t2)内的轨迹点位置序列,轨迹的终点位置是咽拭子采样目标区域内。深度学习的网络模型的参数训练时,通过输入采集多段完整咽拭子采样轨迹数据集,利用最小化损失,减小预测误差,得到最优网络权重参数,从而使网络模型能够直接用于实时轨迹预测。与其它基于视觉的轨迹预测方法相比,本专利构建的深度学习的网络模型,具备较小的计算复杂度和较高的实时性。
本专利轨迹预测方法与CN112932546A-一种基于视觉分析的咽拭子采样方法相比:(1)摄像头是固定的,识别的目标为咽拭子棉签头部,咽拭子棉签头部随着自助咽拭子采样人员的采样动作移动;(2)咽拭子是单独的个体,由于人员操作可有差异,其路径不像机械臂一样有可控性,是随机的;(3)以采样位置为目标点,以运动中咽拭子棉签头部的运动轨迹数据为先验数据,对咽拭子棉签头部下一时间段可能的运动轨迹进行预测。本专利采样路径通过轨迹预测模型计算得到,并通过实时数据进行轨迹的实时调整;(4)从技术层面来说,上述公开文件所述采样路径为调整运动控制的路径规划,而本专利所述的轨迹预测属于视觉轨迹数据挖掘。此外,上述公开文件未说明预设的采样路径如何得到,如何进行实时的路径调整,而本准专利明确说明采样路径通过轨迹预测模型计算得到,并通过实时数据进行轨迹的实时调整;从而便于被采样人员更有效地进行自助式咽拭子采样。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种咽拭子头部的跟踪与轨迹预测方法,其特征在于:包括以下步骤:
步骤1:实时采集被采样人员进行咽拭子采样过程中口腔内的视频数据,并将该视频数据在显示器上实时显示;
步骤2:截取所述视频数据存在有咽拭子棉签头部的第t-1视频帧和第t视频帧,通过目标识别算法对所述第t-1视频帧和第t视频帧中咽拭子棉签头部进行目标检测并得到咽拭子棉签头部的位置框,将所述位置框的中心点作为咽拭子棉签头部的识别锚点;获取第t-1视频帧中的识别锚点并作为第t-1识别锚点,获取第t视频帧中的识别锚点并作为第t识别锚点,所述t的初始值为2;
步骤3:根据所述第t-1识别锚点的均值通过状态转移矩阵估计第t预测锚点的均值,并计算出所述第t识别锚点和第t预测锚点的均值误差,并通过所述均值误差更新所述第t预测锚点的协方差;
步骤4:当所述协方差小于设定阈值时,则计算所述第t预测锚点的均值向量并将该均值向量的坐标数据作为第t跟踪锚点的位置坐标,并在显示屏上通过标识点显示该位置坐标且执行步骤5;否则执行步骤3;
步骤5:令t=t+1,并同时执行步骤2和步骤6;
步骤6:将t-1跟踪锚点至t+1跟踪锚点的位置坐标进行归一化处理并输入以长短期记忆网络LSTM为主干构建的轨迹预测模型中并输出轨迹点;
步骤7:将所述轨迹点进行并联拟合成一个完整的轨迹线,并在显示器上的所述视频数据中实时显示和更新所述轨迹线;
其中,所述轨迹预测模型包括两层LSTM网络、输入层、输出层、全连接层和卷积层,输入层经所述两层LSTM网络后再经全连接层与输出层连接,在所述卷积层的输入端与所述输入层和LSTM网络的公共端相连接,所述卷积层的输出端与所述全连接层的输入端连接;所述轨迹预测模型的输入为轨迹点向量xt,所述轨迹预测模型的输出为预测轨迹点向量Ht,所述轨迹预测模型的计算公式为:
Figure FDA0003851193560000011
Figure FDA0003851193560000012
为LSTM模块的计算函数,λ为卷积层的权重,WC为Conv卷积层的网络参数,C为误差值并通过网络训练获得;
每层所述LSTM网络均包括若干个LSTM模块,所述LSTM模块包括三个输入和两个输出,所述三个输入分别为前一时刻输出Ht-1、前一时刻状态信息Bt-1和当前时刻轨迹点向量Xt,所述两个输出分别为当前时刻输出Ht和当前时刻状态信息Bt,Ht则作为Ht-1输入同层中LSTM模块和作为下一层中LSTM模块的输入Xt,函数
Figure FDA0003851193560000021
计算公式如下:
Figure FDA0003851193560000022
Figure FDA0003851193560000023
其中,
Figure FDA0003851193560000024
为Hadamard乘积,tanh为激活函数,*表示卷积计算,
Figure FDA0003851193560000025
为t时刻经过衰减及记忆增强保留的特征;
ft、it和ot分别LSTM模块t时刻遗忘门的输出、输入门的输出和输出门的输出,计算公式如下:
Figure FDA0003851193560000026
Figure FDA0003851193560000027
Figure FDA0003851193560000028
Figure FDA0003851193560000029
Wxc和Uhc分别为记忆增强保留特征的网络参数,σ为Sigmoid激活函数,Wxf、Uhf、Wxi、Uhi
Figure FDA00038511935600000210
分别为遗忘门的模型参数、输入门的模型参数和输出门的模型参数,Wcf、Wci
Figure FDA00038511935600000211
分别为记忆增强保留特征的融合权重参数,tanh为激活函数。
2.根据权利要求1所述的一种咽拭子头部的跟踪与轨迹预测方法,其特征在于:所述预测锚点的均值通过四维向量
Figure FDA00038511935600000212
来表征,cx,cy为锚点的坐标;vx,vy为速度变化值,初始化为零,所述预测锚点的均值
Figure FDA00038511935600000213
Figure FDA00038511935600000214
为前一帧预测锚点的均值,
Figure FDA00038511935600000215
为一个4×4的状态转移矩阵:
Figure FDA00038511935600000216
矩阵元素τ为当前帧识别锚点与前一帧识别锚点位置数据的差值;识别锚点和预测锚点的均值误差
Figure FDA00038511935600000217
Figure FDA00038511935600000218
为当前时刻视频帧中识别锚点的均值向量,
Figure FDA00038511935600000219
为测量矩阵
Figure FDA00038511935600000220
通过均值误差yt对预测锚点进行更新,进而得到更新后预测锚点的均值向量
Figure FDA00038511935600000221
R为咽拭子目标检测的噪声矩阵
Figure FDA00038511935600000222
更新后预测锚点的协方差
Figure FDA0003851193560000031
Pt-1为前一时刻视频帧中预测锚点的协方差,HT为测量矩阵的转置矩阵。
3.根据权利要求1所述的一种咽拭子头部的跟踪与轨迹预测方法,其特征在于:所述归一化处理的公式为:
Figure FDA0003851193560000032
公式中xi为视频帧轨迹点的坐标值,μ为t-1跟踪锚点至t+1跟踪锚点位置坐标的平均值;β为t-1跟踪锚点至t+1跟踪锚点位置坐标的标准差。
4.根据权利要求1所述的一种咽拭子头部的跟踪与轨迹预测方法,其特征在于:轨迹预测模型训练的损失函数为
Figure FDA0003851193560000033
Pi为第i个轨迹点特征的预测值,Ri为第i个轨迹点特征实际值。
CN202210826149.XA 2022-07-14 2022-07-14 一种咽拭子头部的跟踪与轨迹预测方法 Active CN114926772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210826149.XA CN114926772B (zh) 2022-07-14 2022-07-14 一种咽拭子头部的跟踪与轨迹预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210826149.XA CN114926772B (zh) 2022-07-14 2022-07-14 一种咽拭子头部的跟踪与轨迹预测方法

Publications (2)

Publication Number Publication Date
CN114926772A CN114926772A (zh) 2022-08-19
CN114926772B true CN114926772B (zh) 2022-10-21

Family

ID=82815907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210826149.XA Active CN114926772B (zh) 2022-07-14 2022-07-14 一种咽拭子头部的跟踪与轨迹预测方法

Country Status (1)

Country Link
CN (1) CN114926772B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109982B (zh) * 2023-02-16 2023-07-28 哈尔滨星云智造科技有限公司 一种基于人工智能的生物样本采集有效性检验方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232169A (zh) * 2019-05-09 2019-09-13 北京航空航天大学 基于双向长短时记忆模型和卡尔曼滤波的轨迹去噪方法
CN111643123A (zh) * 2020-05-26 2020-09-11 清华大学 一种咽拭子自动采样装置
CN113076686A (zh) * 2021-03-04 2021-07-06 南京航空航天大学 一种基于社会长短期记忆网络的航空器轨迹预测方法
CN113133787A (zh) * 2021-03-17 2021-07-20 北京航空航天大学 鼻咽拭子采样机器人人机协同交互控制方法及系统
CN113749692A (zh) * 2021-09-03 2021-12-07 中国科学院长春光学精密机械与物理研究所 基于图像识别定位的咽拭子采集方法
EP3943972A1 (en) * 2020-07-24 2022-01-26 Aptiv Technologies Limited Methods and systems for predicting a trajectory of an object

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020055759A1 (en) * 2018-09-11 2020-03-19 Nvidia Corporation Future object trajectory predictions for autonomous machine applications
CN110135314B (zh) * 2019-05-07 2020-08-11 电子科技大学 一种基于深度轨迹预测的多目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232169A (zh) * 2019-05-09 2019-09-13 北京航空航天大学 基于双向长短时记忆模型和卡尔曼滤波的轨迹去噪方法
CN111643123A (zh) * 2020-05-26 2020-09-11 清华大学 一种咽拭子自动采样装置
EP3943972A1 (en) * 2020-07-24 2022-01-26 Aptiv Technologies Limited Methods and systems for predicting a trajectory of an object
CN113076686A (zh) * 2021-03-04 2021-07-06 南京航空航天大学 一种基于社会长短期记忆网络的航空器轨迹预测方法
CN113133787A (zh) * 2021-03-17 2021-07-20 北京航空航天大学 鼻咽拭子采样机器人人机协同交互控制方法及系统
CN113749692A (zh) * 2021-09-03 2021-12-07 中国科学院长春光学精密机械与物理研究所 基于图像识别定位的咽拭子采集方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Social LSTM: Human Trajectory Prediction in Crowded Spaces;Alexandre Alahi等;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20161212;第961-971页 *
基于视觉的动态交通目标跟踪与轨迹预测算法研究;张款;《工程科技Ⅱ辑》;20220315(第03期);第16-56页 *

Also Published As

Publication number Publication date
CN114926772A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN111401201B (zh) 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN107545582B (zh) 基于模糊逻辑的视频多目标跟踪方法及装置
Chen et al. JPDAF based HMM for real-time contour tracking
CN114916964B (zh) 一种咽拭子采样有效性检测方法及自助式咽拭子采样方法
KR100612858B1 (ko) 로봇을 이용하여 사람을 추적하는 방법 및 장치
CN108222749B (zh) 一种基于图像分析的智能自动门控制方法
CN111476161A (zh) 一种融合图像和生理信号双通道的体感动态手势识别方法
Gao et al. Dining activity analysis using a hidden markov model
CN108596087B (zh) 一种基于双网络结果的驾驶疲劳程度检测回归模型
CN112801000B (zh) 一种基于多特征融合的居家老人摔倒检测方法及系统
CN109063643B (zh) 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
CN108960047A (zh) 基于深度二次树的视频监控中人脸去重方法
CN111259735B (zh) 基于多级预测特征增强卷积神经网络的单人姿态估计方法
CN112487948B (zh) 一种基于多空间融合的学习者学习过程的专注度感知方法
CN114926772B (zh) 一种咽拭子头部的跟踪与轨迹预测方法
CN113378649A (zh) 身份、位置和动作识别方法、系统、电子设备及存储介质
WO2023093086A1 (zh) 目标跟踪及相关模型的训练方法、装置、设备、介质、计算机程序产品
CN111402632B (zh) 一种交叉口行人运动轨迹的风险预测方法
CN105404866B (zh) 一种多模式自动实施人体状态感知的实现方法
CN106056078A (zh) 一种基于多特征回归式集成学习的人群密度估计方法
CN109544632B (zh) 一种基于层次主题模型的语义slam对象关联方法
CN109064511B (zh) 一种人体重心高度测量方法、装置及相关设备
CN113197558B (zh) 心率与呼吸率检测方法、系统及计算机存储介质
CN113781563B (zh) 一种基于深度学习的移动机器人回环检测方法
CN112597842B (zh) 基于人工智能的运动检测面瘫程度评估系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant