CN111882579B

CN111882579B - 基于深度学习和目标跟踪的大输液异物检测方法、系统、介质及设备

Info

Publication number: CN111882579B
Application number: CN202010632625.5A
Authority: CN
Inventors: 张辉; 王群; 易俊飞; 毛建旭; 周显恩; 朱青; 王耀南
Original assignee: Hunan Aimijia Intelligent Technology Co ltd
Current assignee: Hunan Aimijia Intelligent Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-08-09
Anticipated expiration: 2040-07-03
Also published as: CN111882579A

Abstract

本发明公开了一种基于深度学习和目标跟踪的大输液异物检测方法、系统、介质及设备，该方法对采集的连续多帧图像进行图像预处理后，结合了目标检测算法和目标跟踪算法，实现了目标检测与目标跟踪的融合、异物精准定位跟踪；首先通过对序列图像进行预处理，然后先运用Faster R‑CNN神经网络对第一帧图像进行目标检测，得到每个疑似目标的初始位置，然后通过CSR‑DCF目标跟踪算法跟踪每个目标在之后几帧的位置，得到每个疑似目标的运动轨迹，最后根据轨迹特征用基于半朴素贝叶斯原理的自适应分类算法进行分类，排除噪音干扰。实验表明，该方法不但可以极大提高检测速度而且检测精度也提高了许多，达到了工业生产精度和实时性要求。

Description

基于深度学习和目标跟踪的大输液异物检测方法、系统、介质及设备

技术领域

本发明属于医药图像检测领域，涉及一种基于深度学习和目标跟踪的大输液异物检测方法、系统、介质及设备。

背景技术

我国大输液生产量和销售量早已位居世界第一，在制药生产过程中，由于各种原因导致药液中混入直径大于50微米的微小异物，其中包括空气中的纤维，工人掉落的毛发，玻璃瓶碰撞产生的玻璃屑，橡胶塞脱落的橡胶块等。由于大输液药剂直接将药物输入静脉并进入人体血液，一旦这些异物进入人体血液循环，直接关系到人的生命安全，更重要的是，大输液是给病人使用的，而病人相对于正常人的抵抗能力要弱很多，带有异物的药业一旦输入血液，跳过人体安全的第一，第二防线，不但无法治病，还有可能致命。所以，大输液异物检测是重中之重，是维护人民生命安全的最重要一道防线。在传统中小制药企业采用的人工灯检法，这种方式依靠人力，伴有检测标准无法统一，导致视力疲劳，检测速度慢，漏检率高等缺点。而国外等先进设备，价格昂贵，维护成本极高，因此研究开发一套高效安全的大输液异物检测方法，是当务之急。对人民安全，工业生产，国家发展具有重大意义。

发明内容

本发明提供了一种基于深度学习和目标跟踪的大输液异物检测方法、系统、介质及设备，其目的在于，对大输液药液中的异物跟踪识别，并建立了自适应分类算法以排除气液体泡，瓶身划痕，光斑等噪音干扰，实现异物目标准确检测与跟踪。

本发明提供的技术方案如下：

一方面，一种基于深度学习和目标跟踪的大输液异物检测方法，包括以下步骤：

步骤1：采集大输液生产线上通过高速旋转-急停后的序列图像；

步骤2：对采集的大输液序列图像进行格式转换，并裁剪掉边界干扰区域；

步骤3：将大输液药液历史序列图像的中央感兴趣区域中包含的异物目标进行最小外接矩形的方框标记，同时记录XML文件，并对XML文件进行脚本转换，获取TFRrecord文件；

所述XML文件记录每个异物目标的方框标记ground-truth box、角点坐标、所属图像名称、大小、通道数、图像格式与存储路径；

将所有的标注XML文件先后利用xml_to_csv.py与generate_tfrecord.py脚本进行转换，最后依据约9比1的比例构建训练集和验证集的TFRecord文件；

步骤4：构建基于Faster R-CNN深度神经网络的异物位置预测标记模型；

利用历史序列图像按照步骤2-步骤3处理，获得训练集的TFRecord文件，利用训练集的TFRrecord文件输入Faster R-CNN深度神经网络模型进行训练，获得基于Faster R-CNN深度神经网络的异物位置预测标记模型，训练时，配置文件的分类数设置为1，迭代批处理数据数目batch_size置为1，总的迭代次数num_steps设置为40000；

步骤5：按照步骤2-步骤3对实时采集的大输液医药药液生产线上的大输液药液序列图像进行处理，之后把第一帧图像的TFRecord文件所述的基于Faster R-CNN深度神经网络的异物位置预测标记模型，获得第一帧所有疑似异物目标的位置坐标点；

步骤6：将实时采集的序列图像和基于步骤5获得的第一帧所有的疑似异物目标坐标位置所在区域作为CSR-DCF目标跟踪算法的感兴趣区域输入部分，跟踪得到实时采集的序列图像中每个疑似异物目标的位置坐标；

步骤7：依据噪声与异物目标的运动轨迹差别，基于目标运动轨迹特征，利用基于半朴素贝叶斯原理的自适应分类算法从实时采集的序列图像中所有疑似目标的运动轨迹上区分出异物目标和噪声。

噪声的位置坐标轨迹集中于一个小区域，位置坐标变化不大，计算相邻两帧的平均欧氏距离和轨迹最大Y坐标差，作为分类特征。根据特征用基于半朴素贝叶斯原理的自适应分类算法，分别计算属于异物的概率和噪音的概率。概率大的一类为分类结果。

进一步地，所述对采集的大输液序列图像进行格式转换，裁剪边界干扰区域，过程如下：

步骤2.1：通过python中的字符串的拼接，将CCD相机获得的大输液药液序列图像BMP位图格式的图像为JPG格式；

步骤2.2：采用双线性插值将JPG格式的大输液药液图像的分辨率压缩成1000*750的分辨率；

步骤2.3：将经过压缩后的大输液药液图像进行resize操作，图像宽度裁剪范围为115至885的区域，高裁剪为75至675的区域，图像分辨率为770*600。

由于大输液药液异物目标主要集中于图像的中央区域，最终减少了部分光斑的影响。

进一步地，所述基于Faster R-CNN深度神经网络的异物位置预测标记模型，在训练前，先载入采用coco数据集上预训练的faster_rcnn_vgg16_coco预训练模型对RPN网络进行初始化，接着将大输液药液历史序列图像的TFRecord文件输入faster_rcnn_vgg16_coco预训练模型，更新faster_rcnn_vgg16_coco预训练模型，利用更新后的faster_rcnn_vgg16_coco预训练模型再次训练RPN网络，获得基于Faster R-CNN深度神经网络的异物位置预测标记模型，其中，所述RPN网络输出异物位置的方框标记anchor box，包括异物所在方框的中心点坐标以及方框的宽和高；

利用历史序列图像的TFRecord文件输入faster_rcnn_vgg16_coco预训练模型进行训练时，划分正负样本区分白色成像异物目标与黑色背景时采用的IoU设置为0.7，损失函数如下：

即白色成像异物目标与黑色背景划分，避免正负样本数据的不平衡产生的训练时偏差较大。

其中，i为训练时为了回归计算及划分样本对异物目标的方框标记anchorbox的索引值，p_i是第i个标记方框anchorbox中的目标预测为异物目标的概率，表示第i个标记方框anchor box中是否存在异物目标，取值在白色成像异物目标的正样本时取值为1，黑色背景的负样本时取值为0；N_cls是标准化参数，取值为256；L_cls是分类误差函数，是采用白色成像异物目标与黑色背景非目标的对数损失函数；

t_i是训练时第i个anchor box与对应预测框的偏移量构成的向量(t_x、t_y、t_w、t_h)，其中，t_x、t_y表示t_i中的平移方向上x和y变换，t_w、t_h表示t_i中的宽度和高度的尺度缩放，是训练时第i个anchor box与ground-truth box的偏移量构成的向量表示中的平移方向上x和y变换，表示中的宽度和高度的尺度缩放，N_reg是标准化参数，取值为2400，λ是平衡参数，λ＝10；L_reg为回归损失函数，

进一步地，所述通过CSR-DCF目标跟踪算法对步骤5获得的所有疑似异物目标进行跟踪，具体步骤如下：

步骤6.1：估计当前帧疑似异物目标框内图像块的空间可靠性图m；

步骤6.2：根据当前帧疑似异物目标图像块的空间可靠性图m，求解跟踪的最优相关滤波器；

步骤6.3：利用得到的最优相关滤波器，估计当前帧疑似异物目标图像块的通道可靠性；

步骤6.4：在当前帧目标框的3倍区域内，通过最大概率估计目标下一帧疑似异物目标位置x，以概率最大的位置作为跟踪的结果；

步骤6.5：把下一帧作为当前帧，利用跟踪的结果提取当前帧疑似异物目标图像块，重复步骤6.1-步骤6.4，得到每一帧图像中疑似异物目标位置，获得所有疑似异物目标的运动轨迹。

进一步地，所述通过基于半朴素贝叶斯原理的自适应分类算法从得到的序列图像中疑似目标的运动轨迹上区分出异物目标和噪声；

具体步骤如下：

步骤7.1：计算同一目标相邻的两帧的欧氏距离，并计算同一目标在所有相邻帧的欧式距离均值d的取值为序列图像的数量减1；

(x_i，y_i)表示同一疑似异物目标在第i帧中的中心位置坐标；

步骤7.2：计算目标轨迹最大Y坐标差ΔY＝max(Δy_i)，得到目标轨迹特征组(ΔD，ΔY)；

步骤7.3根据已统计的轨迹特征建立特征数据集，作为先验概率，分别计算目标轨迹特征组(ΔD，ΔY)属于异物和噪音的概率，比较概率大小获得分类结果；

其中，P(N)代表噪音的概率，P(F)代表异物的概率；n(N)，n(F)表示特征数据集中噪音数量和异物数量，n(c)表示类别数量，(Δd，Δy)表示特征数据集中的轨迹特征组，n(Δy≤ΔY∩Δd≤ΔD)表示在特征数据集中的轨迹特征组比目标轨迹特征组(ΔD，ΔY)小的数量。

表示异物或噪音出现的概率，表示异物或噪音出现

另一方面，一种基于深度学习和目标跟踪的大输液异物检测系统，包括：

历史数据采集模块：采集大输液生产线上通过高速旋转-急停后的序列图像；

图像转换与裁剪模块：对采集的大输液序列图像进行格式转换，并裁剪掉边界干扰区域；

脚本文件获取模块：将大输液药液历史序列图像的中央感兴趣区域中包含的异物目标进行最小外接矩形的方框标记，同时记录XML文件，并对XML文件进行脚本转换，获取TFRrecord文件；

预测标记模型构建模块：利用历史序列图像调用图像转换与裁剪模块与脚本文件获取模块，获得训练集的TFRecord文件，利用训练集的TFRrecord文件输入Faster R-CNN深度神经网络模型进行训练，获得基于Faster R-CNN深度神经网络的异物位置预测标记模型，训练时，配置文件的分类数设置为1，迭代批处理数据数目batch_size置为1，总的迭代次数num_steps设置为40000；

实时图像采集与预测模块：调用图像转换与裁剪模块与脚本文件获取模块对实时采集的大输液医药药液生产线上的大输液药液序列图像进行处理，之后把第一帧图像所述的基于Faster R-CNN深度神经网络的异物位置预测标记模型，获得第一帧所有疑似异物目标的位置坐标点；

跟踪模块：将实时采集的序列图像和的第一帧所有的疑似异物目标坐标位置所在区域作为CSR-DCF目标跟踪算法的感兴趣区域输入部分，跟踪得到实时采集的序列图像中每个疑似异物目标的位置坐标；

目标分类模块：依据噪声与异物目标的运动轨迹差别，利用基于半朴素贝叶斯原理的自适应分类算法从实时采集的序列图像中所有疑似目标的运动轨迹上区分出异物目标和噪声。

再一方面一种计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时实现所述的一种基于深度学习和目标跟踪的大输液异物检测方法。

一种基于深度学习和目标跟踪的大输液异物检测设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以使所述基于深度学习和目标跟踪的大输液异物检测设备实现一种基于深度学习和目标跟踪的大输液异物检测方法。

有益效果

本发明提供了一种基于深度学习和目标跟踪的大输液异物检测方法、系统、介质及设备，该方法对采集的连续多帧图像进行图像预处理后，然后先运用Faster R-CNN神经网络对第一帧图像进行目标检测，得到每个疑似目标的初始位置，然后通过CSR-DCF目标跟踪算法跟踪每个目标在之后几帧的位置，得到每个疑似目标的运动轨迹，最后根据轨迹特征用基于半朴素贝叶斯原理的自适应分类算法进行分类，以排除噪音干扰。

本发明采用了基于Faster R-CNN的神经网络的检测结果作为目标跟踪算法的感兴趣跟踪区域，利用了深度学习的批量处理数据的能力和检测的可靠性，把目标检测与目标跟踪结合在一起，实现了大输液异物的准确识别与跟踪，并根据异物特征，提出一种基于半朴素贝叶斯原理的自适应分类算法，解决了半朴素贝叶斯原理中依赖属性问题。实验表明，与传统的人工灯检方式相比，本发明方法检测精度高，速度快，适应性强。

附图说明

图1为本发明实例所述方法的检测流程图；

图2为本发明实例所述方法中图像处理示意图；

图3为本发明实例所述方法的基于Faster R-CNN神经网络结构图；

图4为本发明实例所述方法的检测结果示意图，其中，(a)为所述方法的Faster R-CNN神经网络对第一帧的图像进行疑似异物目标检测结果；(b)(c)(d)(e)(f)(g)(h)为所述CSR-DCF目标跟踪算法根据第一帧的检测结果对第2-8帧图像的目标跟踪结果；

图5为本发明实例所述方法中根据已知数据建立的特征数据集，其中，(a)为噪音特征数据集共120个样本(b)为异物特征数据集共80个样本；横坐标ΔD表示目标相邻两帧的平均欧氏距离，纵坐标ΔY表示目标轨迹的最大Y坐标差。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

在本实例中相机采用分辨率为1080*960的面阵千兆网CCD相机(Baumer TXG12),镜头为6mm宽视角Computar镜头，光源为半径为6cm的穹顶漫反射光源(LTS-FM12030-WQ)；

如图1所示，一种基于神经网络和目标跟踪的大输液异物检测方法，包括以下步骤：

步骤1：采集大输液生产线上通过高速旋转-急停后的序列图像：记作Image0-7。

步骤2：对步骤1中对采集的大输液序列图像进行格式转换后，裁剪掉边界干扰区域：记作预处理过的图像ImageI_0-7。

步骤2.1：首先转换CCD相机获得的BMP位图格式的大输液药液历史序列图像为JPG格式，通过python中的字符串的拼接即可完成。由于BMP格式的原图是单通道的，在格式转换时通过复制已有的单通道添加两层同样的通道一起形成RGB三通道的JPG格式图像。

步骤2.2：对于转换格式之后的大输液药液历史序列图像，其分辨率为1600*1200；将其压缩成1000*750的分辨率。

步骤2.3:将经过压缩后的大输液药液图像进行resize操作，图像宽度裁剪范围为115至885的区域，高裁剪为75至675的区域，最后分辨率为770*600，如图2所示。

至此大输液图像的预处理已完成。

步骤3：将大输液药液历史序列图像的中央感兴趣区域中包含的异物目标进行最小外接矩形的方框标记，并获得有标签的训练数据；

步骤3.1：对大输液药液历史序列图像中的异物目标进行手工标定。利用LabelImg工具，对每帧图像中的异物目标进行标记，并取名标记为target，获得XML格式的标注文件，标注文件包括了文件夹的名称、图片名、存储路径、图像的大小、通道数及格式、标注名target信息，并记录了手工标注的ground-truthbox(手工标记框)的4个角点的位置坐标点。ground-truthbox的标注原则是将人工经验认为的异物目标框中，一般按最小外接矩形标记出异物目标即可。需要说明的是此处得到的ground-truthbox的4个角点的位置坐标点是目标的真实位置角点，用于之后所述的深度学习模型进行回归计算时的真实依据，因此其后产生的边框与ground-truthbox类型一致。

步骤3.2：将大输液药液历史序列图像数据集按比例随机分成两部分，其中137张图像及其对应的标注XML文件作为训练集，置于文件夹train下；15张图像及其对应的标注XML文件用作为验证集，置于文件夹validate下。

训练集与验证集的划分按照了9比1的比例关系，这里直接采用了“留出法进行划分”，即直接将数据集划分为互斥的两个集合，其中一个集合作为训练集，另一个作为验证集。

步骤3.3：为了得到最终所需格式的文件形式，需要将分好的大输液药液历史序列图像训练集数据与验证集XML格式的数据先转换成CSV的表格文件，通过脚本文件xml_to_csv.py便可完成，得到train_labels.csv文件和validate_labels.csv文件。

步骤3.4：通过对CSV的表格文件运行两次generate_tfrecord.py脚本，分别产生大输液药液历史序列图像训练集的TFRecord文件和验证集的TFRecord文件。

至此，获得基于Faster R-CNN深度神经网络的异物位置预测标记模型训练所需的文件train.record文件和validate.record文件。

步骤4：利用训练集与验证集的TFRecord文件输入Faster R-CNN深度神经网络模型进行训练，获得基于Faster R-CNN深度神经网络的异物位置预测标记模型；

步骤4.1：由于大输液药液历史序列图像数据量较少，采用迁移学习来进行训练。对于迁移学习，在数据集较小的情况下利用在coco数据集上已经训练好的参数进行相应的调整训练，这种调整训练是建立在卷积神经网络层上来实现特征的迁移，最终实现希望得到的在相应数据集上的应用，在这里，已有的coco数据集称为源域，要学习的新数据集，即本发明实例用到的大输液药液历史序列图像叫目标域，采用基于模型的迁移将源域与目标域的模型结合起来调整最终模型的参数，coco数据集是目标检测领域的大型公开数据集，其数据量庞大成熟。

首先依据coco数据集得到的预训练模型以学习到图像的底层通用特征，再利用大输液药液历史序列图像目标数据集对Faster R-CNN深度神经网络参数进行训练微调，提取表示能力更适合本发明实例任务的深度卷积特征；具体实现方式是利用目标检测coco数据集上的预训练模型faster_rcnn_vgg16_coco提前载入，初始化RPN网络；

接着设置相应的配置参数，依据本实施例更改目标检测的类别文件实现，设置item，其id为0对应target。设置配置文件的分类数为1，即target目标。迭代批处理数据数目batch_size置为1以及总的迭代次数num_steps为40000更改对应的文件路径，指定使用的fine_tune_checkpoint，即预训练模型faster_rcnn_vgg16_coco，设定训练集的TFRecord文件和验证集的TFRecord文件的输入路径，最后指定标签设置的文件路径。

步骤4.2：基于Faster R-CNN深度神经网络的异物位置预测标记模型训练时，利用大输液历史序列图像构建的TFRecord文件对预训练模型进行训练faster_rcnn_vgg16_coco，在迭代40000次后，全局误差低于1，训练的模型已经达到很小的误差，得到最终的基于Faster R-CNN深度神经网络的异物位置预测标记模型。本实例中的全局误差是boundingbox的回归误差以及分类为target与非target的分类误差；

步骤4.2.1：训练时，对于输入的数据(训练集的TFRecord文件和验证集的TFRecord文件以及label标签文件)，会相应进入卷积网络conv中；

步骤4.2.2：conv1、conv2_x、conv3_x、conv4_x做卷积特征映射，进入RPN的特征用来计算异物目标的方框标记anchorbox，特征映射feature map及异物目标的方框标记anchor box给予RoI数据处理模块接着训练，获得更新后的预训练模型faster_rcnn_vgg16_coco；

步骤4.2.3：用更新后的预训练模型faster_rcnn_vgg16_coco第二次训练RPN网络，此次训练将只有RPN得到更新，更新后的RPN对每张图像生成300个异物目标的方框标记anchorbox(计算回归及划分样本用的anchor box，采用公知设定)。

基于Faster R-CNN深度神经网络的异物位置预测标记模型训练时提取的异物目标的方框标记anchor box与手工的标注的ground-truth box之间存在误差，其中，anchorbox是训练时的区域选择方法提取的异物目标的方框标记，主要用来划分样本及回归计算，划分正负样本区分异物目标与黑色背景时采用IoU(交并比)来衡量，loU全称Intersectionover Union，anchor box与手工的标注的ground-truth box之间的框的交集与它们并集的比值。本实施例中设定的IoU>0.7。即anchor box与ground-truth box的交集与其并集之间的比值大于0.7。训练时，由于无法直接依据ground-truth box进行回归计算，主要是造成计算不便以及难以收敛，因此，需要利用anchor box进行计算得到最终的平移和尺度放缩参数得到更接近ground-truth box的预测框作为最终的结果。首先依据IoU的划分对提取的anchor box进行正样本划分，划分规则有两种：1.如果anchor box与ground-truth box的IoU值最大，标记为异物目标正样本；2.如果anchor box与ground-truth box的IoU>0.7，标记为异物目标正样本；事实上，采用第2种规则基本上可以找到足够的异物目标正样本，但是对于一些极端情况，例如所有的anchor box与groud-truth box的IoU不大于0.7，可以采用第1种规则生成。负样本标定规则：如果anchor box与ground-truth box的IoU<0.3，标记为黑色背景负样本。剩下的既不是异物目标也不是黑色背景，不用于最终训练。

在Faster R-CNN网络中，对于bounding box的回归计算过程如下：

x^*,y^*,w^*,h^*代表的是大输液药液历史序列图像中异物目标以最小外接矩形得到的ground-truth box中心点坐标、框的宽和高；x,y,w,h代表异物目标的预测框的中心点坐标、宽以及高；x_a，y_a，w_a，h_a是为了回归计算对异物目标的方框标记anchor box的中心点坐标、框的宽和高，(t_x、t_y、t_w、t_h)代表的是预测框与anchor box的偏移量，即为对anchorbox进行位置微调的变换参量，t_x、t_y对应是预测框与anchor box的中心点的偏移量，t_w、t_h对应是预测框与anchor box的尺度偏移量，是anchor box与ground-truth box其中心点的偏移量，与是anchor box与ground-truth box其尺度上的偏移量，可以得到与是实际上真正的偏移量，可以发现如果预测框达到了与ground-truth box相一致，就与(t_x、t_y、t_w、t_h)对应相等了。具体计算式如下所示：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a

t_w＝log(w/w_a)，t_h＝log(h/h_a)

在具体对大输液药液历史序列图像实施时，为了避免除法运算(除数为0)以及对数运算(对数的底数及真数的取值范围内)时出现Na N的运算异常。对anchor box与预测框的中心点坐标值在进行偏移量的计算之前加上一个常量EPSILON＝1e-8，ground-truthbox中心点的取值符合要求，故不做处理。这样得到如下的计算结果。其中的+＝为操作数加上EPSILON之后赋值给操作数。

h_a+＝EPSILON

w_a+＝EPSILON

h+＝EPSILON

w+＝EPSILON

在本实施例中，为了更好的进行训练这里用到了缩放位置目标，计算如下。其中的*＝为操作数乘上系数之后赋值给操作数。

t_x*＝self._scale_factors[0]

t_y*＝self._scale_factors[1]

t_w*＝self._scale_factors[2]

t_h*＝self._scale_factors[3]

因此在计算最后的预测框4个角点坐标时需要将放大的坐标进行缩回原值，计算如下。其中的/＝为操作数乘上系数之后赋值给操作数。

t_y/＝self._scale_factors[0]

t_x/＝self._scale_factors[1]

t_h/＝self._scale_factors[2]

t_w/＝self._scale_factors[3]

self._scale_factors[0]～[3]的值在这里是缩放的系数，默认为[10.0，10.0，5.0，5.0]。在训练过程中对于预测框的回归计算，目标函数就是

其中，i为训练时为了回归计算对异物目标的方框标记anchor box的索引值，取值分为白色成像异物目标的正样本时取值为1，黑色背景的负样本时取值为0，t_i是训练时预测框与anchor box的偏移量构成的向量(t_x、t_y、t_w、t_h)，是训练时anchor box与ground-truth box的偏移量构成的向量在训练时，对异物目标的预测框与实际的进行最小外接矩形标记的ground-truth box存在较大偏移，为了尽可能的使得预测框对异物目标的预测标记接近ground-truth box以便于后续跟踪，引入对异物目标的方框标记anchor box及其与ground-truth box的偏移量构成的向量这样，训练时t_i，之间的距离最小化便是回归优化的目标。N_reg是标准化参数，取值约为2400，λ＝10是平衡参数(公知设定)。直接依据公知设定计算。

最终的目标函数就是优化使得：

在本实施例中，ground-truth box的中心点坐标、宽及高由步骤3.1的4个角点坐标便可得到。预测框的中心点坐标、宽及高由基于Faster R-CNN深度神经网络的异物位置预测标记模型给出，anchorbox的中心点坐标、宽及高由基于Faster R-CNN深度神经网络的异物位置预测标记模型的RPN卷积层得出。这样，在训练时，通过梯度下降法来得到最终的位置微调偏移量，在得到了最佳的偏移量之后，对之前的计算预测框与anchor box的偏移量的计算式进行逆运算得到新的预测框bounding box作为输出。计算如下：

w′＝exp(t’_w)*w_a，h′＝exp(t’_h)*h_a

y_center＝t’_y*h_a+y_a，x_center＝t’_x*w_a+x_a

其中，w′，h′，y_center，x_center分别表示新预测框的宽、高和中心坐标，exp()为指数运算，为乘法运算。t’_w，t’_h，t’_y，t’_x由模型训练得到的最佳的偏移量，x_a，y_a，w_a，h_a是anchorbox的中心点坐标、框的宽和高。得到的(x_center，y_center，w′，h′)将作为计算新的预测框bounding box的4个角点坐标值的依据。计算如下：

y_min＝y_center-h′/2

x_min＝x_center-w′/2

y_max＝y_center+h′/2

x_max＝x_center+w′/2

y_min、x_min、y_max、x_max分别表示预测框的左上角坐标和右下角坐标。

至此，获得最后输出的新的预测框bounding box以及新的预测框bounding box的中心点坐标点。而对于分类上的误差，采用的是softmax层输出目标的似然值，即目标的置信度，对于分类的目标损失函数其中，i为训练时为了回归计算及划分样本对异物目标的方框标记anchor box的索引值，p_i是anchori预测为异物目标的概率，取值分为异物目标时取值为1，黑色背景时取值为0。N_cls是标准化参数，取值为256。分类误差L_cls是目标与非目标的对数损失函数，其式为：即为与ground-truth相对应的真实的属于异物目标的对数损失。因此总的误差函数包括定位误差函数和分类误差函数，在本实施例的说明中误差函数与损失函数是一样的，得到总的损失函数如下所示：

对于本发明实例的目的来说，定位误差相比分类误差来说更加重要，直接关系到下一步跟踪的准确度。因此本实施例中的target标注后的百分数置信度权当参考，在本发明实例中不做他用。

预训练模型faster_rcnn_vgg16_coco不变，利用Softmax Loss(探测分类概率)和Smooth L1Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练。至此，在总的损失低于1以下以及总的迭代步数达到40000后训练完毕，得到一个稳定的网络模型。

步骤5：将训练好的基于Faster R-CNN深度神经网络的异物位置预测标记模型用另外的未参与训练的大输液药液序列图像测试集进行测试，其中的测试集和训练集与验证集组成的训练数据集为同批次的样本，由于总的数据满足随机分布，因此随机选取时，训练数据集中的训练集与验证集以及测试集都可以认为其数据的分布满足一致性。最后测试结果中会以bounding box的形式框出所有的疑似目标。如图3所示，输出结果为：

obj11(724，315，748，357)

obl21(485，209，507，242)

obj31(0，8，14，31)

obj41(611，291，623，327)

obj51(169，22，182，67)

obj61(257，302，270，333)

obj71(59，497，74，511)

步骤5.1：对经过基于Faster R-CNN深度神经网络的异物位置预测标记模型检测之后得到的所有疑似目标的bounding box，获取bounding box中心的位置坐标。对于一幅图像中的检测出的多个疑似目标的bounding box，则会取得各个疑似bounding box的中心位置坐标，得到所有疑似目标的中心位置坐标点。

再本实例中采用以图像的左上角为坐标原点，水平向右为x轴坐标，竖直向下为y轴坐标，获取所有疑似目标的坐标信息。计算以最终测试结果的bounding box中心为准。

输出的bounding box坐标格式为左上角坐标和右下角坐标(x_min，y_min，x_max，y_max)，计算中心坐标位置：

其中，(X，Y)是所需要的中心点坐标；

这里以一个目标为例，obj11中心坐标为(736，336)。

至此，基于Faster R-CNN深度神经网络的异物位置预测标记模型标记检测就完成了，需要说明的是在后续的跟踪的计算中数值计算依据的是建立的坐标系，无量纲单位。

步骤6；根据所得的疑似异物的坐标，作为CSR-DCF目标跟踪算法的感兴趣输入项，跟踪2-8帧每个目标所在的坐标位置；

先转化目标坐标，Faster R-CNN检测出来的位置(x_min，y_min，x_max，y_max)，需要的目标位置信息为(xmin，ymin，w，h)，其中，w＝x_max-x_min，h＝y_max-y_min，obj11＝(724，315，24，42)；

步骤6.1；得到的疑似异物目标第一帧位置信息后，估计当前帧疑似异物目标图像块的空间可靠性图m：

根据当前帧疑似异物目标框里的图像块，空间可靠性图计算每个像素x在外观y条件下可靠的概率为：

p(m＝1|y，x)∝p(y|m＝1，x)p(x|m＝1)p(m＝1)

外观似然p(y|m＝1，x)由目标前景/背景颜色模型的贝叶斯规则计算，在跟踪过程中以目标框内的颜色直方图c＝{c^f，c^b}的形式进行维护。先验概率p(m＝1)是图像块HSV前景/背景直方图的区域大小之比。空间先验p(x|m＝1)＝k(x；σ)，k(r；σ)＝1-(r/σ)²是修改后的Epanechnikov内核，尺寸参数σ等于目标框轴夹在区间[0.5，0.9]，即目标框轴处为0.9，远离轴均匀变小到0.5。在已知先验概率和似然的前提下，可以求出后验概率，经过马尔可夫随机域正则化后，得到最终需要的空间可靠性图，这里训练所用的图像块是用最终的二进制可靠性图(阈值α_min＝0.05)来掩盖的。

步骤6.2：根据当前帧目标的空间置信图m求解最优相关滤波器：

在原始相关滤波器引入对偶变量h_c和约束h_c-m⊙h≡0后，得到如下Lagrang表达式：

其中，是一个复杂的拉格朗日乘子，μ＞0，h_m＝(m⊙h)，字母上面的横杠表示共轭矩阵，f为目标图像块的特征，g是理想响应状态，字母右上方的H表示共轭转置矩阵，增广拉格朗日式可以通过乘子的交替方向法迭代最小化，该方法在每次迭代中依次求解以下子问题：

通过以下步骤进行迭代优化：

步骤(1)：通过上一帧滤波器h_t-1初始化

步骤(2)：初始化拉格朗日系数

步骤(3)：用和计算公式如下：

步骤(4)：计算hⁱ⁺¹公式如下：

步骤(5)：更新拉格朗日乘数；

步骤(6)：重复步骤(3)(4)(5)直到得到最优的滤波器

其中，目标图像块特征f使用标准HOG特征和颜色特征，理想相关响应g，二进制可靠性图m，相关滤波器适应率设置为η＝0.02，和正则化参数设置为λ＝0.01，增广拉格朗日优化参数μ，采用了更新约束惩罚值的标准方案，即μⁱ⁺¹＝βμⁱ，μ⁰＝5，β＝3。

步骤6.3：估计当前帧图像块的通道可靠性：

计算每个通道的学习可靠性，一共3个图像通道，每个通道特征(f₁，f₂，f₃)与对应的每个滤波器(h₁，h₂，h₃)的最大响应经过标准化的尺度ζ确保∑_dw_d＝1，得到每个通道的学习可靠性w_d＝ζmax(f_d*h_d)。

每个通道的滤波器与当前帧的通道特征点乘后，得到一个检测响应图，计算响应图的次峰值与主峰值之比ρ_max2/ρ_max1，在这里限制在0.5，比值越小，表示跟踪效果越好，目标的检测可靠性越高。最终的通道可靠性为：

计算图像学习可靠性和检测可靠性的乘积为通道可靠性p(f_d)；

步骤6.4：在当前帧目标框的3倍区域内，通过对学习相关滤波器在每个图像通道的响应进行累加，然后根据估计的通道可靠性评分对每个图像通道进行加权，响应最高的位置作为目标的新位置：

p(x|f_d)＝[f_d*h_d](x)是一个带有学习过的模板的特征图在x处求值的卷积，h表示通道滤波器(h₁，h₂，h₃)，p(f_d)是通道可靠性的先验，N_d＝3。

步骤6.5：每次跟踪后，把下一帧作为当前帧，利用跟踪的结果提取当前帧疑似异物目标图像块，根据目标的新位置更新空间可靠性图和滤波器及通道可靠性，具体步骤如下

步骤6.51：利用目标新位置P_t，估计目标框的新标度S_t。

步骤6.52：提取目标图像块的前景和背景直方图

步骤6.53：更新图像块的前景和背景直方图：

其中，是上一帧目标图像块的的前景和背景直方图，直方图的适应速度设置为η_c＝0.04；

步骤6.54：估计目标图像块的可靠性图m；

步骤6.55：用目标图像块的可靠性图m估计一个新的滤波器

步骤6.56：从滤波器估计图像块的通道可靠性

步骤6.57：更新目标滤波器

步骤6.58：更新图像通道可靠性

相关滤波器适应率设置为η＝0.02，]经过跟踪得到疑似目标obj1在第2-8帧图像中的位置坐标如下：

(717，294，24，42)

(713，277，24，42)

(708，262，24，42)

(705，241，24，42)

(701，221，24，42)

(698，206，24，42)

(694，194，24，42)

至此，跟踪完成得到如图四(b)-(h)的结果和每个疑似目标的位置信息。

步骤7：整合每个疑似异物目标的运动轨迹；

首先计算2-8帧跟踪的疑似异物目标位置的中心坐标，计算如下：

其中，(x_min，y_min，w，h)是目标位置信息，x_min，y_min为bounding box的左上顶点坐标，w，h为bounding box的宽和高，得到obj1每帧图像的中心坐标：

结合第一帧obj1的中心坐标obj11(736，336)得到obj1的轨迹：

obj1[(736，336)(729，315)(725，298)(720，283)(717，262)(713，242)(710，227)(706，215)]

步骤8：依据噪声与异物目标的运动轨迹差别，用基于半朴素贝叶斯原理的自适应分类算法从得到的序列图像中疑似目标的运动轨迹上区分出异物目标和噪声；

步骤8.1：根据疑似异物目标的轨迹，计算相邻的两帧的欧氏距离，公式如下：

计算得到obj1在相邻的两帧的欧氏距离：

D12＝22.13

D23＝17.46

D34＝15.8

D45＝21.2

D56＝20.4

D67＝15.3

D78＝12.6

再计算其均值d取值为7，得到疑似目标obj1平均相邻的两帧的欧氏距离为ΔD1＝17.8。

步骤8.2：计算目标轨迹最大Y坐标差ΔY＝max(Δy_i)＝121，得到目标轨迹特征组(ΔD，ΔY)＝(178，121)；

其中噪声的位置坐标轨迹大多集中于一个小区域，位置坐标变化不大，，而异物目标的位置坐标轨迹遵循一定的规律，由于重力和惯性的原因大多自顶向下运动且运动范围较大，

步骤8.3根据已统计的轨迹特征建立特征数据集，作为先验概率，分别计算目标轨迹特征组(ΔD，ΔY)属于异物和噪音的概率，比较概率大小获得分类结果；

根据已知的统计特征数据集作为先验概率，如图5所示，统计得到目标轨迹特征组(ΔD，ΔY)＝(17.8，121)在异物特征数据集和噪音特征数据集中的n(Δy≤ΔY∩Δd≤ΔD)为别为51和120，然后根据公式分别求出样本属于异物和噪音的概率

所以obj1的分类结果为异物，同理可判断其他目标是否是异物。

至此，检测完成。

基于上述方法，本发明实施例还提供一种基于深度学习和目标跟踪的大输液异物检测系统，包括：

应当理解，本发明各个实施例中的功能单元模块可以集中在一个处理单元中，也可以是各个单元模块单独物理存在，也可以是两个或两个以上的单元模块集成在一个单元模块中，可以采用硬件或软件的形式来实现。

本发明实施例还提供一种计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时实现一种基于深度学习和目标跟踪的大输液异物检测方法，其有益效果参见方法部分的有益效果，在此不再赘述。

本发明实施例还提供一种基于深度学习和目标跟踪的大输液异物检测设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，以使所述基于深度学习和目标跟踪的大输液异物检测设备一种基于深度学习和目标跟踪的大输液异物检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详尽的说明，所属领域的普通技术人员应当理解，上述实施例仅仅是对本发明的示意性实现方式的解释，实施例中的细节并不构成对本发明范围的限制，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.一种基于深度学习和目标跟踪的大输液异物检测方法，其特征在于，包括以下步骤：

步骤7：依据噪声与异物目标的运动轨迹差别，基于目标运动轨迹特征，利用贝叶斯原理的自适应分类算法从实时采集的序列图像中所有疑似目标的运动轨迹上区分出异物目标和噪声；

通过CSR-DCF目标跟踪算法对步骤5获得的所有疑似异物目标进行跟踪，具体步骤如下：

步骤6.5：把下一帧作为当前帧，利用跟踪的结果提取当前帧疑似异物目标图像块，重复步骤6.1-步骤6.4，得到每一帧图像中疑似异物目标位置，获得所有疑似异物目标的运动轨迹；

所述通过基于半朴素贝叶斯原理的自适应分类算法从得到的序列图像中疑似目标的运动轨迹上区分出异物目标和噪声；

具体步骤如下：

其中，(x_i，y_i)表示同一疑似异物目标在第i帧中的中心位置坐标；

步骤7.2：计算目标轨迹最大Y坐标差ΔY＝max(Δy_i)得到目标轨迹特征组值(ΔD，ΔY)；

2.根据权利要求1所述的方法，其特征在于，所述对采集的大输液序列图像进行格式转换，裁剪边界干扰区域，过程如下：

3.根据权利要求1所述的方法，其特征在于，所述基于Faster R-CNN深度神经网络的异物位置预测标记模型，在训练前，先载入采用coco数据集上预训练的faster_rcnn_vgg16_coco预训练模型对RPN网络进行初始化，接着将大输液药液历史序列图像的TFRecord文件输入faster_rcnn_vgg16_coco预训练模型，更新faster_rcnn_vgg16_coco预训练模型，利用更新后的faster_rcnn_vgg16_coco预训练模型再次训练RPN网络，获得基于Faster R-CNN深度神经网络的异物位置预测标记模型，其中，所述RPN网络输出异物位置的方框标记anchor box，包括异物所在方框的中心点坐标以及方框的宽和高；

其中，i为训练时为了回归计算及划分样本对异物目标的方框标记anchorbox的索引值，p_i是第i个标记方框anchor box中的目标预测为异物目标的概率，表示第i个标记方框anchor box中是否存在异物目标，取值在白色成像异物目标的正样本时取值为1，黑色背景的负样本时取值为0；N_cls是标准化参数，取值为256；L_cls是分类误差函数，是采用白色成像异物目标与黑色背景非目标的对数损失函数；

4.一种基于深度学习和目标跟踪的大输液异物检测系统，其特征在于，包括：

目标分类模块：依据噪声与异物目标的运动轨迹差别，利用基于半朴素贝叶斯原理的自适应分类算法从实时采集的序列图像中所有疑似目标的运动轨迹上区分出异物目标和噪声；

具体步骤如下：

5.一种计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-3任一项所述的一种基于深度学习和目标跟踪的大输液异物检测方法。

6.一种基于深度学习和目标跟踪的大输液异物检测设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，以使所述基于深度学习和目标跟踪的大输液异物检测设备实现如权利要求1-3任一项所述的一种基于深度学习和目标跟踪的大输液异物检测方法。