CN109165550A

CN109165550A - 一种基于无监督深度学习的多模态手术轨迹快速分割方法

Info

Publication number: CN109165550A
Application number: CN201810771692.8A
Authority: CN
Inventors: 邵振洲; 渠瀛; 谢劼欣; 赵红发; 施智平; 关永; 谈金东; 李贺
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2019-01-08
Anticipated expiration: 2038-07-13
Also published as: CN109165550B

Abstract

本发明公开了一种基于无监督深度学习的多模态手术轨迹快速分割方法，属于机器人辅助微创手术领域。该方法首先针对某机器人辅助微创手术过程，机器人系统采集手术运动学数据和视频数据；然后利用小波变换对运动学数据中的短轨迹噪声和数据抖动进行平滑滤波处理，同时利用DCED‑Net网络结构对视频数据进行特征提取。将平滑滤波处理后的运动学数据和特征提取后的视频数据图像，送入改进的TSC模型中进行聚类，得到n个手术示范的轨迹预分割结果；最后利用PMDD合并算法对每个轨迹预分割结果进行相似合并，合并结果为最终的轨迹分割结果。本发明为过分割等问题提出了优化方案和无监督深度学习，加快了视频特征的提取速度，提高了特征质量，使聚类结果更加精确。

Description

一种基于无监督深度学习的多模态手术轨迹快速分割方法

技术领域

本发明属于机器人辅助微创手术(RMIS)领域，涉及图像特征提取，深度学习聚类，相似性评估等，具体为一种基于无监督深度学习的多模态手术轨迹快速分割方法。

背景技术

在机器人辅助微创手术(RMIS)过程中，手术轨迹由一系列的机器人运动学数据和视频数据来记录。通过对这些手术轨迹进行分割，将手术过程分解成若干个复杂度低的子轨迹(子动作)，可用于医生技能评估和示范学习等。更重要的是，机器人通过学习这些子轨迹，可实现简单任务的自主操作，从而推进机器人手术的自动化。然而，由于手术环境的复杂性和医生的技能水平的差异性，导致即使是医生完成相同的手术动作，其手术轨迹也会在时间和空间上表现出显著的不同。因此，在复杂多变的轨迹数据中快速准确地进行手术轨迹分割是一个非常具有挑战性的任务。

现有的轨迹分割的解决方案，通常是将该问题转化为轨迹段的分割聚类问题，具体的方法可以分为有监督方法和无监督方法两大类。

有监督方法出现较早，其主要思想是从人工标注中学习子轨迹段到预定义轨迹段的匹配关系。典型的有监督方法有文献1：Lin等，机器人辅助手术运动的检测和分割[J].计算机辅助手术.2006,11(5):220-230.该方法的主要问题是随着任务复杂度的增加，系统模型逐渐失去鲁棒性，使得错误概率增高。隐性马尔科夫模型法(HMMs)的提出可以帮助模型适应运动数据的多变性，但由于各种手术任务的HMM状态不同，该方法很难进行扩展，局限性大，如文献2:Reiley等.机器人微创手术的任务与子任务手术技能评估[C]国际医学影像计算和计算机辅助干预大会论文集,2009:435-442。以及文献3：Ahmidi等人使用了描述性曲线编码(DCC).提出了：基于字符串图案的描述的检测机器人手术中技巧和手势探测[C]国际医学影像计算和计算机辅助干预大会论文集,2013:26-33.这两个文章的优点是同时考虑了运动学数据和视频数据进行轨迹分割，但忽略了轨迹段间的上下文信息，导致分割精度降低，实用性差。

以上有监督轨迹分割方法可以在一定程度上解决手术轨迹分割问题，却都存在一个无法规避的难题，必须预先进行人工标注，这一过程往往是十分耗时的，使得轨迹分割效率大大降低。

近年来无监督方法逐步引起了研究者们的关注，如文献4:Sang等利用高斯混合模型 (GMM)进行聚类的轨迹分割方法摆脱了人工标注的限制，提出了用于分割任务的机器人轨迹的自治框架[J]机器人自动化,2015,38(2):107-141.然而分割精度不高。文献5:Krishnan 等,提出了基于转移状态聚类，无监督轨迹分割方法[C]机器人研究国际研讨会论文集 2015.虽然为轨迹分割问题提出了新的解决方案，使得分割准确度得到了提升，但该方法只考虑了运动学数据，导致在复杂任务中的分割稳定性较差。随着机器学习技术的迅猛发展，如文献6：Murali等,基于深度学习的无监督轨迹分割方法[C]机器人和自动化国际会议, 2016:4150-415，基于卷积神经网络(CNN)改进了该算法，利用一个无监督VGG神经网络提取视频数据特征，结合运动学数据进行轨迹分割，提升了分割准确度和效率。

然而，现有的无监督轨迹分割方法仍存在诸多缺陷，首先，视频特征提取过慢是影响医疗轨迹分割的主要问题，如TSC-VGG，其视频特征提取时间占到总分割时间的95％以上，使无监督方法的效率大大降低；其次，提取的视频特征不显著。现有方法提取的视频特征质量差，在轨迹分割中甚至会起负面效果，导致分割稳定性也较差；最后，由于无监督轨迹分割方法本身特性，会导致结果存在过度分割的问题，即表示同一原子操作的分割段被分成了多个，出现了一些分割段“碎片”。

发明内容

为解决以上问题，本发明提出了一种基于无监督深度学习的多模态手术轨迹快速分割方法，首先将对视频数据进行DCED-Net特征提取，对运动学数据进行滤波去噪，而后将数据装入TSC非参混合模型进行聚类，最后对聚类结果做合并后处理。

具体步骤如下：

步骤一、针对某机器人辅助微创手术过程，机器人系统采集手术运动学数据和视频数据。

运动学数据包括：机械手的位置、移动方向、角速度和转折位置等。

视频数据是指一台手术的完整视频记录。

步骤二、利用小波变换对运动学数据中的短轨迹噪声和数据抖动进行平滑滤波处理；

步骤三、同时利用DCED-Net网络结构对视频数据进行特征提取。

DCED-Net网络结构包括Dense Block、传输层和上采样层；

Dense Block由若干个密集连接的卷积层组成，任何一层都直接与后续的所有层相连，主要对视频数据中的图像进行特征提取或特征重构；

针对第ω层，该层接收到它之前所有层的输入表达式如下：

x_ω＝σ_ω([x₀,x₁,x₂,...,x_ω-1])

其中[x₀,x₁,x₂,...,x_ω-1]为卷积层[0,1,2,...,ω-1]所输出的特征图的集合，σ表示复合操作，包含批量标准化和激活函数等。

传输层由卷积层和池化层组成，负责对卷积后的特征图进行特征压缩并降低特征图尺寸；

上采样层则负责将压缩的图像进行图像重构和特征图的尺寸恢复。

步骤四、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像，送入改进的TSC 模型中进行聚类，得到n个手术示范的轨迹预分割结果；

具体步骤如下：

步骤401、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像组成手术示范集合；

手术示范集合D包括n个不同的医生所作的同一个动作，元素为Di，i∈1,2,..,n；每个元素Di都是由相对应视频数据和运动学数据组成；

步骤402、采用留一法分组，将手术示范集合D拆分成n组；

针对n个手术示范，去除某手术示范Di，将剩余的n-1个示范作为一个分组；以此类推，共得到n个分组，每个分组中都缺少一个手术示范。

步骤403、针对去除手术示范Di后的组，将该组中的各手术示范投入TSC模型进行数据拼接；

数据拼接具体为：

首先，将去除手术示范Di后的n-1手术示范进行横向拼接：使所有的运动学特征成为一个整体k(t)；所有的视频特征成为一个整体v(t)；而后，进行竖向拼接：将运动学特征和视频特征以帧对齐的方式进行拼接，得到一组新的扩展数据

在数据拼接的过程中，用权重比值ψ表示运动学数据和视频数据所占的权重比。

步骤404、将拼接后的扩展数据x(t)，运动学数据k(t)和视频数据v(t)分别通过DPGMM 进行聚类，得到三组聚类结果，合并成一个转移状态集合T；

转移状态集合T由T_x，T_k和T_v组成；集合T中的各元素为转移点，在时间序列帧对齐。

步骤405、针对转移状态集合T，按照时间序列依次读取每一帧，将每帧对应的三组转移点的值，根据真值表进行修正，得到转移点集合Tc。

修正准则为：将T_x，T_k和T_v三组结果根据真值表进行修正，1代表该帧上有转移点，0代表没有，得到转移点的集合T_c；

真值表如下：

步骤406、沿时间序列以步长λ对转移点集合Tc进行遍历，将一个步长内存在的若干转移点中，只保留首个转移点，将其他重复的转移点合并移除。

步骤407、将去冗余的转移点集合Tc在视频域进行DPGMM聚类，得到转移状态类集合 Θ；

转移状态类集合Θ中包括若干类元素，每个类元素中包含若干个转移点，每一个转移点分别属于一个手术示范；多个转移点可以属于同一个手术示范。

步骤408、基于简单多数原则对转移状态类集合Θ进行类修剪，得到修剪后的类集合Θ*；

修剪规则如下：

针对转移状态类集合Θ中的某个类元素Θj，j∈1,2,..,m；判断该类Θj中的各个转移点所属于的手术示范的个数是否大于等于(n-1)/2，如果是，则将该类元素Θj保留，否则舍弃；

步骤409、将修剪后类集合Θ*在运动学域进行DPGMM再次聚类，得到聚类结果C；

步骤410、利用聚类结果C对去冗余的转移点集合Tc进行修剪；

修剪规则如下：

判断转移点集合Tc中的转移点P1是否属于聚类结果C中的任何一个类，如果是，则表明聚类结果C中有P1这个转移点，则保留转移点集合Tc中的转移点P1；否则，转移点P1不属于聚类结果C中的任何一个类，则修剪掉转移点集合Tc中的转移点P1。

聚类结果C中某个类的点一定包含在转移点集合Tc中，转移点集合Tc中的点不一定包含在聚类结果C中。

步骤411、将修剪后的转移点集合Tc进行拆分，得到拆分集合Φi'；

拆分集合Φi'＝{Φ1，Φ2，…Φi-1，Φi+1，…Φn}。

拆分集合Φi'中的各个元素与去除了手术示范Di后的剩余n-1个手术示范，分别一一对应；

步骤412、同理，将其余包含手术示范Di的n-1个分组，得到拆分集合Φ1'，Φ2'，…Φi-1'， Φi+1'，…Φn'；

Φ1'＝{Φ2，Φ3，…Φi，…Φn}；

Φ2'＝{Φ1，Φ3，…Φi，…Φn}；

…

Φi-1'＝{Φ1，Φ2，…Φi-2，…Φi，…Φn}；

Φi+1'＝{Φ1，Φ2，…Φi，…Φi+2，…Φn}；

…

Φn'＝{Φ1，Φ2，…Φi，…Φn-1}；

步骤413、针对某个手术示范Di，将包含Di的n-1个拆分集合中的元素Φi进行DP-GMM 聚类，得到最终的转移状态集合Φi*。

步骤414、依据Φi*中的转移点，对手术示范Di进行轨迹分割，同理得到n个手术示范的轨迹预分割结果。

步骤五、利用PMDD合并算法对每个轨迹预分割结果进行相似合并，合并结果为最终的轨迹分割结果。

具体步骤如下：

步骤501、针对某个手术示范的轨迹预分割结果，计算PMDD合并算法中衡量分割段间相似性的四个关键要素；

四个关键要素是指PCA(Principal Component Analysis，主成分分析)、MI(Mutual Information，互信息)、DCD(Data Center Distance不同分割段数据中心之间的距离)和DTW (Dynamic Time Warping，动态时间规整)。

首先，PCA用于衡量两个分割段之间的内在联系和结构相似性。

针对该手术示范的轨迹预分割结果，其中两个分割段S_a和S_b，PCA相似性SM_PCA(S_a,S_b) 由以下公式计算：

_q为正交变换后主成分的个数。

MI用于确定两个分割段在变化趋势上是否相似。

针对两个分割段S_a和S_b，互信息SM_MI(S_a,S_b)由以下公式计算：

SM_MI(S_a,S_b)＝H(S_a,S_b)-H(S_a)-H(S_b)

H(S_a,S_b)为两个分割段S_a和S_b的联合熵；H(S_a)为分割段S_a的信息熵；H(S_b)为分割段S_b的信息熵；

DCD用于评估两个分割段在空间上的相似性；

针对两个分割段S_a和S_b的数据中心距离SM_DCD(S_a,S_b)求解公式如下所示：

SM_DCD(S_a,S_b)＝||μ_a-μ_b||

μ_a为分割段S_a的平均向量；μ_b为分割段S_b的平均向量，向量中的每个元素都表示在时间域上的一个均值。

DTW通过把序列在时间域上进行延伸和缩短来评估两个序列的相似性；

分割段S_a和S_b的DTW相似性计算公式如下：

w_k为规整路径中的第k个元素，K主要针对不同的规整路径进行补偿，由最小代价路径的步数决定，最小代价路径可以通过累加距离γ(i,j)的迭代求和进行求解。其过程可由以以下公式表述：

其中，d(q_m，c_n)表示点q_m和c_n之间的欧氏距离。

步骤502、将四个评价指标PMDD的取值分别看作四个模糊集合，为每个集合定义其隶属度函数，并得到对应的四个相似性；

通过四个隶属度函数分别得到两个分割段之间的内在联系和结构相似性Y_PCA，在变化趋势上的相似性Y_MI，在空间上的相似性Y_DCD和DTW相似性Y_DTW；

步骤503、利用四个隶属度函数对应的相似性计算最终相似度度量O_(a，b)；

步骤504、针对轨迹预分割结果S，分别计算每两个相邻分割段之间的O_(a,b)，得到一组分割段间的相似度度量结果的集合O{O_1,2,O_2,3,…,O_n-1,n}；

步骤505、合并相似度度量集合O中最大的两个分割段，并更新相似度度量集合O；

步骤506、继续迭代合并相似度最高的两个分割段，直到集合中O的所有O_(a,b)都小于阈值τ。

阈值τ为人为定义的合并阈值。

步骤507、集合O中保留的结果即为最终轨迹分割结果。

本发明的优点在于：

1)、一种基于无监督深度学习的多模态手术轨迹快速分割方法，设计了DCED-Net特征提取网络，加快了视频特征的提取速度，提高了特征质量。

2)、一种基于无监督深度学习的多模态手术轨迹快速分割方法，改进了TSC聚类模型，削减了冗余转移点，使得聚类结果更加精确。

3)、一种基于无监督深度学习的多模态手术轨迹快速分割方法，设计了基于PMDD的后处理方法，为过分割等问题提出了一种优化方案。

附图说明

图1为本发明一种基于无监督深度学习的多模态手术轨迹快速分割方法的原理图；

图2为本发明一种基于无监督深度学习的多模态手术轨迹快速分割方法的流程图；

图3为本发明采用的DCED-Net网络结构图；

图4为本发明采用的DCED-Net网络和传统SCAE提取的特征效果对比图；

图5为本发明TSC聚类得到n个手术示范的轨迹预分割结果的原理图；

图6为本发明在TSC模型中采用留一法分组进行聚类的流程图；

图7为本发明拆分集合中Φi'与去除了手术示范Di后的组之间的对应关系示意图；

图8为本发明4个拆分集合中的转移点聚类得到预分割结果的示意图；

图9为本发明利用PMDD对每个轨迹预分割结果合并得到轨迹分割结果的流程图。

图10为本发明PMDD合并算法中数据中心距离示意图；

图11为本发明采用隶属度函数计算相似性的示意图；

图12为本发明真实标记以及合并前和合并后的预分割结果示意图。

图13为本发明TSC-DCED–Net和主流的手术轨迹分割聚类算法的分割准确率对比图。

具体实施方式

下面将结合附图对本发明作进一步的详细说明。

本发明一种基于无监督深度学习的多模态手术轨迹快速分割方法，如图1所示，首先，针对机器人系统采集的视频数据进行特征提取，设计了密集连接卷积编码—解码特征提取的 DCED-Net网络结构，该网络结构压缩了编码—解码，让特征图像信息能尽可能的向后传播，减少降维所带来的信息提前丢失；同时，针对机器人系统采集的手术运动学数据，利用小波变换进行滤波去噪处理；然后，将数据装入改进了的TSC层次化非参聚类模型，引入了基于三次聚类结果的真值判定策略，有效的削减了冗余转移点，提高了分割准确率；最后，针对过度分割的问题，提出了一种基于主成分分析PCA、互信息MI、数据中心距离DCD和动态时间规整DTW的后处理合并算法PMDD，该算法首先读取预分割结果，然后通过对分割段之间的相似性评估，将相似度高的分割段进行迭代合并，从而减少分割段碎片，提高分割准确度。

具体步骤如图2所示，如下：

视频数据是指一台手术的完整视频记录。

手术轨迹的视频记录通常会持续数个小时，如果采用有监督方法进行特征提取，其人工标注的工作量会异常巨大，训练的模型对新数据的适应性也较差，传统无监督特征提取网络又无法有效地提取视频特征。

为高效准确地进行视频特征提取，本发明设计了一种无监督的密集连接网络DCED-Net(Dense Convolutional Encoder Decoder Network)特征提取网络；如图3所示，具体包括 Dense Block、传输层和上采样层三个关键组件；该网络前半部分为编码器，由3个传输层和 2个Dense Block依次串接组成，主要进行特征提取操作；网络中间的特征输出是用于分割手术轨迹的视频数据，能在较低的维度下尽可能完整的携带原始图像的信息；网络后半段为解码器，与编码部分对应，由3个上采样层和2个Dense Block组成，任务是进行图像重构，网络通过减小输入图像和重构图像之间的差异进行训练。

针对Dense Block的第ω层，该层接收到它之前所有层的输入表达式如下：

x_ω＝σ_ω([x₀,x₁,x₂,...,x_ω-1]) (1)

在以往的实验中，视频特征的质量越好，轨迹分割的准确率也会越高，而导致传统无监督方法提取的特征图质量不高的主要原因是：在降维过程中损失了过多的图像信息，神经网络获取的信息越完整，其训练效果也就越好。为将每一层的信息尽可能的向后传递，本发明在Dense Block采用4个密集连接的卷积层组成，任何一层都直接与后续的所有层相连，主要对视频数据中的图像进行特征提取或特征重构；每层生成特征图的尺寸相同，特征图增长率设定为6，网络各层的具体配置参数见表1所示。

表1

本实施例中，DCED-Net的每个卷积层只产生6张特征图，但由于密集连接设定的存在，在层数较多时，卷积层需要处理的特征图数量也较大，为此，在每个3×3卷积层之前使用一个1×1的卷积层作为输入瓶颈，降低输入特征图的数量，提高计算效率。因此，DenseBlock 的整体结构可以描述为BN-Sigmoid-Conv(1×1)-BN-Sigmoid-Conv(3×3)，其中BN为批量标准化，Conv代表卷积层。

网络训练策略为最小化均方误差，优化策略采用Adam。本发明选取Sigmoid作为神经网络的激活函数，Sigmoid能有效压缩数据，适用于前向传播，其缺点为容易出现梯度消失的问题，而采用的Dense Block结构将梯度信息尽可能的传递给后续网络，有效的平衡了这一缺陷，实验中也表明在众多激活函数中Sigmoid有更好的表现。

在Dense Block中，需要保证每个特征图的大小一致以建立卷积层之间的连接关系，而进行特征提取的目的是降低特征图尺寸，提取有效图像信息进行轨迹分割。因此，本发明在编码器中每个Dense Block之后加入了一个传输层，传输层由一个1×1的卷积层和一个4×4的池化层组成，负责对卷积后的特征图进行特征压缩降低特征图尺寸，同时降低计算代价。

DCED-Net网络的训练需要将特征提取后的图像重构恢复，与原始图像进行重建误差分析。为此，在解码器中，本发明加入了上采样层负责将压缩的图像进行图像重构和特征图的尺寸恢复，为防止传统转置卷积所带来的棋盘效应，本发明采用双线性插值上采样，尽可能准确地恢复图像信息。

相较于传统特征提取网络，DCED-Net易于训练、能充分利用输入图像信息。使用DCED -Net和传统SCAE进行手术轨迹数据视频特征提取解码重构的结果，如图4所示，可以看出采用DCED-Net能达到更好的训练效果。

以往TSC转移状态模型的主要缺陷是转移点的识别不够精确，有些转移点没能被正确的识别，但更普遍的情况是大量的转移点被误判识别，这也是导致基于TSC模型的聚类算法出现过分割现象的本质原因。为解决这一问题，本发明改进了原始的TSC聚类模型，在转移点的识别过程中引入了基于三次聚类结果的真值判定，有效地提高了转移点识别的精度，从而提高了分割准确度。

改进后模型的一次聚类—修剪过程，如图5所示，将n个不同医生的动作相同的手术示范D投入TSC模型，每一个手术示范Di(i∈1,2,..,n)都由相对应视频数据和运动学数据组成；首先将Di进行横向拼接，得到k(t)和v(t)，而后，以帧对齐的方式进行竖向拼接，得到分别通过DPGMM进行聚类，得到三组聚类结果的集合T，即分别通过三组数据识别出的转移点，在时间序列帧对齐。

接下来对这三组转移点集合基于真值表进行修正，依次读取每一帧所对应的三组转移点的值，根据真值表进行判定，得到转移点集合Tc。

为进一步减少过度分割，需要削减冗余的转移点，转移点的识别可能存在重复，真实标记中的一个转移点聚类后可能在连续的帧中被识别了多次。为此需要一种合并策略，沿时间序列以步长λ对Tc进行遍历，在一个步长内如果存在多个转移点，则只保留首个转移点，将其他转移点合并移除。经过修正的转移点集合Tc中同时包含了运动学特征和视频特征，将两者拆分，然后在视频域通过DPGMM对Tc进行聚类，得到转移状态类集合Θ，其中每一个类Θi都包含若干个转移点，基于简单多数原则对Θ进行类修剪，修剪后的类集合记做Θi*。最后，将Θi*在运动学空间通过DPGMM再次聚类，得到聚类结果Cj(j∈1,2,..,m)。利用Cj 对转移点集合Tc进行修剪，如果一个转移点属于不属于任何一个类，则将其修剪。将修剪后的结果进行拆分，得到与示范Di相对应的转移点集合Φi。

具体步骤如图6所示，如下：

步骤402、采用留一法分组，将手术示范集合D拆分成n组；

数据拼接具体为：

首先，将去除手术示范Di后的n-1手术示范进行横向拼接，(保留各自的归属信息)：使所有的运动学特征成为一个整体k(t)；所有的视频特征成为一个整体v(t)；而后，进行竖向拼接：将运动学特征和视频特征以帧对齐的方式进行拼接，得到一组新的扩展数据

真值表如下：

步骤408、基于简单多数原则对转移状态类集合Θ进行类修剪，得到修剪后的类集合Θj*；

修剪规则如下：

步骤409、将修剪后类集合Θj*在运动学域进行DPGMM再次聚类，得到聚类结果Cj；

步骤410、利用聚类结果Cj对去冗余的转移点集合Tc进行修剪；

修剪规则如下：

判断转移点集合Tc中的转移点P1是否属于聚类结果Cj中的任何一个类，如果是，则表明聚类结果Cj中有P1这个转移点，则保留转移点集合Tc中的转移点P1；否则，转移点P1 不属于聚类结果Cj中的任何一个类，则修剪掉转移点集合Tc中的转移点P1。

聚类结果Cj中某个类的点一定包含在转移点集合Tc中，转移点集合Tc中的点不一定包含在聚类结果Cj中。

如图7所示，拆分集合Φi'＝{Φ1，Φ2，…Φi-1，Φi+1，…Φn}。

步骤412、同理，将包含手术示范Di的n-1个分组，得到拆分集合Φ1'，Φ2'，…Φi-1'， Φi+1'，…Φn'；

Φ1'＝{Φ2，Φ3，…Φi，…Φn}；

Φ2'＝{Φ1，Φ3，…Φi，…Φn}；

…

Φi-1'＝{Φ1，Φ2，…Φi-2，…Φi，…Φn}；

Φi+1'＝{Φ1，Φ2，…Φi，…Φi+2，…Φn}；

…

Φn'＝{Φ1，Φ2，…Φi，…Φn-1}；

步骤413、针对某个手术示范Di，将包含Di的n-1个拆分集合中的元素Φi进行DP-GMM 聚类，得到最终的转移状态集合Φi*；

采用留一法进行循环聚类的好处是可以充分的利用每一组数据，并将偶发性因素的影响降至最低。图8所示，automatic1、automatic2等就是Φi的结果，这里只画出了4个，实际共 n-1个，其结果本质上就是一堆的转移点，在图中为一个个的黑色竖线，对它们进行最后一次聚类可以得到Φi*，也就是图中Clustering，最上面的那组竖线，最后依据这组竖线对轨迹进行分割，可以得到预分割结果，认为有线的地方就是分割点。

大多数的无监督分割方法都存在过度分割的问题，为了将错误分割的子轨迹段合并到正确的位置上，需要一个标准来衡量哪些子轨迹段是高度相似的，需要合并处理。通过对轨迹段的深入观察，除去在时间域和空间域上的显性要素之外，内部结构，变化节点和运动趋势等隐性要素也是评估轨迹段间相似性的重要依据。通过对诸多要素的综合考虑，本发明提出了基于PMDD的后处理合并算法，如图9所示，具体步骤如下：

用于衡量分割段间相似性的四个关键要素是指PCA(Principal ComponentAnalysis，主成分分析)、MI(Mutual Information，互信息)、DCD(Data Center Distance不同分割段数据中心之间的距离)和DTW(Dynamic Time Warping，动态时间规整)；基于以上四个要素，本发明利用一种模糊控制策略来实现轨迹段间的合并后处理。

首先，主成分分析PCA利用统计学原理进行多变量分析，在手术轨迹分割任务中，轨迹数据中的诸多变量使得该问题的求解复杂度大大增加。然而，这些变量间往往并不是独立的，而是有一定的信息重叠。通过正交变换，将可能存在相关性的一组原始变量转换为一组线性不相关的变量进行降维，这些转换后的变量称为主成分，这些主成分尽可能的保留了原轨迹数据中的各方面信息。

以往的研究中已经证明了PCA用于衡量分割段之间相似度的可行性。在本发明中，PCA 用于衡量两个分割段之间的内在联系和结构相似性；假设有两个分割段S_a和S_b，通过PCA 算法可以求得S_a和S_b中最具代表性的若干主成分，这些主成分组成了一个子空间，而后计算两个子空间的夹角，夹角越小，说明两个分割段之间的内在联系越强。针对该手术示范的轨迹预分割结果，其中两个分割段PCA相似性SM_PCA(S_a,S_b)由以下公式计算：

q为正交变换后主成分的个数。

在手术中，手术轨迹是一个连续的过程，因而属于同一个手术动作的分割段在数据变化趋势上应是相似的，信息熵可以用来度量特定变量的不确定性。本发明选取互信息来衡量轨迹段之间的变化相似性，互信息的本质是一种广泛的相对熵，用来表征一个随机变量随另一个随机变量的改变而产生变化的不确定性。因而可以通过计算两个子轨迹的MI来确定两者在变化趋势上是否相似。

SM_MI(S_a,S_b)＝H(S_a,S_b)-H(S_a)-H(S_b)

手术轨迹的每个时间切片都是由若干维度确定的运动学数据组成的，一个分割段可以看作是一定时间长度中相同维度数据的集合，这些数据反映了分割段的空间特性(包括位置、加速度、角速度等)。通过计算不同分割段数据中心之间的距离(DCD)，可以评估它们在空间上的相似性。分割段间的数据中心距离示意图如图10所示，

SM_DCD(S_a,S_b)＝||μ_a-μ_b||

在手术中，通过重复相同的动作来完成某项手术任务是十分常见的情况，然而由于医生的手术技能差异，相同的手术动作可能会呈现不同表现的形式，比较典型的一类就是空间域中相同动作的时间域差异。为了将具有这种特征分割段有效地识别出来，引入了动态时间规整DTW。

在时间域中，需要对比相似性的两段序列的时间长度可能并不相等，在这种情况下使用传统的欧式距离无法有效地表示两个序列之间相似性。DTW通过把序列在时间域上进行延伸和缩短来评估两个序列的相似性。将两个序列进行动态规整的规整路径有很多条，求解规整代价最小的路径是求解两个序列DTW相似性的关键。

分割段S_a和S_b的DTW相似性计算公式如下：

w_k为规整路径中的第k个元素，K主要针对不同的规整路径进行补偿，由最小代价路径的步数决定，最小代价路径可以通过累加距离γ(m,n)的迭代求和进行求解。其过程可由以以下公式表述：

其中，d(q_m，c_n)表示点q_m和c_n之间的欧氏距离。

以上四个指标分别从不同方面反映轨迹段间的相似性，它们以不同的方法定义，其量纲也各不相同，对于SM_PCA、SM_DCD和SM_DTW，它们的值越小，说明两个分割段的相似性越高，而 SM_MI的值与分割段间的相似性成正相关。轨迹段是否需要进行合并处理则需要综合考虑四个要素的影响，而非单一的指标判定。为此，引入了模糊控制策略，将四个评价指标PMDD的取值分别看作四个模糊集合，为每个集合定义其隶属度函数，通过四个隶属度函数分别得到两个分割段之间的内在联系和结构相似性Y_PCA，在变化趋势上的相似性Y_MI，在空间上的相似性Y_DCD和DTW相似性Y_DTW；

本发明使用三角形隶属度函数，如图11所示，图中关键节点β(1),β(2),β(3),β(4)的值由以下公式计算：

步骤503、利用四个隶属度函数对应的相似性计算最终相似度度量O_(a,b)；

阈值τ为人为定义的合并阈值，本发明中τ取0.74。

步骤507、集合O中保留的结果即为最终轨迹分割结果。

合并处理前后的预分割结果如图12所示，从结果上看合并后的结果略好于合并前。

实施例：

采用的数据集为约翰斯·霍普金斯大学(Johns Hopkins University)所公布的JIGSAWS数据集，包含手术数据和人工标注两部分。该数据集采集自达芬奇医疗机器人系统，分为运动学数据和视频数据。运动学数据和视频数据的采样频率都是30Hz，数据集共包含3个任务，穿针(NP)，缝合(SU)和打结(KT)，分别由技能水平不同的医生进行手术和注释。实验中，发现数据集的运动学数据存在少量的段轨迹噪声和数据抖动现象，因而利用小波变换对运动学数据进行了平滑处理后进行再进行轨迹分割。

选取JIGSAWS数据集的一个子集进行验证，包含穿针和缝合两个任务。每个手术任务包含11组示范，分别来自5位专家(E)，3个中级专家(I)，3个非专家(N)。本实验的机器配置见表2。

表2

采用主流的手术轨迹分割聚类算法——GMM、TSC-K、TSC-VGG、TSC-SIFT和本发明TSC-DCED-Net分别对数据集进行轨迹分割，如图13所示，通过比较不同方法的分割准确率(seg-acc)和总体运行时间，验证本发明轨迹分割方法的准确度和有效性，如表3所示：

表3

如表3所示，在诸多手术轨迹分割聚类方法中，本发明提出的TSC-DCED-Net方法达到了最优的分割准确度，较之其他方法提升了4.2％-26.1％。同时，各个方法的运行时间对比如表4所示，本方法较同样使用视频数据和运动学数据进行轨迹分割的方法(FE+CS)速度提升了6倍以上。

表4

将所提出的后处理合并算法用于当下主流的轨迹分割算法，合并处理前和处理后的分割准确度结果对比如表5所示：

表5

可以看出大多数的方法的经过合并后分割准确度都提升了10％左右，说明本方法有较强的通用性。

Claims

1.一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，具体步骤如下：

步骤一、针对某机器人辅助微创手术过程，机器人系统采集手术运动学数据和视频数据；

步骤三、同时利用DCED-Net网络结构对视频数据进行特征提取；

DCED-Net网络结构包括Dense Block、传输层和上采样层；

步骤四、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像，送入改进的TSC模型中进行聚类，得到n个手术示范的轨迹预分割结果；

具体步骤如下：

步骤402、采用留一法分组，将手术示范集合D拆分成n组；

针对n个手术示范，去除某手术示范Di，将剩余的n-1个示范作为一个分组；以此类推，共得到n个分组，每个分组中都缺少一个手术示范；

步骤404、将拼接后的扩展数据x(t)，运动学数据k(t)和视频数据v(t)分别通过DPGMM进行聚类，得到三组聚类结果，合并成一个转移状态集合T；

转移状态集合T由T_x，T_k和T_v组成；集合T中的各元素为转移点，在时间序列帧对齐；

步骤405、针对转移状态集合T，按照时间序列依次读取每一帧，将每帧对应的三组转移点的值，根据真值表进行修正，得到转移点集合Tc；

真值表如下：

步骤406、沿时间序列以步长λ对转移点集合Tc进行遍历，将一个步长内存在的若干转移点中，只保留首个转移点，将其他重复的转移点合并移除；

步骤407、将去冗余的转移点集合Tc在视频域进行DPGMM聚类，得到转移状态类集合Θ；

修剪规则如下：

步骤410、利用聚类结果C对去冗余的转移点集合Tc进行修剪；

修剪规则如下：

判断转移点集合Tc中的转移点P1是否属于聚类结果C中的任何一个类，如果是，则表明聚类结果C中有P1这个转移点，则保留转移点集合Tc中的转移点P1；否则，转移点P1不属于聚类结果C中的任何一个类，则修剪掉转移点集合Tc中的转移点P1；

聚类结果C中某个类的点一定包含在转移点集合Tc中，转移点集合Tc中的点不一定包含在聚类结果C中；

拆分集合Φi'＝{Φ1，Φ2，…Φi-1，Φi+1，…Φn}；

步骤412、同理，将其余包含手术示范Di的n-1个分组，得到拆分集合Φ1'，Φ2'，…Φi-1'，Φi+1'，…Φn'；

Φ1'＝{Φ2，Φ3，…Φi，…Φn}；

Φ2'＝{Φ1，Φ3，…Φi，…Φn}；

…

Φi-1'＝{Φ1，Φ2，…Φi-2，…Φi，…Φn}；

Φi+1'＝{Φ1，Φ2，…Φi，…Φi+2，…Φn}；

…

Φn'＝{Φ1，Φ2，…Φi，…Φn-1}；

步骤413、针对某个手术示范Di，将包含Di的n-1个拆分集合中的元素Φi进行DP-GMM聚类，得到最终的转移状态集合Φi*；

步骤414、依据Φi*中的转移点，对手术示范Di进行轨迹分割，同理得到n个手术示范的轨迹预分割结果；

2.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，步骤一中所述的运动学数据包括：机械手的位置、移动方向、角速度和转折位置；视频数据是指一台手术的完整视频记录。

3.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，步骤三中所述的Dense Block由若干个密集连接的卷积层组成，任何一层都直接与后续的所有层相连，主要对视频数据中的图像进行特征提取或特征重构；

针对第ω层，该层接收到它之前所有层的输入表达式如下：

x_ω＝σ_ω([x₀,x₁,x₂,...,x_ω-1])

其中[x₀,x₁,x₂,...,x_ω-1]为卷积层[0,1,2,...,ω-1]所输出的特征图的集合，σ表示复合操作，包含批量标准化和激活函数；

4.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，步骤403中所述的数据拼接具体为：

5.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，步骤405中所述的修正准则为：将T_x，T_k和T_v三组结果根据真值表进行修正，1代表该帧上有转移点，0代表没有，得到转移点的集合T_c。

6.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，步骤407中所述的转移状态类集合Θ中包括若干类元素，每个类元素中包含若干个转移点，每一个转移点分别属于一个手术示范；多个转移点属于同一个手术示范。

7.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法，其特征在于，所述的步骤五具体步骤如下：

四个关键要素是指PCA、MI、DCD和DTW；

首先，PCA用于衡量两个分割段之间的内在联系和结构相似性；

针对该手术示范的轨迹预分割结果，其中两个分割段S_a和S_b，PCA相似性SM_PCA(S_a,S_b)由以下公式计算：

q为正交变换后主成分的个数；

MI用于确定两个分割段在变化趋势上是否相似；

SM_MI(S_a,S_b)＝H(S_a,S_b)-H(S_a)-H(S_b)

DCD用于评估两个分割段在空间上的相似性；

SM_DCD(S_a,S_b)＝||μ_a-μ_b||

μ_a为分割段S_a的平均向量；μ_b为分割段S_b的平均向量，向量中的每个元素都表示在时间域上的一个均值；

分割段S_a和S_b的DTW相似性计算公式如下：

w_k为规整路径中的第k个元素，K主要针对不同的规整路径进行补偿，由最小代价路径的步数决定，最小代价路径通过累加距离γ(i,j)的迭代求和进行求解；其过程由以以下公式表述：

其中，d(q_m,c_n)表示点q_m和c_n之间的欧氏距离；

步骤506、继续迭代合并相似度最高的两个分割段，直到集合中O的所有O_(a,b)都小于阈值τ；

步骤507、集合O中保留的结果即为最终轨迹分割结果。