CN111814741B

CN111814741B - 一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法

Info

Publication number: CN111814741B
Application number: CN202010740663.2A
Authority: CN
Inventors: 蒲逊; 杨波; 汪燕; 邓唐; 樊伟; 牛新征; 肖凌云; 梅克进; 叶志佳
Original assignee: Sichuan Communication Scientific Research Planning And Design Co ltd; University of Electronic Science and Technology of China; West China Second University Hospital of Sichuan University
Current assignee: Sichuan Communication Scientific Research Planning And Design Co ltd; University of Electronic Science and Technology of China; West China Second University Hospital of Sichuan University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-04-08
Anticipated expiration: 2040-07-28
Also published as: CN111814741A

Abstract

本发明涉及信息技术领域，提供了一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法，主旨在于解决因胚胎原核或卵裂球间互相遮挡而导致其漏检的问题，主要方案包括用于从原始图像中切割胚胎主体部分的主体分割网络；结合残差结构的CNN特征抽取层；初步生成并修正目标候选框的RPN网络；精细化由RPN网络预测出的目标候选框坐标的坐标精细化单元；筛选冗余目标候选框的改进Soft‑NMS算法；强化核心通道的特征以及目标遮挡部分特征表达的遮挡得分网络；识别精细候选框内目标具体类别的分类网络以及目标数目的数目预测网络。

Description

一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法

技术领域

本发明涉及胚胎原核期和卵裂期自动检测领域，具体来说是一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法。

技术背景

随着现代医疗水平的飞速发展，以及对胚胎发育机理研究的不断深入，体外受精-胚胎移植技术愈发趋于成熟，与此同时胚胎移植的需求量也大大增加。为了提高胚胎的利用率，为不孕不育症患者提供更多更高的机会，原核的检测极为重要。原核期和卵裂期基本决定了一个胚胎是否可以用于移植。医生需要每天将胚胎从培养环境中取出观察，记录观测结果，平均每天需要观察上百个胚胎，严重依赖医院的人力资源，并且整个流程全靠人工实现，整体工作效率较为低下；另一方面，现有卵泡监测方式为容积探头，存在探头无法全方位拍摄、原核之间相互遮挡的问题。并且在卵裂期细胞产生了分裂，此时存在多个细胞共存的情况，在这个时期，每个细胞之间存在遮挡，每个细胞中的原核也存在相互遮挡，又因为每个细胞中是否存在原核和原核个数对一个胚胎的影响极大，因此在这两个时期检测原核数目极为重要。但传统的人工观察胚胎特征，已经无法满足当前日益增长的胚胎移植需求。为了提升胚胎移植的工作效率以及医生资源的利用率，准确、高效地识别胚胎形态学特征，为胚胎质量评估提供准确数据，有效地胚胎移植提供辅助决策，一种能够在遮挡条件下对胚胎原核期和卵裂期原核自动、准确检测的胚胎原核检测方法就显得尤为重要。

现有技术：在基于图像数据分析的胚胎检测方面，申请号为CN201610325368.4、名称为“一种基于细胞运动信息和灰度特性的胚胎分裂检测方法”的发明专利公开了一种胚胎分裂检测方法，该发明属于胚胎分裂自动检测领域，其中的胚胎自动检测方法主要思路如下：该发明提供了一种胚胎分裂自动检测领域的基于细胞运动信息和灰度特性的胚胎分裂检测方法，从胚胎影像中提取图像序列后,首先利用胚眙细胞的运动信息进行分裂期检测,根据检测得到的分裂期，可以计算出细胞的分裂次数和各稳定期时间,然后利用灰度特性,检测第一个稳定期内原核的个数以及存在时间，结合灰度特性和分裂期,对胚胎的发育状况作出评估。该检测方法利用胚胎细胞的运动信息和灰度特性,对胚胎原核进行检测。

现有技术缺陷：虽然上述技术方法考虑到传统的变化检测方法如差值法、K-T变换等方法抗干扰能力差、适用范围小的缺陷，通过相邻帧图像的像素的对应关系，计算胚胎内部的运动信息,用来衡量胚胎内部的变化程度,进而确定胚胎分裂期，并利用了原核和细胞本身的灰度特性,克服了光照、运动等干扰因素的影响。但是，由于培养过程中，极易出现细胞分泌物等杂质且探头无法全方位拍摄，卵裂球与卵裂球之间和原核与原核之间也极易发生遮挡，上述方法并没有考虑到培养基液中杂质(如：气泡)的遮挡影响以及原核和卵裂球之间的遮挡问题，在这些情况下，其检测方法并不适用。

发明内容

本发明的目的在于解决(1)因胚胎主体或培养基液中存在与原核或卵裂球及其相似的气泡等杂质进而导致其误检的问题；(2)因胚胎原核或卵裂球间互相遮挡而导致其漏检的问题，

本发明为解决上述技术问题，采用以下技术方案：

一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法,包括训练阶段和是被阶段；

训练阶段

步骤A1、对胚胎图像进行预处理，将胚胎主体从图像中分割出来,进而获得训练样本；

步骤A2、将训练样本，即胚胎主体图像输入CNN特征提取层抽取完整图像特征；

步骤A3、数目预测分支基于步骤A2中得到的完整图像特征，在经过卷积层后直接预测识别原核、卵裂球目标的数目，进而计算该预测数目与真实目标数目之间的数目损失函数

其中p_num和g_num分别代表预测的目标数目以及真实的目标数目，两者偏差越大，数目损失值越大；

步骤A4、采用预定义的宽高比和大小的锚对分割后获得的胚胎主体样本进行区域生成网络RPN处理，该网络以步骤A2中CNN特征提取层抽取的完整图像特征作为输入，得到原核或者卵裂球的可能的位置的预估候选框，预估候选框由包含目标的概率以及坐标表示，同时计算预测目标概率以及候选框坐标与真实标签的偏差进而计算RPN网络损失函数

其中p_i和p_i′分别表示候选框是否包含目标的真实值以及预测候选框包含目标的概率；t_i和t_i′分别表示真实候选框的坐标以及预测候选框的坐标，坐标由中心点位置以及候选框宽、高组成(x,y,w,h)；L_cls和L_reg分别代表用于计算分类任务以及回归任务的损失函数，根据损失函数公式可得偏差越大，基于偏差计算的损失函数值将会越大；

步骤A5、选取包含目标概率最大的预估候选框作为抑制框，记为b_M，其目标概率得分记为M；

步骤A6、求得当前候选框b_i针对当前抑制框的置信度因子t_i:

步骤7、基于IOU计算当前候选框b_i在当前抑制框条件下的置信得分T_i；

当候选框b_i与抑制框b_M重叠很大时，IOU(b_M,b_i)越大，因此T_i越小，使得该候选框能够得到最大化的保留；

步骤A8、如置信得分大于阈值，则筛除当前候选框b_i，对所有候选框进行筛除，直到没有候选框可以筛除，得到低冗余候选框集；

步骤A9、将低冗余候选框集输入坐标精细化单元，得到原核或者卵裂球精确位置的精细候选框，同时计算精细化后候选框坐标与候选框真实坐标之间的偏差进而得到精细化单元损失函数

其中k表示输入坐标精细化单元的候选框数目；g_x,g_y,g_h,g_w分别表示真实候选框的中心坐标以及宽和高，可以发现预测的候选框坐标与真实候选框坐标偏差越大，损失函数值越大，此时证明模型参数尚有欠缺；

步骤A10、将精细候选框分为8个区域(矩形的精细候选框的2条对角线和两条中心线将精细候选框分为8个区域。)并使用最大池化操作对每个部分的特征维度进行统一，每个区域均得到一个固定大小的区域特征图；

步骤A11、并列执行以下步骤：

步骤A11.1、使用遮挡得分网络在得到的区域特征图上预测各通道对应的注意力权重，将该权重与区域特征图逐通道对应相乘以突出原核或卵裂球位置、边缘特征的表达，得到增强区域特征图，增强后续监测以及分割的准确率；

步骤A11.1、遮挡得分网络以各个区域的区域特征图为单位预测该区域被遮挡的可能性得到遮挡得分，遮挡得分与对应的增强区域特征图相乘并得到该区域对应的最终区域特征图，

在人工制作真实标签中，对于遮挡情况，当某一个目标位于另一个目标之下该部位的遮挡得分真实值为1，其余为0，因此当预测出各候选框各区域的遮挡得分后，计算对应区域的遮挡得分偏差并计算该候选框的遮挡损失

其中s_i和s_i′分别代表候选框各个区域真实的遮挡情况(0或1)以及预测出的遮挡得分(0-1之间)；

步骤A12、8个区域的最终区域特征图按特征通道拼接完成特征融合，得到融合后的全局特征图，全局特征图通过一个全连接模块之后得到候选区域特征向量，将候选区域特征向量用于原核或卵裂球或背景目标分类，最终得到候选区域目标的具体位置和具体分类，并输出原核、卵裂球或者背景的概率；

步骤A13、计算最终得到候选区域目标类别与真实类别之间的偏差进而得到分类损失函数L_{classification}＝-log[p_i*p_i′+(1-p_i)(1-p_i′)]，其中p_i和p_i分别表示最终候选框内的目标真实类别以及模型预测的类别，可以发现当预测正确时p_i＝1，损失函数L_{classification}＝-log(p_i′)，函数值很小接近于0；当预测错误p_i＝0，损失函数L_{classification}＝-log(1-p_i′)，损失值将会变得非常大，更利于模型的训练；

步骤A14、整合模型的整体目标损失L_loss＝L_RPN+L_presicion+L_shelter+L_{classifacation}+L_NUM，判断整体目标损失是否降低到阈值之下，如是则结束,输出步骤A12得到的原核、卵裂球目标的数目,否则根据整体目标损失更新模型参数，参数更新后再次执行步骤A1-A13，模型整体目标损失能够衡量当前模型拟合训练样本的程度，损失值越小模型拟合的越好，其性能也随之增强。

识别阶段：

步骤1、对胚胎图像进行预处理，将胚胎主体从图像中分割出来,得到胚胎主体图像；

步骤2、将胚胎主体图像输入CNN特征提取层抽取完整图像特征；

步骤3、数目预测分支基于步骤2中得到的完整图像特征，在经过卷积层后直接预测识别原核、卵裂球目标的数目；

步骤4、采用预定义的宽高比和大小的锚对分割后获得的胚胎主体样本进行区域生成网络RPN处理，该网络以步骤2中CNN特征提取层抽取的完整图像特征作为输入，得到原核或者卵裂球的可能的位置的预估候选框，预估候选框由包含目标的概率以及坐标表示；

步骤5、选取包含目标概率最大的预估候选框作为抑制框，记为b_M，其目标概率得分记为M；

步骤6、求得当前候选框b_i针对当前抑制框的置信度因子t_i:

步骤8、如置信得分大于阈值，则筛除当前候选框b_i，对所有候选框进行筛除，直到没有候选框可以筛除，得到低冗余候选框集；

步骤9、将低冗余候选框集输入坐标精细化单元，得到原核或者卵裂球精确位置的精细候选框；

步骤10、将精细候选框分为8个区域并使用最大池化操作对每个部分的特征维度进行统一，每个区域均得到一个固定大小的区域特征图；

步骤11、并列执行以下步骤：

步骤11.1、使用遮挡得分网络在得到的区域特征图上预测各通道对应的注意力权重，将该权重与区域特征图逐通道对应相乘以突出原核或卵裂球位置、边缘特征的表达，得到增强区域特征图，增强后续监测以及分割的准确率；

步骤11.1、遮挡得分网络以各个区域的区域特征图为单位预测该区域被遮挡的可能性得到遮挡得分，遮挡得分与对应的增强区域特征图相乘并得到该区域对应的最终区域特征图；

步骤12、8个区域的最终区域特征图按特征通道拼接完成特征融合，得到融合后的全局特征图，全局特征图通过一个全连接模块之后得到候选区域特征向量，将候选区域特征向量用于原核或卵裂球或背景目标分类，最终得到候选区域目标的具体位置和具体分类，并输出原核、卵裂球或者背景的概率。

当数目预测结果和真实标签相差较大时，模型整体损失依然会很大，迫使模型重新学习更精细的目标遮挡特征以预测更精准的候选框、预测更精确的分类结果，最终达到优化模型的根本目的的作用(本专利根本任务是检测出原核或卵裂球的存在并标注其位置)。

因为本发明采用上述技术方案，因此具备以下有益效果：

1、为了解决上述存在的问题，本发明在考虑杂质(主要为培养基液与细胞分泌物、和胚胎主体相似的气泡以及和原核以及卵裂球相似的气泡)、卵裂球以及原核之间极易发生遮挡问题的基础上，结合胚胎移植过程中的实际需求，提出了基于胚胎主体分割，进而预测胚胎中被遮挡部分的得分并完成原核、卵裂球检测的方法，对遮挡条件下的胚胎原核以及胚胎卵裂球进行更加有效、准确的检测。

2、在原核识别之前进行胚胎主体分割，去除培养基液杂质等的干扰，缩小了原核检测模型需要检测的范围，不仅排除了来自胚胎外部的干扰，也在一定意义上提高了检测速度。

3、使用优化的遮挡感知R-CNN进行胚胎原核检测，相比于传统的环形模板法而言，在原核与原核之间发生相互遮挡时，可以有效检测出被遮挡的原核，极大地降低了遮挡条件下的误检率。

4、提出对RPN的网络优化和NMS贪心算法的改进，优化候选框的选取。

5、提出增加候选区域特征融合和全局特征引入提高分类和识别精度。

6、本发明增加一个目标数目预测分支，基于该分支在原有模型整体目标函数基础之上添加对应的数目预测损失，进而调整并优化损失函数。目标数目预测分支将人工标定原核或卵裂球数目与模型检测结果相对比，基于两者差值更新模型整体损失值并优化模型参数进而达到提升模型识别遮挡目标的检测性能。

模型结构有所改变，本专利使用串联的RPN网络以及坐标精细化单元，依次生成预测候选框以及精细化候选框，因此预测出更精确的候选框坐标，该候选框囊括更完整的目标，进而将更完整的目标特征输入遮挡得分网络并得到精确的遮挡得分，最终提升模型对目标遮挡部分的检测性能。

精细化目标候选框分为8个部分，该设计综合考虑原核或卵裂球的圆形结构以及目标间相互遮挡的位置，舍弃传统四分的方式使模型能够更精准的识别目标遮挡部分的特征。

附图说明

图1为图像标注过程效果图；

图2为最终得到目标图像，上部为原始胚胎图像，中部为标签图像，下部为主体分割后的胚胎图像；

图3为基于注意力机制的遮挡ROI池化单元；

图4为遮挡得分网络；

图5为候选特征图与全局特征图信息融合；

图6为基于注意力机制感知遮挡原核和卵裂球模型整体流程；

图7为基于注意力机制感知遮挡原核和卵裂球模型整体架构；

图8为原核或卵裂球识别整体流程。

具体实施方式

本发明提供了一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法，包括以下步骤：

步骤S1:对胚胎图像进行预处理，将胚胎主体从图像中分割出来；

胚胎主体分割的具体步骤如下：

S1：对图像进行标注，使用图像标注软件labelme将胚胎与背景分割，软件自动生成JSON格式文件，再将JSON文件转换成PNG格式的标签图像。

图像标注过程效果图如图1所示，从上至下分别为原始胚胎图像，带有标注的图像，标签图像(其中，背景为黑色，标签为中心圆形部分)：

S2：构建网络模型，基于网络对称思想和残差结构的分割网络包含两种基本单元(identity_block和conv_block)。

1)对于identity_block，首先判断conv_type参数决定是做一般卷积(Conv2D)还是深度可分离卷积(SeparableConv2D)，一般卷积同时进行区域和通道的卷积操作，参数较多，而深度可分离卷积将卷积运算分为两步，依次执行区域卷积和通道卷积，契合Inception模块假设，即卷积层通道间的相关性和空间相关性是可以退耦合的，将它们分开映射，能达到更好的效果。之后对输入的张量(input_tensor)连续采用两次同类型卷积，默认卷积核为3*3；最后将结果与输入张量求和(add)。

2)对于conv_block，首先判断conv_type参数决定是做一般卷积(Conv2D)、深度可分离卷积(SeparableConv2D)还是转置卷积(Conv2DTranspose)，然后对输入的张量(input_tensor)采用一次卷积，默认卷积核为3*3。若conv_type为‘separable’，则再采用一次深度可分离卷积；否则采用卷积核为3*3的一般卷积。shortcut支路对输入张量采用一次1*1，默认步长为2的卷积(由conv_type判断卷积类型)。最后对特征图求和并返回结果。

3)基于两个基本单元的胚胎主体分割模型，网络输出层采用Sigmoid激活函数，使得输出Mask每个像素的取值范围为[0,1]，表示其属于胚胎区域的概率。关键步骤如下：首先定义模型输入大小，并对输入图片进行标准卷积计算，将通道数扩展至32。然后开始下采样阶段，下采样共执行4次，每次先将原先特征图存储于中间变量，再分别采用conv_block和identity_block计算，4次下采样后的通道数分别为64、128、256和512。接着进入上采样过程，同样执行4次，每次先采用conv_block(conv_type＝transpose)上采样，将浅层特征图与当前结果连接，并采用1*1卷积调整通道数，再执行identity_block操作。经由上采样操作，特征图还原至与输入大小相同，最终采用3*3卷积将通道压缩为1，并采用Sigmoid函数激活输出。

S3：模型训练。

1)通过对原始图片进行旋转、模糊、方位平移等操作，对数据集进行数据增强，进而增加训练与验证数据。然后将数据集划分为训练集和验证集，训练集占80％，验证集占20％。

2)定义存储模型的函数ModelCheckpoint，包括定义模型的存储路径和训练过程中的输出，指定网络模型训练的监控对象(val_loss)以及定义是否仅存模型的权重等参数；定义学习率动态调整函数ReduceLROnPlateau，指定监控指标val_loss(当评价指标不再提升时，减小学习率)，定义学习率减少指数、学习率下限等参数；定义优化器配置函数compile，选择优化器、损失函数以及训练和测试时的性能指标；配置模型训练函数fit_generator，设置每次训练和测试输入的数据数目、模型训练的总轮数以及反馈函数。

S4：胚胎主体分割

当主体分割模型训练完成，只需调用已经存储好的模型权重，将原始胚胎图像预处理后(重定义像素大小为320*240)输入到网络模型中，模型会预测胚胎主体的mask并根据mask使用最小矩形切割图像，最终得到目标图像。具体流程如图2所示，图2上部为原始胚胎图像，中部为标签图像，下部为主体分割后的胚胎图像。

步骤S2：数目预测分支基于CNN特征提取层抽取的完整图像特征，在经过若干卷积层后直接预测识别目标(本专利是原核、卵裂球)的数目。

步骤S3:采用预定义的宽高比和大小的锚对分割后获得的胚胎主体进行区域生成网络RPN处理，得到原核或者卵裂球的可能的位置的预估候选框，候选框由包含目标的概率以及坐标表示；

步骤S3具体实施如下：

RPN网络优化

RPN网络中锚框的设置直接影响候选框的生成，NMS贪心算法直接影响检测框的质量，本专利就锚框的设置和算法的改进两方面进行阐述：

锚框设置改进

RPN网络中锚框(anchor)的设置直接影响候选框的生成,是一个很重要的参数。原始的RPN网络是针对PASCALVOC 2007数据集设置的,此数据集包含24640个物体，物体大小不同,形状各异,具有普适性,故设置anchor时，尺度设置为28,256,512,为了适应不同形状的物体，设置了三种尺度比,分别为1:1,1:2,2:1,共生成9种不同的锚框。但是由于这种设置，导致了大量冗余的候选框，因此，本专利就anchor提出一种新的候选框生成方法。

采用anchor机制来寻找目标位置，即将预设定义的宽高比和大小的锚放置在特征图上(该处的宽高比和大小包含了正常胚胎大小和遮挡胚胎的一般情况)来寻找相对较高质量的候选框。目标的宽高比和面积大小可以用(r，s)来表示，其中r代表胚胎原核的宽高比，s表示胚胎原核的尺度大小。由于胚胎原核遮挡的特殊性，现提供几种宽高比参考，参数r的三种设置：(1:0.8,1:1,1:1.2)。当然，根据实际的需求，可适当添加，可多不可少。根据胚胎原核遮挡的一般性和考虑到多个原核互相遮挡的情况，其尺度大小应根据数据集得到，原核面积多集中在32×32以及64×64像素，卵裂球体积多集中在64×64以及128×128像素，因此本专利设置面积大小参数s：(16*16,32*32,64*64,128*128)。由于胚胎原核的形状多为圆型，因此每一个宽高比相应的可以对应几个尺寸大小，不必采用一个宽高比对应每个尺寸大小的候选框设置来精简anchor选择空间。完成上述宽高比和尺度大小后，锚框选择空间为A＝{(r1，s1),(r1，s2)…(rn，sm)}。

其中RPN网络包含坐标回归分支以及分类分支。坐标回归分支在预设的anchor(记作：A＝(A_x,A_y,A_w,A_h)，4个值依次表示预设anchor的中心点坐标以及宽高)基础之上学习一种映射，使得f(A_x,A_y,A_w,A_h)＝(G_x′,G_y′,G_w′,G_h′)＝G′≈GT,其中G′是预设候选框经过RPN网络初步修正后的坐标(中心点坐标以及宽、高),GT表示目标真实候选框的坐标。映射函数f，即网络通过学习预设候选框与真实候选框之间的偏差来修正预设候选框以得到包含原核或卵裂球的可能位置的预估候选框。

G_x′＝A_x+A_w·d_x(A)

G_y′＝A_y+A_h·d_y(A)

G_h′＝A_h·exp(d_h(A))

G_w′＝A_w·exp(d_w(A))

其中d_x(A)，d_y(A)，d_h(A)，d_w(A))分别表示在预设候选框A上的中心点偏差以及宽、高偏差。

分类分支主要由一个1×1的卷积层构成，输出通道数目为k×24×H×W的特征图。其中H,W为特征图高、宽，k表示输入该分支的候选框数目，24通道是因为本文预设了4种anchor面积以及3种宽高比，同时该分类分支只评判当前候选框是否包含目标(判断是目标还是背景)的概率，因此结果是4*3*2通道，即24通道。

步骤S4:选取包含目标概率最大的候选框作为抑制框，记为b_M，其目标概率得分记为M；

步骤S5:其余预估候选框依次与抑制框计算置信度因子t，当前候选框记为b_i，其目标概率得分记为C_i；

步骤S6:求得当前候选框b_i针对当前抑制框的置信度因子t_i:

步骤S7:基于IOU计算当前候选框b_i在当前抑制框条件下的置信得分T_i；

步骤8：如置信得分大于阈值，则筛除当前候选框b_i，对所有候选框进行筛除，直到没有候选框可以筛除，得到低冗余候选框集；

传统的NMS是一种贪心算法，将候选框的置信得分从小到大排列，将分数最大的列为抑制框，然后将其余的候选框与之对比，移除大于阙值的框(被移除的候选框与抑制框功能重复程度较大，没有必要同时存在)，重复运算再找到新的抑制框，直至没有候选框可以抑制为止。但是当胚胎原核或胚胎卵裂球相邻甚至有较大重叠时，如果仅仅以IOU指标作为置信得分检测目标会造成漏检；如果候选框中存在遮挡的原核或卵裂球，由于目标部分结构较小所以IOU较小不会将该种目标框保留造成误检，因此出现了NMS算法的变种Soft-NMS算法。在本专利中，针对我们此次检测的胚胎原核和卵裂球，我们将采用算法：基于置信因子的Soft-NMS算法。

步骤9:将低冗余候选框集输入坐标修正单元，得到原核或者卵裂球精确位置的精细候选框；

采用串行拼接RPN网络以及坐标精细单眼的方式进一步精细化候选框的生成，第二个坐标修正单元与第一个RPN网络不同的是，坐标修正单元不再采用第一个网络的锚机制选取候选框，而是将经过改进的NMS算法初步筛选后的候选框直接作为坐标修正单元的输入，预测输入候选框坐标和真实候选框之间的偏差并以此修正候选框，即对第一个RPN网络产生的候选框位置等方面进行进一步精修，使得生成的候选框位置更为精确。坐标修正单元相比RPN网络没有分类分支，网络更加精简。

在经过改进的Soft-NMS算法后，进一步筛除了不包含目标的候选框以及重叠严重的候选框，筛除后的候选框将作为坐标精细化单元的输入。坐标精细化单元计算预测的候选框与真实候选框之间的误差并将误差引入到模型的损失函数中进而训练网络修正候选框，使得预测候选框的坐标接近真实候选框。

候选框由4个数值表示:[x,y,w,h]

p_x＝sigmoid(x)

p_y＝sigmoid(y)

其中x，y表示候选框的中心点；p_x,p_y表示候选框相对于特征图的中心点，其值均在0-1之间；w，h表示本文设定的候选框尺寸；t_w,t_h表示预测的候选框相对于本文预设候选框尺寸的偏置，因此值也在0-1之间；p_w,p_h是预测的候选框最终的宽高。

精细化单元损失函数如下：

其中k表示输入坐标精细化单元的候选框数目；g_x,g_y,g_h,g_w分别表示真实候选框的中心坐标以及宽和高。

步骤10：将精细候选框分为8个区域并使用最大池化操作对每个部分的特征维度进行统一，每个区域均得到一个固定大小的区域特征图；

步骤11：(1)再使用遮挡得分网络在得到的区域特征图上预测各通道对应的注意力权重，将该权重与区域特征图逐通道对应相乘以突出原核或卵裂球位置、边缘特征的表达，得到增强区域特征图，增强后续监测以及分割的准确率；

(2)遮挡得分网络以各个区域的区域特征图为单位预测该区域被遮挡的可能性得到遮挡得分，遮挡得分与对应的增强区域特征图相乘并得到该区域对应的最终区域特征图。

步骤S10-S11实施方式：

网络模型构建

选择ResNet-50模型为基本架构，网络中的较高层可以提取到更多的语义信息和全局信息，所以选取高层卷积层conv5_x与锚点框关联，输入为胚胎主体分割后图像，对于其特征图的每一个位置，铺设4种面积分别为(16*16,32*32,64*64,128*128)的锚点框并设计3种宽高比(1:0.8,1:1,1:1.2)，所有锚点框的宽高比值均为1(原核大致比例)，以实现检测图像中不同尺寸的原核。最终输出输入图像的特征图，该特征直接作为第二阶段中预测网络的数目预测分支的输入。本文使用VGG-16部分网络基于注意力机制作为遮挡感知R-CNN模型的特征提取器。

如图3所示，针对因原核之间遮挡而引起的误检、漏检问题，使用基于注意力机制的遮挡RoI池化单元来替代传统N模块里的RoI池化层。传统RoI池化层使用M×N的网格，将每个候选区域均匀分成M×N块，对每一块进行最大池化操作，从而将大小不一的候选区域统一成同维的特征向量。但这样的操作仅考虑到后续计算的方便性以及候选区域本身特征，并没有考虑到原核或卵裂球被遮挡部分的特征表达。

由此如图3所示，将候选框分为8个部分并使用最大池化操作对每个部分的特征维度进行统一，得到一个固定大小的区域特征图，再分别使用遮挡得分网络在各部分特征的每个通道上预测对应的通道注意力以突出核心特征的表达，遮挡得分网络最终将每个部分的特征图依次与对应遮挡得分网络计算出来的遮挡得分进行加权乘积并得到该部分对应的特征。最后，8个部分的特征图按特征通道拼接完成特征融合得到该候选框对应的最终区域特征,该融合特征用于第二阶段预测网络的分类(判断是否为原核或者卵裂球)。

特征加权求和：针对候选框中划分的不同部分，为了得到能够突出识别目标(原核、卵裂球)中被遮挡部分的特征，本文选择引入两阶段注意力机制。

第一阶段注意力机制存在于遮挡得分网络中，该网络针对候选框划分后的某一个部分预测通道注意力得分向量以及该部分的遮挡得分。遮挡得分网络将该部分特征图与通道注意力得分向量逐个通道相乘进而得到候选框对应部分的融合特征，该融合特征突出核心特征的表达并弱化背景信息。具体公式如下：

s_ij′＝μ_js_ij

s_i′＝s_iμ

其中s_ij为候选框第i个部分中第j个通道的特征向量；μ_j是由遮挡得分网络计算出的第j个通道的通道注意力权重；s_ij′是候选框第i个部分中第j个通道经过加权操作后的增强通道特征图；s_i表示由s_ij构成的第i个部分的原特征；μ表示由μ_j构成的通道注意力权重向量；s_i′表示经过逐通道加权后的候选框第i个部分的增强区域特征图。

第二阶段注意力机制同样存在于遮挡得分网络中，在网络的最后将第一阶段注意力机制融合后的增强区域特征图与遮挡得分相乘。遮挡得分在0,1之间，得分越接近于1表示该部分被遮挡的概率越大，因此特征与遮挡得分相乘相当于增大了被遮挡部分的特征在总特征中的比例，增大对模型的影响。具体公式如下：

S＝concat(α_iS_i)

i＝1,2,...,8

其中S表示最终区域特征图；S_i表示候选框第i个部分的特征向量；α_i表示候选框第i个部分的遮挡得分。

如图4所示，遮挡得分网络由2个1×1卷积层、一个3×3卷积、一个sigmoid层和一个逐通道相乘操作组成，最终使用log损失函数来对遮挡处理单元进行参数训练。

其中遮挡得分网络的输入为经过RoI池化层固定尺寸后的候选框某一部分的特征图(共计8个部分)。在经过第一个1×1卷积后，特征通道数目减少，达到加快网络训练的目的；在经过3×3卷积后，网络抽取到图像更高级的特征；在经过第二个1×1卷积后，增大特征通道数目至输入尺寸；在经过三次卷积后，将得到的特征图输入sigmoid层，得到一维的通道注意力权重向量，向量中的每一个元素对应当前特征的一个通道，该值表示通道特征的重要程度，其值均在0到1之间。通道注意力权重向量与该部分特征逐通道相乘以突出位置、边缘等核心特征的表达；与此同时，经过三次卷积后的特征图经过全连接层后预测出该部分特征对应的遮挡得分，遮挡得分表示该部分被遮挡的概率，将遮挡得分与经过通道注意力加权后的特征图相乘得到该部分对应的最终区域特征图(候选框共分为8个部分)。

Concat特征融合层将经过注意力机制加权初步融合后的8个部分的特征按通道方向依次拼接，得到预测网络所需的输入特征，该特征更加注重被遮挡部分的特征表达。

遮挡得分网络训练过程中损失函数如下：

c_i,j表示第i个候选窗口的第j个部分(共计8个部分)，o_i,j表示对应预测的一维被遮挡得分，o*_i,j为对应标定的真实可见度得分，该值由人工给定，如果该部分被遮挡严重，则o*_i,j＝1，否则为0。从数学上来说，即如果c_i,j与相对应的标定窗口之间的交并比大于或等于0.7，则o*_i,j＝1，否则为0。因此定义遮挡处理单元的损失函数：

其中，i为锚点框的标号，t_i为预测的第i个锚点框原核对应的坐标，为第i个锚点框相关联的物体的标定坐标。

候选区域图像经过基于注意力机制的遮挡ROI池化单元的处理，得到综合了候选区域特征，识别目标各部分特征以及各部分遮挡情况的特征图。

因为整个原图当中存在大量细节信息(如：位置信息，边缘信息)，而这些细节信息应用到胚胎原核遮挡原核检测上，会对最后的分类以及定位上有很大的参考作用，因此，本专利在预测网络部分使用类全局特征融合的方法，将全局特征加入到候选区域中来，辅助胚胎原核遮挡检测，提高模型的精度，如图5所示。

得到了经过遮挡ROI池化单元处理的候选区特征后再融合全局特征，经过一个全连接层之后，将候选区域特征分别用于目标分类(识别原核或卵裂球)，最终得到候选区域是否包含原核或卵裂球的概率。基于注意力机制感知遮挡原核和卵裂球方法的整体流程如图6所示。

步骤12：8个区域的最终区域特征图按特征通道拼接完成特征融合，得到融合后的全局特征图，全局特征图通过一个全连接模块之后得到候选区域特征向量，将候选区域特征向量用于目标分类(识别原核或卵裂球或背景)，最终得到候选区域是否包含原核或卵裂球的概率。

步骤13中全连接模块由两个1×1×4096维度的全连接层构成，该模块在融合后的全局特征(这个全局特征是表达对应候选框整体的特征)中引入CNN特征提取层抽取的完整图像特征以增强细节特征的表达，同时激活该特征并将其处理成1×1×4096的特征向量。将上述1×1×4096的特征向量将作为分类分支的输入，分类分支包含一个1×1×(N+1)的全连接层以及一个softmax层。1×1×(N+1)的全连接层将输入的特征向量重构向量维度重新得到1×1×(N+1)的特征向量，其中N代表类别的数目，在本专利中N等于2，因为本专利需要识别的目标有原核和卵裂球两类，1代表背景；softmax层对1×1×(N+1)的特征向量做softmax操作，即预测候选框中存在的目标是某一个类的概率。

Claims

1.一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法,其特征在于：包括训练步骤和识别步骤，其中训练步骤如下：

步骤A6、求得当前候选框b_i针对当前抑制框的置信度因子t_i:

步骤A7、基于IOU计算当前候选框b_i在当前抑制框条件下的置信得分T_i；

步骤A10、将精细候选框分为8个区域并使用最大池化操作对每个部分的特征维度进行统一，每个区域均得到一个固定大小的区域特征图；

步骤A11、并列执行以下步骤：

步骤A13、计算最终得到候选区域目标类别与真实类别之间的偏差进而得到分类损失函数L_{classification}＝-log[p_i*p_i′+(1-p_i)(1-p_i′)]，其中p_i和p_i′分别表示最终候选框内的目标真实类别以及模型预测的类别，可以发现当预测正确时p_i＝1，损失函数L_{classification}＝-log(p_i′)，函数值很小接近于0；当预测错误p_i＝0，损失函数L_{classification}＝-log(1-p_i′)，损失值将会变得非常大，更利于模型的训练；

步骤A14、整合模型的整体目标损失L_loss＝L_RPN+L_presicion+L_shelter+L_{classifacation}+L_NUM，判断整体目标损失是否降低到阈值之下，如是则结束,输出步骤A12得到的原核、卵裂球目标的数目,否则根据整体目标损失更新模型参数，参数更新后再次执行步骤A1-A13，模型整体目标损失能够衡量当前模型拟合训练样本的程度，损失值越小模型拟合的越好，其性能也随之增强；

识别步骤包括：

步骤B1、对胚胎图像进行预处理，将胚胎主体从图像中分割出来,得到胚胎主体图像；

步骤B2、将胚胎主体图像输入CNN特征提取层抽取完整图像特征；

步骤B3、数目预测分支基于步骤B2中得到的完整图像特征，在经过卷积层后直接预测识别目标的数目，所述数目为原核和卵裂球的总和，原核与卵裂球在数目中的占比未知；

步骤B4、采用预定义的宽高比和大小的锚对分割后获得的胚胎主体样本进行区域生成网络RPN处理，该网络以B2中CNN特征提取层抽取的完整图像特征作为输入，得到原核或者卵裂球的可能的位置的预估候选框，预估候选框由包含目标的概率以及坐标表示；

步骤B5、选取包含目标概率最大的预估候选框作为抑制框，记为b_M，其目标概率得分记为M；

步骤B6、求得当前候选框b_i针对当前抑制框的置信度因子t_i:

步骤B7、基于IOU计算当前候选框b_i在当前抑制框条件下的置信得分T_i；

步骤B8、如置信得分大于阈值，则筛除当前候选框b_i，对所有候选框进行筛除，直到没有候选框可以筛除，得到低冗余候选框集；

步骤B9、将低冗余候选框集输入坐标精细化单元，得到原核或者卵裂球精确位置的精细候选框；

步骤B10、将精细候选框分为8个区域并使用最大池化操作对每个部分的特征维度进行统一，每个区域均得到一个固定大小的区域特征图；

步骤B11、并列执行以下步骤：

步骤B11.1、使用遮挡得分网络在得到的区域特征图上预测各通道对应的注意力权重，将该权重与区域特征图逐通道对应相乘以突出原核或卵裂球位置、边缘特征的表达，得到增强区域特征图，增强后续监测以及分割的准确率；

步骤B11.1、遮挡得分网络以各个区域的区域特征图为单位预测该区域被遮挡的可能性得到遮挡得分，遮挡得分与对应的增强区域特征图相乘并得到该区域对应的最终区域特征图；

步骤B12、8个区域的最终区域特征图按特征通道拼接完成特征融合，得到融合后的全局特征图，全局特征图通过一个全连接模块之后得到候选区域特征向量，将候选区域特征向量用于原核或卵裂球或背景目标分类，最终得到候选区域目标的具体位置和具体分类，并输出原核、卵裂球或者背景的概率。

2.根据权利要求1所述的一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法，其特征在于：步骤A4、步骤B4中，

采用锚框机制来寻找目标位置，即将预设定义的宽高比和大小的锚放置在特征图上来寻找相对较高质量的预估候选框；

目标的宽高比和面积大小用(r，s)来表示，其中r代表胚胎原核的宽高比，s表示胚胎原核的尺度大小，

宽高比参数r：(1:0.8,1:1,1:1.2)；

面积大小参数s：(16*16,32*32,64*64,128*128)；

完成上述宽高比和尺度大小后，预设锚框选择空间为A＝{(r1，s1),(r1，s2)…(rn，sm)}；

其中RPN网络包含坐标回归分支以及分类分支，坐标回归分支在预设的锚框记作：A＝(A_x,A_y,A_w,A_h)，4个值依次表示预设锚框的中心点坐标以及宽高，在预设的锚框基础之上学习一种映射，使得f(A_x,A_y,A_w,A_h)＝(G_x′,G_y′,G_w′,G_h′)＝G′≈GT,其中G′是预设候选框经过RPN网络初步修正后的坐标，中心点坐标以及宽、高,GT表示目标真实候选框的坐标；映射函数f(x)，即网络通过学习预设候选框与真实候选框之间的偏差来修正预设候选框以得到包含原核或卵裂球的可能位置的预估候选框；

G_x′＝A_x+A_w·d_x(A)

G_y′＝A_y+A_h·d_y(A)

G_h′＝A_h·exp(d_h(A))

G_w′＝A_w·exp(d_w(A))

其中d_x(A)，d_y(A)，d_h(A)，d_w(A))分别表示在预设候选框A上的中心点偏差以及宽、高偏差；

分类分支主要由一个1×1的卷积层构成，输出通道数目为k×24×H×W的特征图,其中H,W为特征图高、宽，k表示输入该分支的候选框数目，24通道是预设了4种anchor面积以及3种宽高比，同时该分类分支只评判当前候选框是否包含目标的概率，因此结果是4*3*2通道，即24通道。

3.根据权利要求1所述的一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法，其特征在于：步骤A8、步骤B8中，低冗余候选框集将作为坐标修正单元的输入，坐标修正单元计算预测的低冗余候选框集与真实候选框之间的误差并将误差引入到模型的损失函数中进而训练网络修正候选框，使得预测候选框的坐标接近真实候选框；

候选框由4个数值表示:[x,y,w,h]

p_x＝sigmoid(x)

p_y＝sigmoid(y)

其中x,y表示候选框的中心点；p_x,p_y表示候选框相对于特征图的中心点，其值均在0-1之间；w,h表示本文设定的候选框尺寸；t_w,t_h表示低冗余候选框相对于本文预设候选框尺寸的偏置，因此值也在0-1之间；p_w,p_h是精细候选框最终的宽高；

精细化单元损失函数如下：

4.根据权利要求1所述的一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法，步骤11中增强区域特征图突出核心特征的表达并弱化背景信息，具体公式如下：

s_ij′＝μ_js_ij

s_i′＝s_i ^Tμ

其中s_ij为候选框第i个部分中第j个通道的特征向量；μ_j是由遮挡得分网络计算出的第j个通道的通道注意力权重；s_ij′是候选框第i个部分中第j个通道经过加权操作后的增强通道特征图；s_i表示由s_ij构成的第i个部分的原特征；μ表示由μ_j构成的通道注意力权重向量；s_i′表示经过逐通道加权后的候选框第i个部分的增强区域特征图；

注意力机制融合后的增强区域特征图与遮挡得分相乘,具体公式如下：

S＝concat(α_iS_i)

i＝1,2,...,8

5.根据权利要求1所述的一种基于注意力机制的遮挡胚胎原核及卵裂球检测方法，其特征在于：将精细候选框分为8个区域具体为：

矩形的精细候选框的2条对角线和两条中心线将精细候选框分为8个区域。