CN115984261A

CN115984261A - 基于牙齿图像的识别跟踪方法

Info

Publication number: CN115984261A
Application number: CN202310234873.8A
Authority: CN
Inventors: 苏征
Original assignee: Beijing Stomatological Hospital
Current assignee: Beijing Stomatological Hospital
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-04-18
Anticipated expiration: 2043-03-13
Also published as: CN115984261B

Abstract

本发明涉及一种基于牙齿图像的识别跟踪方法，该方法包括：获取目标牙齿；所述目标牙齿为用户基于初始牙齿图像选定的；在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别所述目标牙齿，同时，对所述目标牙齿进行跟踪；根据识别结果和跟踪结果，在各帧牙齿图像中跟踪所述目标牙齿。本发明涉及的方法在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，同时进行识别和跟踪，根据识别结果和跟踪结果跟踪目标牙齿，可以避免牙齿在处理过程中由于形变、光照变化、尺度变化、遮挡、消失等情况造成的识别精度下降、定位不准确等问题。

Description

基于牙齿图像的识别跟踪方法

技术领域

本发明涉及牙科医疗器械技术领域，尤其涉及一种基于牙齿图像的识别跟踪方法。

背景技术

现有的口腔显微镜手术机器人采用在牙齿上预安装mark标志点，相机识别mark点坐标，计算相对mark点偏移的牙齿；此方案需要给患者预先固定安装mark标志物，患者配戴此标志物产生很多不舒适感。

也有通过深度学习模型的方案，采集口腔病牙RGB图片，制作训练集，通过网络训练深度学习模型，预测RGB图片中病牙位置，以其像素位置推算得到其三维坐标，将三维坐标传递给机械臂，操纵机械臂对病牙进行处理；此种方案的缺点牙齿的特征点较少，无论是洁牙还是根管治疗，手术过程中，牙齿的外围轮廓都有可能在变化，特征点也在变化，导致模型的识别率会急速下降。

发明内容

（一）要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种基于牙齿图像的识别跟踪方法。

（二）技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种基于牙齿图像的识别跟踪方法，所述方法包括：

S101，获取目标牙齿；所述目标牙齿为用户基于初始牙齿图像选定的；

S102，在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别所述目标牙齿，同时，对所述目标牙齿进行跟踪；其中，所述识别模型的激活函数sigmoid(o)为：sigmoid(o)=o*[1/(1+e^-o)]，o为变量；所述识别模型的损失函数loss为：loss=1-[IOU-ρ(A_ctr,B_ctr)²/d²-ρ(A_ctr,B_ctr)²/C_w ²-ρ(A_ctr,B_ctr)²/C_h ²-δ²/(1-IOU+δ)]；其中，IOU为第二商值，IOU=|A_ctr∩B_ctr|/|A_ctr∪B_ctr|，A_ctr为所述锚框，B_ctr为真实框，所述真实框基于用户对初始牙齿图像的选定确定，ρ(A_ctr,B_ctr)为A_ctr中心点至B_ctr中心点之间的距离，d为包含A_ctr和B_ctr的最小外接矩形的对角线长度，C_w为包含A_ctr的最小外接矩形的宽度，C_h为包含B_ctr的最小外接矩形的高度，δ为影响因子，δ=[arctan(WA_ctr/HA_ctr)-arctan(WB_ctr/HB_ctr)]²*4/π²，WA_ctr为A_ctr的长，HA_ctr为A_ctr的高，WB_ctr为B_ctr的长，HB_ctr为B_ctr的高；

S103，根据识别结果和跟踪结果，在各帧牙齿图像中跟踪所述目标牙齿。

可选地，所述S102之前，还包括：

从训练集中获取a组图像；其中，所述训练集中包括多张样本图像，每组图像包括训练集中随机选择的b张图像，a和b为预设的正整数；

对每组图像进行处理，并对处理后的图像进行拼接，形成拼接图像；

依次选择一张各组图像的拼接图像，确定选择的拼接图像中的锚框，通过目标识别与检测算法以及所述锚框，采用卷积神经网络对所述选择的拼接图像进行目标检测，基于检测结果训练识别模型。

可选地，所述处理为色域处理；

所述对每组图像进行处理，包括：

对于任一组图像中的任一张图像，执行如下步骤：

获取所述任一张图像的红色通道值R_i，绿色通道值G_i，蓝色通道值B_i；其中，i为图像标识；

确定所述任一张图像的红色分量r_i=R_i/(R_i+G_i+B_i)；

确定所述任一张图像的绿色分量g_i=G_i/(R_i+G_i+B_i)；

确定所述任一张图像的绿色分量b_i=1-r_i-g_i；

根据r_i、g_i和b_i，确定所述任一张图像的色调H_i，饱和度S_i和明度V_i；

根据H_i，S_i和V_i，确定所述任一张图像进行色域处理后的红色通道值R’_i，绿色通道值G’_i，蓝色通道值B’_i。

可选地，所述根据r_i、g_i和b_i，确定所述任一张图像的色调H_i，饱和度S_i和明度V_i，包括：

确定r_i、g_i和b_i中的最大值max_i和最小值min_i；

如果max_i=min_i，则确定所述任一张图像的色调H_i=0；如果max_i≠min_i，但max_i=r_i且g_i≥b_i，则确定所述任一张图像的色调H_i=60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=r_i且g_i<b_i，则确定所述任一张图像的色调H_i=360+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=g_i，则确定所述任一张图像的色调H_i=120+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=b_i，则确定所述任一张图像的色调H_i=240+60*(g_i-b_i)/(max_i-min_i)；

如果max_i=0，则确定所述任一张图像的饱和度S_i=0；如果max_i≠0，则确定所述任一张图像的饱和度S_i=(max_i-min_i)/max_i；

确定所述任一张图像的明度V_i=max_i。

确定r_i、g_i和b_i中的最大值max_i和最小值min_i；

如果max_i=min_i，则确定所述任一张图像的色调H_i=0；如果max_i≠min_i，但max_i=r_i且g_i≥b_i，所述任一张图像的色温≥6000开尔文，则确定所述任一张图像的色调H_i=60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=r_i且g_i≥b_i，5800开尔文≤所述任一张图像的色温<6000开尔文，则确定所述任一张图像的色调H_i=300+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=r_i且g_i≥b_i，所述任一张图像的色温<5800开尔文，则确定所述任一张图像的色调H_i=320+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=r_i且g_i<b_i，所述任一张图像的色温>5600开尔文，则确定所述任一张图像的色调H_i=340+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=r_i且g_i<b_i，所述任一张图像的色温≤5600开尔文，则确定所述任一张图像的色调H_i=360+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=g_i，则确定所述任一张图像的色调H_i=120+60*(g_i-b_i)/(max_i-min_i)；如果max_i≠min_i，但max_i=b_i，则确定所述任一张图像的色调H_i=240+60*(g_i-b_i)/(max_i-min_i)；

确定所述任一张图像的明度V_i=max_i。

可选地，所述根据H_i，S_i和V_i；确定所述任一张图像进行色域处理后的红色通道值R’_i，绿色通道值G’_i，蓝色通道值B’_i，包括：

计算第一商值=H_i/60；

计算第一值h_i=第一商值的向下取整；

计算第二值f_i=第一商值-h_i；

计算第三值p_i=V_i*(1-S_i)；

计算第四值q_i=V_i*(1-f_i*S_i)；

计算第五值t_i=V_i*[1-(1-f_i)*S_i]；

若h_i=0，则确定所述任一张图像进行色域处理后的红色通道值R’_i=V_i，绿色通道值G’_i=t_i，蓝色通道值B’_i=p_i；

若h_i=1，则确定所述任一张图像进行色域处理后的红色通道值R’_i=q_i，绿色通道值G’_i=V_i，蓝色通道值B’_i=p_i；

若h_i=2，则确定所述任一张图像进行色域处理后的红色通道值R’_i=p_i，绿色通道值G’_i=V_i，蓝色通道值B’_i=t_i；

若h_i=3，则确定所述任一张图像进行色域处理后的红色通道值R’_i=p_i，绿色通道值G’_i=q_i，蓝色通道值B’_i=V_i；

若h_i=4，则确定所述任一张图像进行色域处理后的红色通道值R’_i=t_i，绿色通道值G’_i=p_i，蓝色通道值B’_i=V_i；

若h_i=5，则确定所述任一张图像进行色域处理后的红色通道值R’_i=V_i，绿色通道值G’_i=p_i，蓝色通道值B’_i=q_i。

可选地，所述处理为旋转处理；

所述对每组图像进行处理，包括：

对于任一组图像中的任一张图像，

确定所述任一张图像的旋转角度θ_i，其中，i为图像标识；若为逆时针旋转，则θ_i的符号为正号，否则θ_i的符号为负号；

所述任一张图像中任一像素点进行旋转后的横轴坐标为r_ijcos(α_ij-θ_i)，旋转后的纵轴坐标为γ_ijsin(α_ij-θ_i)；

其中，j为像素点标识，γ_ij为任一张图像i中任一像素点j与坐标原点之间的距离，α_ij为任一张图像i中任一像素点j与横轴之间的夹角。

可选地，所述处理为缩放处理；

所述对每组图像进行处理，包括：

对于任一组图像中的任一张图像，

获取横轴缩放因子fx_i和纵轴缩放因子fy_i；其中，i为图像标识；

通过如下公式计算所述任一张图像进行缩放后的坐标：

。其中，x’_i为所述任一张图像i进行缩放后的横轴坐标，y’_i为所述任一张图像i进行缩放后的纵轴坐标，x_i为所述任一张图像i进行缩放前的横轴坐标，y_i为所述任一张图像i进行缩放前的纵轴坐标。

可选地，所述确定选择的拼接图像中的锚框，包括：

获取聚类的簇数U；

重复进行多次聚类，直至当前聚类后聚类结果与前一次聚类结果之差满足预设条件；

将当前每簇的最小外接矩形作为锚框；

其中，每次聚类时，均执行步骤S201和S202：

S201，确定每簇的中心；

S202，计算所述选择拼接图像中非中心的各点与各簇的中心的距离，并将非中心的各点归入距离最小的簇中；其中，u为簇标识，n为非聚类中心的点的标识，N为非聚类中心的点的总数量，M_nu为非聚类中心的点n对第u簇的中心的隶属度，v_n为任一非聚类中心的点n的特征，c_u为第u簇的中心的特征，|| ||为范数计算函数，，k为簇标识，c_k为第k簇的中心的特征；

预设条件如下：

max_nu(|M_nu(e)-M_nu(e-1)|)<ε，其中，e为聚类次数，M_nu(e)为第e次聚类后非聚类中心的点n对第u簇的中心的隶属度，M_nu(e-1)为第e-1次聚类后非聚类中心的点n对第u簇的中心的隶属度，max()为求最大值函数，ε为预先设置的误差阈值。

可选地，所述对所述目标牙齿进行跟踪，包括：

针对进行牙齿处理的过程中持续获取的任一帧牙齿图像，执行如下步骤：

对所述任一帧牙齿图像中的各像素进行灰度化，得到灰度值Gray(τx,τy)=0.33*R(τx,τy)+0.59*G(τx,τy)+0.11*B(τx,τy)；其中，τ为在进行牙齿处理的过程中持续获取的牙齿图像标识，τx为第τ帧牙齿图像的像素矩阵中行标识，τy为第τ帧牙齿图像的像素矩阵中列标识，R(τx,τy)为第τ帧牙齿图像中位于第τx行第τy列的像素的红色通道值，G(τx,τy)为第τ帧牙齿图像中位于第τx行第τy列的像素的绿色通道值，B(τx,τy)为第τ帧牙齿图像中位于第τx行第τy列的像素的蓝色通道值；

将所述任一帧牙齿图像中的各像素的灰度值进行归一化，得到各像素归一化后的灰度值Gray(τx,τy)’=Gray(τx,τy)^λ，其中，λ为归一化参数；

将所述任一帧牙齿图像中的各像素归一化后的灰度值与水平方向梯度算子进行卷积，得到各像素的水平梯度分量Gray(τx,τy)’_x；同时，所述任一帧牙齿图像中的各像素归一化后的灰度值与垂直方向梯度算子进行卷积，得到各像素的垂直梯度分量Gray(τx,τy)’_y；其中，水平方向梯度算子为，直方向梯度算子为；

计算所述任一帧牙齿图像中的各像素的水平梯度值Grad(τx,τy)_x和垂直梯度值Grad(τx,τy)_y，其中，Grad(τx,τy)_x=Gray(τx+1,τy)’_x-Gray(τx-1,τy)’_x，Grad(τx,τy)_y=Gray(τx,τy+1)’_y-Gray(τx,τy-1)’_y，Gray(τx+1,τy)’_x为第τ帧牙齿图像中位于第τx+1行第τy列的像素的水平梯度分量，Gray(τx-1,τy)’_x为第τ帧牙齿图像中位于第τx-1行第τy列的像素的水平梯度分量，Gray(τx,τy+1)’_y为第τ帧牙齿图像中位于第τx行第τy+1列的像素的垂直梯度分量，Gray(τx,τy-1)’_y为第τ帧牙齿图像中位于第τx行第τy-1列的像素的垂直梯度分量；

计算所述任一帧牙齿图像中的各像素的梯度值Grad(τx,τy)和方向Direction(τx,τy)，其中，Grad(τx,τy)=(Grad(τx,τy)_x ²+Grad(τx,τy)_y ²)^1/2，Direction(τx,τy)=tan^-1(Grad(τx,τy)_x/Grad(τx,τy)_y)；

将所述任一帧牙齿图像划分成多个小方格；

根据每个小方格中各像素的不同梯度值的个数确定方向梯度直方图特征；

根据所述方向梯度直方图特征，采用位置的高斯核函数和尺度的高斯核函数进行目标检测，得到所述目标牙齿位置；其中，所述位置的高斯核函数为exp[-((目标位置-目标中心位置)/位置标准差)²]，所述尺度的高斯核函数为exp[-((目标尺度-目标中间尺度)/位置标准差)²]。

（三）有益效果

获取目标牙齿；所述目标牙齿为用户基于初始牙齿图像选定的；在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别所述目标牙齿，同时，对所述目标牙齿进行跟踪；根据识别结果和跟踪结果，在各帧牙齿图像中跟踪所述目标牙齿。本发明涉及的方法在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，同时进行识别和跟踪，根据识别结果和跟踪结果跟踪目标牙齿，可以避免牙齿在处理过程中由于形变、光照变化、尺度变化、遮挡、消失等情况造成的识别精度下降、定位不准确等问题。

附图说明

图1为本发明一实施例提供的一种基于牙齿图像的识别跟踪方法的流程示意图。

实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

现有的口腔显微镜手术机器人通过深度学习模型的方案，采集口腔病牙RGB图片，制作训练集，通过网络训练深度学习模型，预测RGB图片中病牙位置，以其像素位置推算得到其三维坐标，将三维坐标传递给机械臂，操纵机械臂对病牙进行处理；此种方案的缺点牙齿的特征点较少，无论是洁牙还是根管治疗，手术过程中，牙齿的外围轮廓都有可能在变化，特征点也在变化，导致模型的识别率会急速下降。

基于此，本发明提供一种基于牙齿图像的识别跟踪方法，该方法包括：获取目标牙齿；所述目标牙齿为用户基于初始牙齿图像选定的；在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别所述目标牙齿，同时，对所述目标牙齿进行跟踪；根据识别结果和跟踪结果，在各帧牙齿图像中跟踪所述目标牙齿。本发明涉及的方法在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，同时进行识别和跟踪，根据识别结果和跟踪结果跟踪目标牙齿，可以避免牙齿在处理过程中由于形变、光照变化、尺度变化、遮挡、消失等情况造成的识别精度下降、定位不准确等问题。

参见图1，本实施例提供的基于牙齿图像的识别跟踪方法实现过程如下：

S101，获取目标牙齿。

其中，目标牙齿为用户基于初始牙齿图像选定的。

在具体实现时，可以获取患者最新的牙齿图像，将其作为初始牙齿图像，并向用户（如医生）展示该牙齿图像，由用户在初始牙齿图像中选定目标牙齿。

S102，在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别目标牙齿，同时，对目标牙齿进行跟踪。

其中，

识别模型的激活函数sigmoid(o)为：

sigmoid(o)=o*[1/(1+e^-o)]，o为变量。

识别模型的损失函数loss为：

loss=1-[IOU-ρ(A_ctr,B_ctr)²/d²-ρ(A_ctr,B_ctr)²/C_w ²-ρ(A_ctr,B_ctr)²/C_h ²-δ²/(1-IOU+δ)]。

其中，IOU为第二商值，IOU=|A_ctr∩B_ctr|/|A_ctr∪B_ctr|，A_ctr为锚框，B_ctr为真实框，真实框基于用户对初始牙齿图像的选定确定，ρ(A_ctr,B_ctr)为A_ctr中心点至B_ctr中心点之间的距离，d为包含A_ctr和B_ctr的最小外接矩形的对角线长度，C_w为包含A_ctr的最小外接矩形的宽度，C_h为包含B_ctr的最小外接矩形的高度，δ为影响因子，δ=[arctan(WA_ctr/HA_ctr)-arctan(WB_ctr/HB_ctr)]²*4/π²，WA_ctr为A_ctr的长，HA_ctr为A_ctr的高，WB_ctr为B_ctr的长，HB_ctr为B_ctr的高。

在用户选定目标牙齿后，会对患者的牙齿进行处理，通过步骤S102会持续获取处理过程中的牙齿图像，并对每帧牙齿图像同时进行牙齿识别和跟踪，以便在处理过程中造成目标牙齿形变、光照变化、尺度变化、遮挡、消失等情况下依然能够准确的识别出目标牙齿，进行目标牙齿的精准跟踪。

步骤S102包括同时进行的两种处理，一种为对牙齿处理的过程中持续获取的每帧牙齿图像进行识别模型的识别，以便识别目标牙齿；另一种为同时，对牙齿处理的过程中持续获取的每帧牙齿图像进行目标跟踪，以便跟踪目标牙齿。下面分别对两种处理细节进行说明。

一、在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别目标牙齿的实现过程。

将每帧牙齿图像输入已经训练好的识别模型中，该训练好的识别模型的输出即为目标牙齿。

因此，在执行步骤102之前，会预先训练识别模型，保证识别模型的精准性。

识别模型的训练过程为：

1、从训练集中获取a组图像。

其中，训练集中包括多张样本图像，每组图像包括训练集中随机选择的b张图像，a和b为预设的正整数。

例如，a为100，b为4，那么就会从训练集中获取100组图像，每组图像中包括4张图像，且任一组图像包括的4张图像均是从训练集中随机选择的。

也就是说，任两组图像中包括的具体图像可能出现重复，如第一组图像中包括的其中一张图像，与第五组图像中包括的其中一张图像是同一张图像。本实施例不对图像组之间是否存在相同图像进行限定。

2、对每组图像进行处理，并对处理后的图像进行拼接，形成拼接图像。

通过步骤2会将每组图像拼接成拼接图像。

其中拼接之前会对图像进行处理，例如色域处理（如对图像的明亮度、饱和度、色调等中的一种或多种参数进行改变），旋转处理（如对图像进行左右翻转等），缩放处理（例如对图像进行大小的缩放等）等。且，处理时，可以仅做一种处理，如仅做色域处理，也可以顺序的做多种处理，如先做色域处理，再做缩放处理等。本实施不对对图像进行处理的内容和顺序进行限定。下面分别对色域处理，旋转处理，缩放处理的实现细节进行说明。

1）色域处理

对于任一组图像中的任一张图像（如第i张图像），执行如下步骤：

1.1获取任一张图像的红色通道值R_i，绿色通道值G_i，蓝色通道值B_i。

其中，i为图像标识。

通过步骤1.1可以获取图像i的RGB（红黄蓝）颜色空间的红色通道值R_i，绿色通道值G_i，蓝色通道值B_i。

1.2确定任一张图像的红色分量r_i=R_i/(R_i+G_i+B_i)。

1.3确定任一张图像的绿色分量g_i=G_i/(R_i+G_i+B_i)。

1.4确定任一张图像的绿色分量b_i=1-r_i-g_i。

通过步骤1.2至1.4可以实现图像i的红色通道值R_i，绿色通道值G_i，蓝色通道值B_i的归一化，得到归一化后的值r_i、g_i和b_i。

1.5根据r_i、g_i和b_i，确定任一张图像的色调H_i，饱和度S_i和明度V_i。

步骤1.5的实现过程为：

1.5.1确定r_i、g_i和b_i中的最大值max_i和最小值min_i。

即，max_i=max(r_i,g_i,b_i)，min_i=min(r_i,g_i,b_i)。

max()为求最大值函数，min()为求最小值函数。

1.5.2确定任一张图像的色调H_i。

在确定色调时，可以仅基于r_i、g_i和b_i的情况确定，也可以基于r_i、g_i和b_i以及任一张图像的色温确定，下面分别对两种确定方法的实现细节进行说明：

（一）仅基于r_i、g_i和b_i的情况确定色调H_i

在确定图像i的色调H_i时，分如下几种情况：

第一种情况，max_i=min_i

如果max_i=min_i，则确定任一张图像的色调H_i=0。

第二种情况：max_i≠min_i

针对第二种情况，

如果max_i=r_i且g_i≥b_i，则确定任一张图像的色调H_i=60*(g_i-b_i)/(max_i-min_i)。

如果max_i=r_i且g_i<b_i，则确定任一张图像的色调H_i=360+60*(g_i-b_i)/(max_i-min_i)。

如果max_i=g_i，则确定任一张图像的色调H_i=120+60*(g_i-b_i)/(max_i-min_i)。

如果max_i=b_i，则确定任一张图像的色调H_i=240+60*(g_i-b_i)/(max_i-min_i)。

也就是说，如果max_i≠min_i，但max_i=r_i且g_i≥b_i，则确定任一张图像的色调H_i=60*(g_i-b_i)/(max_i-min_i)。如果max_i≠min_i，但max_i=r_i且g_i<b_i，则确定任一张图像的色调H_i=360+60*(g_i-b_i)/(max_i-min_i)。如果max_i≠min_i，但max_i=g_i，则确定任一张图像的色调H_i=120+60*(g_i-b_i)/(max_i-min_i)。如果max_i≠min_i，但max_i=b_i，则确定任一张图像的色调H_i=240+60*(g_i-b_i)/(max_i-min_i)。

（二）基于r_i、g_i和b_i以及任一张图像的色温确定色调H_i

牙科显微镜光源采用6500K（开尔文）LED照明，由于物镜靶面较大，物镜中心和边缘的照明色温相差较大，中心色温6700k，边缘色温5300k；亮度范围0~84600lx（勒克斯），亮度变化范围大，采用hsv变化之后，颜色h不随亮度变化。但是牙齿的主要颜色分量为黑、白、黄、红（牙齿上有血干扰），需要针对牙齿的主要颜色分量，对样本进行数据集扩增。因此，可以基于r_i、g_i和b_i以及任一张图像的色温确定色调H_i。

在确定图像i的色调H_i时，分如下几种情况：

第一种情况，max_i=min_i

如果max_i=min_i，则确定任一张图像的色调H_i=0。

第二种情况：max_i≠min_i

针对第二种情况，

如果max_i=r_i且g_i≥b_i，任一张图像的色温≥6000K（开尔文）则确定任一张图像的色调H_i=60*(g_i-b_i)/(max_i-min_i)。

如果max_i≠min_i，但max_i=r_i且g_i≥b_i，5800K（开尔文）≤任一张图像的色温<6000K（开尔文），则确定任一张图像的色调H_i=300+60*(g_i-b_i)/(max_i-min_i)。

如果max_i≠min_i，但max_i=r_i且g_i≥b_i，任一张图像的色温<5800K（开尔文），则确定任一张图像的色调H_i=320+60*(g_i-b_i)/(max_i-min_i)。

如果max_i≠min_i，但max_i=r_i且g_i<b_i，任一张图像的色温>5600K（开尔文），则确定任一张图像的色调H_i=340+60*(g_i-b_i)/(max_i-min_i)。

如果max_i≠min_i，但max_i=r_i且g_i<b_i，任一张图像的色温≤5600K（开尔文），则确定任一张图像的色调H_i=360+60*(g_i-b_i)/(max_i-min_i)。

1.5.3确定任一张图像的饱和度S_i。

如果max_i=0，则确定任一张图像的饱和度S_i=0。

如果max_i≠0，则确定任一张图像的饱和度S_i=(max_i-min_i)/max_i。

1.5.4确定任一张图像的明度V_i。

确定任一张图像的明度V_i=max_i。

通过步骤1.1至1.5可以完成第i张图像的RGB（红黄蓝）颜色空间至HSV（色调，饱和度，明度）颜色空间的转换。

由于r_i、g_i和b_i均为归一化后的值，范围为0~1。H_i表示色彩信息，即所处的光谱颜色的位置，该参数用一个角度量来表示，红、绿、蓝分别相隔120度，互补色相差180度。S_i为一个比值，范围为0~1，它表示所选颜色的纯度和该颜色最大的纯度之间的比率。S_i=0时，只有灰度。V_i表示色彩的明亮程度，范围为0~1。

在具体实现时，在得到图像i的色调H_i，饱和度S_i和明度V_i之后，还可以对其任一参数进行变化，以便得到不同色调的图像，以便扩充最终进行识别模型训练的输入图像数量。其变化过程为：保持S_i和V_i不变，H_i从0°每次递增1°至360°，保存各个阶段的图像；保持H_i和V_i不变，S_i从0每次递增0.02至1，保存各个阶段的图像；保持H_i和S_i不变，V_i从0每次递增0.02至1，保存各个阶段的图像。

需要说明的是，上述递增的截止数值（如360°，1等）以及递增步长（如1°，0.02等）均为示例，实际应用时，可以保持S_i和V_i不变，H_i从0°每次递增1°至300°等。本实施例不对递增的截止数值进行限定，同时也不对递增步长进行限定。

通过上述变化，对于一组图像，其中的每张图像均又进行了扩充，例如，包括色调上由一张变为359张（需要说明的是，对于扩充出的图像，是不包括原图像的，例如，对于原图像，进行了色调的扩充得到2张图像，即为改变了两次色调，是与原图像不同的2张图像，也就是说图像11、图像12和图像1是独立的三张图像，且三张图像的色调不相同），其中每张对应一个H_i，在饱和度上由一张变为50张，其中每张对应一个S_i，在明度上由一张变为50张，其中每张对应一个V_i。因此，一组图像如果包括b图像，那么经过上述变化后，该组图像会变为b*（359+50+50）+b*1张，此处的1张为原图像，前面的359+50+50是经过三个维度扩充出的图像。

另外，在具体实现时，也可以进行部分扩展，如仅进行色调上的扩充，即1张图像仅在色调上由一张变为360张，其中每张对应一个H_i，对于饱和度和明度不做扩充。还可以一组图像中的部分图像进行扩充，若一组图像包括b张图像，仅对其中的1张进行扩充。扩充时依然可以在色调、饱和度、明度中的一个或多个维度进行扩充。

本实施例不对具体的扩充图像数量和扩充维度进行限定。

在扩充之后，原来的1张图像会扩充为多张图像。

1.6根据H_i，S_i和V_i，确定任一张图像进行色域处理后的红色通道值R’_i，绿色通道值G’_i，蓝色通道值B’_i。

在执行步骤1.5之后，0≤H_i<360，0≤S_i≤1和0≤V_i≤1，那么在执行步骤1.6的过程为：

计算第一商值=H_i/60。

计算第一值h_i=第一商值的向下取整。即h_i=为H_i/60的向下取整。

计算第二值f_i=第一商值-h_i。

计算第三值p_i=V_i*(1-S_i)。

计算第四值q_i=V_i*(1-f_i*S_i)。

计算第五值t_i=V_i*[1-(1-f_i)*S_i]。

若h_i=0，则确定任一张图像进行色域处理后的红色通道值R’_i=V_i，绿色通道值G’_i=t_i，蓝色通道值B’_i=p_i。

若h_i=1，则确定任一张图像进行色域处理后的红色通道值R’_i=q_i，绿色通道值G’_i=V_i，蓝色通道值B’_i=p_i。

若h_i=2，则确定任一张图像进行色域处理后的红色通道值R’_i=p_i，绿色通道值G’_i=V_i，蓝色通道值B’_i=t_i。

若h_i=3，则确定任一张图像进行色域处理后的红色通道值R’_i=p_i，绿色通道值G’_i=q_i，蓝色通道值B’_i=V_i。

若h_i=4，则确定任一张图像进行色域处理后的红色通道值R’_i=t_i，绿色通道值G’_i=p_i，蓝色通道值B’_i=V_i。

若h_i=5，则确定任一张图像进行色域处理后的红色通道值R’_i=V_i，绿色通道值G’_i=p_i，蓝色通道值B’_i=q_i。

2）旋转处理

2.1确定任一张图像的旋转角度θ_i。

其中，i为图像标识。若为逆时针旋转，则θ_i的符号为正号，否则θ_i的符号为负号。

旋转角度的确定方案可以有多种，本实施例不进行限定，例如，用户确定，再例如，图像中标志对象（如楼房）相对标准轴（如纵轴）之间的角度。

2.2任一张图像中任一像素点进行旋转后的横轴坐标为r_ijcos(α_ij-θ_i)，旋转后的纵轴坐标为γ_ijsin(α_ij-θ_i)。

坐标系以图像中左上角像素为原点，水平向右为横坐标正向，垂直向下为纵坐标正向。那么坐标原点即图像左上角像素点。

同样的，在具体实现时，在得到图像i的θ_i之后，依然可以对其任一参数进行变化，以便得到不旋转角度的图像，以便扩充最终进行识别模型训练的输入图像数量。其变化过程为：将图像从当前角度开始，每次改变1°至θ_i为止，保存各个阶段的图像。

3）缩放处理

此处的缩放可以为等比例缩放，也可以为不等比例缩放。

3.1获取横轴缩放因子fx_i和纵轴缩放因子fy_i。

其中，i为图像标识。

本实施例不对缩放因子fx_i和纵轴缩放因子fy_i的获取过程进行限定，如预先设置了缩放因子fx_i和纵轴缩放因子fy_i，则直接获取设置的缩放因子fx_i和纵轴缩放因子fy_i。

3.2通过如下公式计算任一张图像进行缩放后的坐标：

。

其中，x’_i为任一张图像i进行缩放后的横轴坐标，y’_i为任一张图像i进行缩放后的纵轴坐标，x_i为任一张图像i进行缩放前的横轴坐标，y_i为任一张图像i进行缩放前的纵轴坐标。

同样的，在具体实现时，在进行进行缩放时，还可以各轴的多种比例缩放。例如，在3.1确定横轴缩放因子fx_i=0.8，那么从fx_i=0开始，每次增加0.2，直至0.8，即分别以fx_i=0，fx_i=0.2，fx_i=0.4，fx_i=0.6，fx_i=0.8作为步骤3.2中的fx_i进行计算，得到对应的缩放后的坐标，并保存各缩放后的坐标所对应的图像。

可以同时对横轴和纵轴均进行多种比例的缩放，也可以仅对其中一个轴（如横轴，或者，纵轴）进行多种比例缩放。

以上为对每组图像进行处理的过程进行描述，对于任一组图像，在对其包括的各图像进行处理之后，会将处理后的图像进行拼接，形成拼接图像。

具体的拼接方法可以采用现有的方法，如一组图像有4张，那么4张横向依次拼接，或者4张竖向依次拼接，或者采用4宫格形式拼接等。本实施例不对拼接方案进行限定。

另外，拼接图像可以为一张或多张，如果在上述图像处理过程中未进行扩充，则会形成一张，如果进行了扩充，则会形成多张。

例如，在进行色域处理时进行了扩充，由原来的1张图像扩充为多张图像，在拼接时，可以从每张图像所扩充出的图像中选1张，与其他图像进行拼接。

如原来一组图像包括4张图像，图像1，图像2，图像3，图像4。在色域处理时扩充后，图像1扩充出了2张，分别为图像11和图像12（需要说明的是，对于扩充出的图像，是不包括原图像的，例如，对于原图像，进行了色调的扩充得到2张图像，即为改变了两次色调，是与原图像不同的2张图像，也就是说图像11、图像12和图像1是独立的三张图像，且三张图像的色调不相同），那么在后续拼接时，除了将原图像进行拼接，即将图像12、图像2、图像3和图像4进行拼接，得到另一张拼接图像之外，还会将图像11、图像2、图像3和图像4进行拼接，得到一张拼接图像。将图像12、图像2、图像3和图像4进行拼接，得到另一张拼接图像。

另外，对于扩充，各处理的扩充是独立的，互补影响，例如，一张图像进行了色域，旋转，缩放三种处理，可以在每种处理时均进行扩充，那么最终会将所有扩充作为该图像的一种扩充后图像进行处理。例如，图像1在进行色域处理后扩充出2张，在进行旋转处理后扩充出3张，在进行缩放后扩充出4张，那么图像1最终扩充出9张，加上原始的图像1，在进行拼接时，会依次从10张图像中选择一张，与其他图像进行拼接。

3、依次选择一张各组图像的拼接图像，确定选择的拼接图像中的锚框，通过目标识别与检测算法以及锚框，采用卷积神经网络对选择的拼接图像进行目标检测，基于检测结果训练识别模型。

其中，确定选择的拼接图像中的锚框过程如下：

1）获取聚类的簇数U。

本实施例不对簇数的确定方案进行限定，可以将总牙数作为族数，也可以预设一个簇数。

2）重复进行多次聚类，直至当前聚类后聚类结果与前一次聚类结果之差满足预设条件。

其中，每次聚类时，均执行步骤S201和S202：

S201，确定每簇的中心。

S202，计算选择拼接图像中非中心的各点与各簇的中心的距离，并将非中心的各点归入距离最小的簇中。

其中，u为簇标识，n为非聚类中心的点的标识，N为非聚类中心的点的总数量，M_nu为非聚类中心的点n对第u簇的中心的隶属度（隶属度为一个N*U矩阵，隶属度矩阵表示的是每个非聚类中心的点属于每个簇的程度，对于单个非聚类中心的点，它对于每个簇的隶属度之和为1。对于每个非聚类中心的点在哪个簇的隶属度最大归为哪个簇。越接近于1表示隶属度越高，反之越低），v_n为任一非聚类中心的点n的特征，c_u为第u簇的中心的特征，|| ||为范数计算函数（如欧几里得范数），，k为簇标识，c_k为第k簇的中心的特征。

预设条件如下：

max_nu(|M_nu(e)-M_nu(e-1)|)<ε。

其中，e为聚类次数，M_nu(e)为第e次聚类后非聚类中心的点n对第u簇的中心的隶属度，M_nu(e-1)为第e-1次聚类后非聚类中心的点n对第u簇的中心的隶属度，max()为求最大值函数，ε为预先设置的误差阈值（是一个很小的常数）。

上述聚类过程通过反复的迭代运算，逐步降低聚类后非聚类中心的点对中心的隶属度的误差值，当误差值小于ε时（即继续迭代下去，隶属程度也不会发生较大的变化，认为隶属度不变了，已经达到比较优（局部最优或全局最优）状态了），可得到最终的聚类结果，进而保证了簇内相似度最高，簇间相似度最低。

3）将当前每簇的最小外接矩形作为锚框。

另外，进行目标检测训练时所采用的卷积神经网络的激活函数sigmoid(o)为：

sigmoid(o)=o*[1/(1+e^-o)]，其中，o为变量。

该卷积神经网络的损失函数loss为：

其中，IOU为第二商值，IOU=|A_ctr∩B_ctr|/|A_ctr∪B_ctr|，A_ctr为锚框，B_ctr为真实框，真实框基于用户对初始牙齿图像的选定确定（例如，用户在初始牙齿图像中框出牙齿的最小外接矩形，将其存储在标注文件中，那么此时，会读取标注文件，得到真实框），ρ(A_ctr,B_ctr)为A_ctr中心点至B_ctr中心点之间的距离，d为包含A_ctr和B_ctr的最小外接矩形的对角线长度，C_w为包含A_ctr的最小外接矩形的宽度，C_h为包含B_ctr的最小外接矩形的高度，δ为影响因子，δ=[arctan(WA_ctr/HA_ctr)-arctan(WB_ctr/HB_ctr)]²*4/π²，WA_ctr为A_ctr的长，HA_ctr为A_ctr的高，WB_ctr为B_ctr的长，HB_ctr为B_ctr的高。

因此最终得到的识别模型的激活函数sigmoid(o)为：sigmoid(o)=o*[1/(1+e^-o)]，识别模型的损失函数loss为：loss=1-[IOU-ρ(A_ctr,B_ctr)²/d²-ρ(A_ctr,B_ctr)²/C_w ²-ρ(A_ctr,B_ctr)²/C_h ²-δ²/(1-IOU+δ)]。

本发明所采用的损失函数loss考虑到2个框的相对位置、中心点距离、宽高比三种因素，能更为精确地反映模型训练时的损失情况。

本实施例不对具体的卷积神经网络模型结构进行限定，只要激活函数sigmoid(o)=o*[1/(1+e^-o)]，损失函数loss=1-[IOU-ρ(A_ctr,B_ctr)²/d²-ρ(A_ctr,B_ctr)²/C_w ²-ρ(A_ctr,B_ctr)²/C_h ²-δ²/(1-IOU+δ)]即可。

例如，采用如下卷积神经网络模型实现：对输入的图像（即选择的拼接图像）采用slic切片和cnn卷积操作，变成400*300*32的特征图；将输入特征图一分为二，分别进行卷积运算在通过局部跨层合并；同时进行最大池化和张量拼接，提升模型感受野；其中的骨干层3*3的卷积模块步长为2，最后网络输出76*76，38*38，20*20三种像素尺寸的特征图进入Neck网络。

在Neck网络中，采用YOLOv5实现，其中，YOLOv5中添加了FPN+PAN结构，形成了PANet（path aggregation network，路径聚合网络）；PANet增加了卷积下采样部分，得到三种不同尺寸的特征图输入预测层。预测层特征图深度为3*（5+K），K是检测目标的类别数。进而进入Head输出层。

在Head输出层中，输出层的锚框机制与YOLOv4相同，采用的损失函数loss=1-[IOU-ρ(A_ctr,B_ctr)²/d²-ρ(A_ctr,B_ctr)²/C_w ²-ρ(A_ctr,B_ctr)²/C_h ²-δ²/(1-IOU+δ)]。

上述结构在进行卷积计算过程中采用sigmoid(o)=o*[1/(1+e^-o)]。

二、在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，对目标牙齿进行跟踪的实现过程。

本实施例中采用多尺度跟踪方法实现对每帧牙齿图像中目标牙齿的跟踪。由于在目标跟踪中相邻两帧的目标尺度变化很小，则会先检测出目标位置，然后在检测出的目标位置周围采集训练样本（通过相机拍摄的视频流，采集训练样本），训练分类器获得一个尺度，然后利用这个尺度预测目标尺度，从而完成目标位置和尺度的检测。

训练样本使用从目标周围多尺度的图像块中提取HOG（Histogram of OrientedGradient，方向梯度直方图）特征。在提取特征之前，将不同尺度的图像块通过双线性插值变换到与初始目标区域尺寸相同。

基于上述思想，本过程的实现细节如下：

4.1对任一帧牙齿图像中的各像素进行灰度化，得到灰度值Gray(τx,τy)=0.33*R(τx,τy)+0.59*G(τx,τy)+0.11*B(τx,τy)。

其中，τ为在进行牙齿处理的过程中持续获取的牙齿图像标识，τx为第τ帧牙齿图像的像素矩阵中行标识，τy为第τ帧牙齿图像的像素矩阵中列标识，R(τx,τy)为第τ帧牙齿图像中位于第τx行第τy列的像素的红色通道值，G(τx,τy)为第τ帧牙齿图像中位于第τx行第τy列的像素的绿色通道值，B(τx,τy)为第τ帧牙齿图像中位于第τx行第τy列的像素的蓝色通道值。

4.2将任一帧牙齿图像中的各像素的灰度值进行归一化，得到各像素归一化后的灰度值Gray(τx,τy)’=Gray(τx,τy)^λ。

其中，λ为归一化参数。例如λ=0.5。

步骤4.2的目的是调节图像的照度，减少图像局部的阴影和显微镜光源亮度变化所造成的影响，同时能够抑制显微镜光学噪声的干扰。在图像照度不均匀的情况下，通过步骤4.2将图像整体亮度提高或降低。

4.3将任一帧牙齿图像中的各像素归一化后的灰度值与水平方向梯度算子进行卷积，得到各像素的水平梯度分量Gray(τx,τy)’_x。同时，任一帧牙齿图像中的各像素归一化后的灰度值与垂直方向梯度算子进行卷积，得到各像素的垂直梯度分量Gray(τx,τy)’_y。

其中，水平方向梯度算子为，直方向梯度算子为。

4.4计算任一帧牙齿图像中的各像素的水平梯度值Grad(τx,τy)_x和垂直梯度值Grad(τx,τy)_y。

其中，Grad(τx,τy)_x=Gray(τx+1,τy)’_x-Gray(τx-1,τy)’_x，Grad(τx,τy)_y=Gray(τx,τy+1)’_y-Gray(τx,τy-1)’_y，Gray(τx+1,τy)’_x为第τ帧牙齿图像中位于第τx+1行第τy列的像素的水平梯度分量，Gray(τx-1,τy)’_x为第τ帧牙齿图像中位于第τx-1行第τy列的像素的水平梯度分量，Gray(τx,τy+1)’_y为第τ帧牙齿图像中位于第τx行第τy+1列的像素的垂直梯度分量，Gray(τx,τy-1)’_y为第τ帧牙齿图像中位于第τx行第τy-1列的像素的垂直梯度分量。

4.5计算任一帧牙齿图像中的各像素的梯度值Grad(τx,τy)和方向Direction(τx,τy)。

其中，Grad(τx,τy)=(Grad(τx,τy)_x ²+Grad(τx,τy)_y ²)^1/2，Direction(τx,τy)=tan^-1(Grad(τx,τy)_x/Grad(τx,τy)_y)。

通过步骤4.3至4.5可以计算图像每一个像素的梯度（包含梯度大小Grad(τx,τy)和梯度方向Direction(τx,τy)）。步骤4.3至4.5主要是为了捕获轮廓信息，同时进一步弱化光照的干扰。

4.6将任一帧牙齿图像划分成多个小方格。

4.7根据每个小方格中各像素的不同梯度值的个数确定方向梯度直方图特征。

4.8根据方向梯度直方图特征，采用位置的高斯核函数和尺度的高斯核函数进行目标检测，得到目标牙齿位置。

其中，位置的高斯核函数为exp[-((目标位置-目标中心位置)/位置标准差)²]，尺度的高斯核函数为exp[-((目标尺度-目标中间尺度)/位置标准差)²]。

例如，在执行步骤4.6至4.8时，将任一帧牙齿图像划分成多个小方格（Cell），为每一个小方格构建梯度方向直方图，将Cell的梯度方向360度分成9个方向块（Block）。也就是说，一个块（Block）都由若干网格单元Cell组成，一个单元Cell都有若干个像素点组成。

假设牙齿检测的参数设置是：2×2Cell/ Block、8×8像素/Cell、9个直方图通道（9 bins），一个Cell的HOG描述子向量的长度为9，一个块的特征向量长度为：2×2×9=36，所以检测窗口的HOG向量长度=105×4×9=3780。

统计每一个Cell的梯度直方图不同梯度的个数，就可以形成每一个Cell的描述算子descriptor；在计算每个Cell的梯度直方图时，可以用三线性插值来提高计算速率。对于每个Cell的点，认为都是一个三维向量。将每几个Cell组成一个Block（比如2×2个Cell/Block），一个Block内全部Cell的特征descriptor串联起来便得到该Block的HOG特征描述算子descriptor。

将任一帧牙齿图像中的全部Block的HOG特征descriptor串联起来就能够得到该目标牙齿的HOG特征descriptor了，进而实现对目标牙齿的跟踪。

S103，根据识别结果和跟踪结果，在各帧牙齿图像中跟踪目标牙齿。

在执行步骤S102之后，对于在进行牙齿处理的过程中的每帧牙齿图像均会得到目标牙齿的两个结果，一个是通过模型识别得到的目标牙齿的识别结果（该结果为目标牙齿的一个预测框，该预测框为预测的目标牙齿的最小外接矩形），一个是通过跟踪得到的目标牙齿的跟踪牙齿（该结果也为目标牙齿的一个预测框，该预测框为预测的目标牙齿的最小外接矩形），在步骤S103中，会从两种结果中选择一个作为该帧中该目标牙齿的最终跟踪结果。

选择依据如下：

分别确定识别结果和跟踪结果的置信度，如果识别结果的置信度大于等于跟踪结果的置信度，则将识别结果所识别到的牙齿作为目标牙齿的最终跟踪结果。否则将跟踪结果跟踪到的牙齿作为目标牙齿的最终跟踪结果。

其中，置信度表征预测框（即识别结果得到的预测框，或者，跟踪结果得到的预测框）的可信程度，取值范围0~1，值越大说明该矩形框中越可能存在目标。

另外本实施例不对置信度的计算方案进行限定，采用现有的相关方案即可。

本实施例提供的基于牙齿图像的识别跟踪方法，获取目标牙齿；所述目标牙齿为用户基于初始牙齿图像选定的；在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别所述目标牙齿，同时，对所述目标牙齿进行跟踪；根据识别结果和跟踪结果，在各帧牙齿图像中跟踪所述目标牙齿。本实施例的方法在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，同时进行识别和跟踪，根据识别结果和跟踪结果跟踪目标牙齿，可以避免牙齿在处理过程中由于形变、光照变化、尺度变化、遮挡、消失等情况造成的识别精度下降、定位不准确等问题。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种基于牙齿图像的识别跟踪方法，其特征在于，所述方法包括：

S102，在进行牙齿处理的过程中持续获取牙齿图像，针对每帧牙齿图像，通过预先训练的识别模型识别所述目标牙齿，同时，对所述目标牙齿进行跟踪；其中，所述识别模型的激活函数sigmoid(o)为：sigmoid(o)=o*[1/(1+e^-o)]，o为变量；所述识别模型的损失函数loss为：loss=1-[IOU-ρ(A_ctr,B_ctr)²/d²-ρ(A_ctr,B_ctr)²/C_w ²-ρ(A_ctr,B_ctr)²/C_h ²-δ²/(1-IOU+δ)]；其中，IOU为第二商值，IOU=|A_ctr∩B_ctr|/|A_ctr∪B_ctr|，A_ctr为锚框，B_ctr为真实框，所述真实框基于用户对初始牙齿图像的选定确定，ρ(A_ctr,B_ctr)为A_ctr中心点至B_ctr中心点之间的距离，d为包含A_ctr和B_ctr的最小外接矩形的对角线长度，C_w为包含A_ctr的最小外接矩形的宽度，C_h为包含B_ctr的最小外接矩形的高度，δ为影响因子，δ=[arctan(WA_ctr/HA_ctr)-arctan(WB_ctr/HB_ctr)]²*4/π²，WA_ctr为A_ctr的长，HA_ctr为A_ctr的高，WB_ctr为B_ctr的长，HB_ctr为B_ctr的高；

2.根据权利要求1所述的方法，其特征在于，所述S102之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述处理为色域处理；

所述对每组图像进行处理，包括：

对于任一组图像中的任一张图像，执行如下步骤：

确定所述任一张图像的红色分量r_i=R_i/(R_i+G_i+B_i)；

确定所述任一张图像的绿色分量g_i=G_i/(R_i+G_i+B_i)；

确定所述任一张图像的绿色分量b_i=1-r_i-g_i；

4.根据权利要求3所述的方法，其特征在于，所述根据r_i、g_i和b_i，确定所述任一张图像的色调H_i，饱和度S_i和明度V_i，包括：

确定r_i、g_i和b_i中的最大值max_i和最小值min_i；

确定所述任一张图像的明度V_i=max_i。

5.根据权利要求3所述的方法，其特征在于，所述根据r_i、g_i和b_i，确定所述任一张图像的色调H_i，饱和度S_i和明度V_i，包括：

确定r_i、g_i和b_i中的最大值max_i和最小值min_i；

确定所述任一张图像的明度V_i=max_i。

6.根据权利要求3所述的方法，其特征在于，所述根据H_i，S_i和V_i；确定所述任一张图像进行色域处理后的红色通道值R’_i，绿色通道值G’_i，蓝色通道值B’_i，包括：

计算第一商值=H_i/60；

计算第一值h_i=第一商值的向下取整；

计算第二值f_i=第一商值-h_i；

计算第三值p_i=V_i*(1-S_i)；

计算第四值q_i=V_i*(1-f_i*S_i)；

计算第五值t_i=V_i*[1-(1-f_i)*S_i]；

7.根据权利要求2所述的方法，其特征在于，所述处理为旋转处理；

所述对每组图像进行处理，包括：

对于任一组图像中的任一张图像，

8.根据权利要求2所述的方法，其特征在于，所述处理为缩放处理；

所述对每组图像进行处理，包括：

对于任一组图像中的任一张图像，

通过如下公式计算所述任一张图像进行缩放后的坐标：

；

其中，x’_i为所述任一张图像i进行缩放后的横轴坐标，y’_i为所述任一张图像i进行缩放后的纵轴坐标，x_i为所述任一张图像i进行缩放前的横轴坐标，y_i为所述任一张图像i进行缩放前的纵轴坐标。

9.根据权利要求2所述的方法，其特征在于，所述确定选择的拼接图像中的锚框，包括：

获取聚类的簇数U；

将当前每簇的最小外接矩形作为锚框；

其中，每次聚类时，均执行步骤S201和S202：

S201，确定每簇的中心；

预设条件如下：

10.根据权利要求1所述的方法，其特征在于，所述对所述目标牙齿进行跟踪，包括：

将所述任一帧牙齿图像划分成多个小方格；