CN115908947A

CN115908947A - 一种基于反绎学习的多模态牙周图像识别方法和系统

Info

Publication number: CN115908947A
Application number: CN202211693971.XA
Authority: CN
Inventors: 叶翰嘉; 姜�远; 李厚轩; 周志华
Original assignee: Nanjing University
Current assignee: NANJING STOMATOLOGICAL HOSPITAL; Nanjing University
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-04

Abstract

本发明公开一种基于反绎学习的多模态牙周图像识别方法和系统，首先，获取标注的牙周疾病图片，并以有监督的方式对于预训练模型进行更新；接着，对于牙周疾病严重程度的知识进行形式化，形成知识库；然后，基于预训练模型对无标注牙周疾病图片数据生成伪标记，并将伪标记与知识库进行对比，用逻辑推理的结果针对伪标记进行矫正与更新，并利用矫正数据重新训练模型；最后，利用训练好的模型生成图片对应的最终标记，并利用多模态融合的方法得到最终的识别结果。本发明利用反绎学习的框架，在仅有少量标注数据的场景下，通过形式化并利用专家知识，在加速训练过程的同时，更能使模型达到较高的识别准确率。

Description

一种基于反绎学习的多模态牙周图像识别方法和系统

技术领域

本发明涉及一种基于反绎学习的多模态牙周图像识别方法和系统，属于图像数据处理技术领域。

背景技术

在目前的科研和临床应用中，基于图像识别的牙周疾病分类主要基于一个“两阶段”的过程：第一步，使用Fast-RCNN等目标检测模型首先定位患者牙周图像中可能存在病变的区域；第二步，基于ResNet等图像分类模型对于检测出来的潜在患病区域做进一步的疾病分类，并将一幅患者牙周图像上的所有预测结果进行综合，得到最终的判断结果。然而此方法在现实场景下的应用中存在明显的不足。在临床应用中，医学影像数据必须从实际患者身上获得，因此其批量收集往往存在困难；其次，实际收集的患者数据类别往往与疾病的严重程度和发病率有关，因此数据类别间存在严重的不平衡现象；同时，医学影像数据的标注需要医生的专业知识和精细标注，其所需的人力物力也比普通图像数据高。因此，医学影像数据往往存在数量少、不平衡、标注少等诸多问题。在牙周疾病分类的“两阶段”方法中，第一阶段所检测出的潜在病变区域的准确性在很大程度上影响了第二阶段判断结果的准确性，而目标检测往往依赖于大量细粒度的数据标注，这样的大量的细粒度标注样本在实际应用中难以获取，且其可迁移性较差；同时，第二阶段的分类模型也往往依赖大量的标注数据才能提升精度，而牙周疾病发病率的不平衡导致了某些类别的数据天生存在难以收集的问题，这使得分类模型的精度提升也存在困难。综上所述，虽然“两阶段”的牙周疾病分类模型在科研中取得了一定成果，但医学影像数据在实际中存在的数量少、不平衡、标注少等问题，使得其在实际临床应用中存在诸多困难。针对上述缺陷，本发明提出了基于反绎学习的多模态牙周图像识别方法和系统，该方法融合了人类专家知识的作用，使得在训练数据数量少、不平衡、标注少的临床应用环境下，深度模型仍能取得良好的分类判别结果。

发明内容

发明目的：医学影像数据存在的数量少、不平衡、标注少等诸多问题，现有的深度学习算法难以在其上训练出具有良好泛化性能的模型。针对这一问题，本发明采用反绎学习的框架，通过在神经网络的训练过程中引入专家知识和逻辑推理的帮助，加快半监督场景下模型的训练速度，提升模型最终的预测准确率。反绎学习是一种旨在结合逻辑推理与神经感知的学习框架，主要表现为逻辑知识库和神经网络的相互提升：在反绎阶段，知识库将对神经网络模型所输出的样本伪标记进行推理，从而实现对于感知结果的矫正，并用矫正后的结果进一步训练模型，提升模型的预测准确率；同时，神经网络模型的结果也可作为依据提升知识库的质量，包括剔除知识库中的噪声和解决知识库中的冲突等等。在实际医疗场景中，反绎学习框架可以凭借专家知识的帮助，更好地利用少量标注数据和大量无标注数据中的信息，提升半监督学习过程中伪标记的质量，提升算法的收敛速度，使得模型在半监督场景下仍可以达到媲美监督学习的训练效率和准确率。在典型的应用场景中，基于反绎学习的算法系统在帮助神经网络模型摆脱对于大量标注数据的依赖的同时，还能帮助机器学习任务收集更多的高质量数据和相应置信度高的伪标记，为今后其它类监督学习研究的开展提供保障。

由于任务所限，本方法假设知识库是准确且完备的，即在反绎学习过程中并不需要根据感知结果对于逻辑知识库进行修改，且默认逻辑知识库的输出结果永远准确。本发明方法能够在有限牙周图像数据的情况下，帮助深度学习模型利用无监督数据的信息快速学习到当前任务，同时保证准确率的稳定性，极大地减轻医生在数据标注阶段的工作量。

技术方案：一种基于反绎学习的多模态牙周图像识别方法，包含四部分：模型的初始化与监督训练、专家知识库的构建、基于反绎学习框架的伪标记生成和模型更新，以及牙周图像识别结果的生成。

模型的初始化与监督训练中：收集标注的少量多模态患者牙周图像；准备预训练模型；利用有标注牙周图像数据对于预训练模型进行多轮梯度下降和反向传播更新参数，形成初始分类模型M_0；

专家知识库的构建中：收集牙周图像关于识别牙周疾病分类时的依据，以一阶谓词逻辑的形式进行抽象化表达，形成专家知识库，记作KB；

基于反绎学习框架的伪标记生成和模型更新中：首先收集大量的无标注多模态牙周图像数据，记作数据集S_0；接着，利用初始分类模型M_0对于S_0中的无标注数据生成伪标记，将打上伪标记之后的数据集记作S'_0；将S'_0所对应的伪标记送入知识库KB中进行推理，对于牙周图像样本s，如果s的伪标记与知识库的逻辑一致，则不对其伪标记作任何修改；如果牙周图像样本s的伪标记与专家知识库的逻辑不一致，则找出所有不被满足的逻辑规则，并对伪标记进行贪心搜索，以修改代价最低且修改后不一致性下降最明显为准则，逐一遍历并修改不符合逻辑规则的伪标记，直到伪标记组合与知识库的不一致性满足预设要求；将矫正伪标记之后的数据集记作S”_0，并将其与初始有标注的牙周图像数据合成数据集S_1，并利用S_1对于初始分类模型M_0进行一轮梯度下降和反向传播更新参数，记最后得到的模型为M_1；利用模型M_1再对S_0中的无标注牙周图像数据生成伪标记，重复上述操作k轮直到模型收敛，记最终得到的分类模型为M；

牙周图像识别结果的生成中：收集牙周图像测试集T；利用分类模型M对于测试集T生成识别结果，记录每个样本最终输出的logit；收集来自同一患者的多模态图像的识别结果，利用多模态融合集成的方法生成患者最终的牙周图像识别结果。

模型的初始化与监督训练具体实现过程为：

步骤100，收集少量数码相机所拍摄的牙周图像序列，并提取出多模态牙周图像，并进行标注，形成初始有监督数据集；

步骤101，准备ImageNet上的预训练模型；

步骤102，使用交叉熵损失函数和初始有监督数据集中的标注数据，对于预训练模型进行多轮梯度下降和反向传播更新参数，直到模型在训练集上过拟合，且验证集上的准确率不再发生明显上升，此时视为完成训练，记当前模型为初始分类模型M_0。

专家知识库的构建过程具体为：

步骤200，收集判断牙周疾病严重程度的专业依据和判断过程，作为记录；

步骤201，从记录中提取专业判断所用到的逻辑元素，并按照属性分别记录为常量、变量、函数或谓词等；

步骤202，将步骤201中提取到的常量、变量、函数和谓词等抽象化为一阶逻辑中所使用的符号；

步骤203，利用步骤202中抽象化所得符号，对于判断牙周疾病严重程度的推理过程利用一阶逻辑进行公式化，形成专家知识库，记为KB。

基于反绎学习框架的伪标记生成和模型更新具体为：

步骤300，收集患者的多模态牙周图像数据集，形成数据集S_0，该数据集无需进行标注；

步骤301，利用步骤102所得初始分类模型M_0对于S_0中的无标注数据生成伪标记，将打上伪标记之后的数据集记作S'_0；

步骤302，将S'_0所对应的伪标记送入知识库KB中进行推理。对于数据集S'_0中的样本s：如果s的伪标记与知识库的逻辑一致，则不对其伪标记作任何修改，并跳转步骤304；如果s的伪标记与专家知识库的逻辑不一致，则跳转步骤303；

步骤303，如果伪标记与知识库不一致，则找出伪标记所不满足的所有逻辑规则，并对伪标记开始进行贪心搜索，以修改代价最低且修改后不一致性下降最明显为准则，逐一遍历并修改不符合逻辑规则的伪标记，直到伪标记组合与知识库的不一致性满足预设要求，返回反绎得到的矫正伪标记；

步骤304，将矫正伪标记之后的数据集记作S”_0，并将其与初始有监督数据合成数据集S_1；

步骤305，利用S_1对于初始分类模型M_0进行一轮梯度下降和反向传播更新参数，记得到的模型为M_1；

步骤306，如果此时训练过程满足停止要求，则跳转步骤307，否则跳转执行步骤301；

步骤307，输出反绎训练过程最终得到的分类器M。

所述基于反绎学习框架的伪标记生成和模型更新过程中，判断训练过程停止的方法为达到预先设置的训练轮数n＝50，或者反绎过程中需要矫正的伪标记比例小于定值，且模型达到过拟合。

牙周图像识别结果的生成具体为：

步骤400，收集未标注的多模态牙周图像测试集T；

步骤401，对于测试集T中的每一个样本t，利用分类模型M生成其分类识别结果，记录每个样本最终输出的logit；

步骤402，将来自同一患者的多模态牙周图像分成一组，记为Z^k_i，其中i表示该组牙周图像对应的患者序号，k表示该组多模态牙周图像的数量；

步骤403，对于每一组多模态牙周图像数据Z^k_i，计算k个输出的平均值

其中logit_i.k表示第i组第k个样本对应的原始logit值，并将logit_i中置信度最高的类别作为序号为i的患者的牙周疾病分类识别结果。

其中，训练和识别阶段可对牙周图像样本进行进一步预处理，包括缩放、添加噪声、随机扰动、随机裁剪、归一化等操作，这样做的目的是增加样本空间的多样性，在提高模型的泛化能力的同时，也能通过集成提高模型的预测性能。

所述梯度下降，指随机梯度下降法，即通过在一小批数据上计算损失函数的梯度而迭代地更新模型参数，帮助模型收敛到(局部)最优解。

一种基于反绎学习的多模态牙周图像识别系统，包含：模型的初始化与监督训练模块、专家知识库的构建模块、基于反绎学习框架的伪标记生成和模型更新模块，以及牙周图像识别结果的生成模块。

模型的初始化与监督训练模块：收集标注的少量多模态患者牙周图像；准备预训练模型；利用有标注牙周图像数据对于预训练模型进行多轮梯度下降和反向传播更新参数，形成初始分类模型M_0；

专家知识库的构建模块：收集关于牙周图像关于识别牙周疾病分类时的依据，以一阶谓词逻辑的形式进行抽象化表达，形成专家知识库，记作KB；

基于反绎学习框架的伪标记生成和模型更新模块：首先收集大量的无标注多模态牙周图像数据，记作数据集S_0；接着，利用初始分类模型M_0对于S_0中的无标注数据生成伪标记，将打上伪标记之后的数据集记作S'_0；将S'_0所对应的伪标记送入知识库KB中进行推理，对于牙周图像样本s，如果s的伪标记与知识库的逻辑一致，则不对其伪标记作任何修改；如果牙周图像样本s的伪标记与专家知识库的逻辑不一致，则找出所有不被满足的逻辑规则，并对伪标记进行贪心搜索，以修改代价最低且修改后不一致性下降最明显为准则，逐一遍历并修改不符合逻辑规则的伪标记，直到伪标记组合与知识库的不一致性满足预设要求；将矫正伪标记之后的数据集记作S”_0，并将其与初始有监督数据合成数据集S_1，并利用S_1对于初始分类模型M_0进行一轮梯度下降和反向传播更新参数，记最后得到的模型为M_1；利用模型M_1再对S_0中的无标注牙周图像数据生成伪标记，重复上述操作k轮直到模型收敛，记最终得到的分类模型为M；

牙周图像识别结果的生成模块：收集牙周图像测试集T；利用分类模型M对于测试集T生成识别结果，记录每个样本最终输出的logit；收集来自同一患者的多模态图像的识别结果，利用多模态融合集成的方法生成患者最终的牙周图像识别结果。

基于反绎学习的多模态牙周图像识别系统的实现过程与上述方法相同，不在赘述。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于反绎学习的多模态牙周图像识别方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于反绎学习的多模态牙周图像识别方法的计算机程序。

反绎学习阶段需要的初始化模型，仅用少量有标记数据训练即可满足要求。

反绎学习阶段，利用专家知识对于无标记数据的伪标记进行修正，可以提升训练效率和模型的准确率，更好地利用无标记数据的信息。

评估阶段，对模型输出采用多模态融合的方法，集成原始患者的多模态数据的预测结果，提升预测的准确性。

有益效果：与现有技术相比，本发明提供的基于反绎学习的多模态牙周图像识别方法和系统，针对智能辅助医学领域所存在的影像数据数量少、标注少，以及模型的不可解释性等问题提出了可行的解决思路，并成功地在牙周图像疾病辅助诊断中取得了应用在提升模型预测准确率和模型训练效率的同时，极大地减轻了医生的工作量，同时为数据的大量收集提供了可能。

附图说明

图1为本发明实施例中模型的初始化与监督训练的流程图；

图2为本发明实施例中专家知识库构建的流程图。

图3为本发明实施例中基于反绎学习框架的伪标记生成和模型更新的流程图。

图4为本发明实施例中牙周疾病预测结果生成的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于反绎学习的多模态牙周图像识别方法，它包含四大流程：模型的初始化与监督训练、专家知识库的构建、基于反绎学习框架的伪标记生成和模型更新，以及牙周图像识别结果的生成。

模型的初始化与监督训练的过程如图1所示。首先，收集少量数码相机所拍摄的患者牙周图像序列，并提取出患者的多模态牙周图像，并邀请医院专家进行标注，形成初始有监督数据集(步骤10)；同时，准备ImageNet上的预训练模型(步骤11)；然后，使用交叉熵损失函数和初始有监督数据集中的标注数据，对于预训练模型进行多轮梯度下降和反向传播更新参数(步骤12)；如果模型在训练集上过拟合，且验证集上的准确率不再发生明显上升，此时视为完成训练，并跳转步骤14，否则跳转步骤12(步骤13)；最后，输出初始分类模型M_0(步骤14)；

专家知识库的构建过程如图2所示。首先，向医院专家询问其判断牙周疾病严重程度时的专业依据和判断过程，并作详细记录(步骤20)；其次，从记录中提取医生做出专业判断所实际到的逻辑元素，并按照属性分别记录为常量、变量、函数或谓词等(步骤21)；接着，将提取到的常量、变量、函数和谓词等抽象化为一阶逻辑中所使用的符号(步骤22)；最后，利用抽象化所得符号，对于医生判断牙周疾病严重程度的推理过程利用一阶逻辑进行公式化，形成专家知识库(步骤23)。

基于反绎学习框架的伪标记生成和模型更新的过程如图3所示。首先，收集患者的多模态牙周图像数据集，该数据集无需进行标注(步骤30)；接着，利用初始分类模型对于数据集中的无标注数据生成伪标记(步骤31)；然后，将生成的伪标记送入知识库中进行推理(步骤32)；然后进行一个判断，如果某样本的伪标记与知识库的逻辑一致，则不对其伪标记作任何修改，并跳转步骤35，否则跳转步骤34(步骤33)；如果伪标记与知识库不一致，则找出伪标记所不满足的所有逻辑规则，并对伪标记进行贪心搜索，以修改代价最低且修改后不一致性下降最明显为准则，逐一遍历并修改不符合逻辑规则的伪标记，直到伪标记组合与知识库的不一致性满足预设要求，返回反绎得到的矫正伪标记；(步骤34-1、34-2)；之后，将矫正伪标记之后的数据集与初始有监督数据合成新的标注数据集(步骤35)；接着，利用标注数据集对于分类模型进行一轮梯度下降和反向传播更新参数，得到更新后的分类模型(步骤36)；如果此时训练过程满足停止要求，则跳转步骤38，否则跳转执行步骤31(步骤37)；最后，输出反绎训练过程最终得到的分类模型(步骤38)。

牙周图像识别结果的生成，牙周疾病的预测与诊断的过程如图4所示。首先，利用伪标记生成和模型更新所述步骤30重新收集实际场景下患者的未标注数据集，形成测试集(步骤40)；接着，对于测试集中的每一个样本，利用分类模型生成其识别结果，记录每个样本最终输出的logit(步骤41)；然后，将来自同一患者的多模态图像分成一组(步骤42)；最后，对于每一组多模态图像数据，计算其输出的平均logit，并将logit中置信度最高的类别作为患者的牙周疾病分类识别结果(步骤43)。

模型的初始化与监督训练模块：收集医学专家所标注的少量多模态患者牙周图像；准备预训练模型；利用有标注数据对于预训练模型进行多轮梯度下降和反向传播更新参数，形成初始分类模型M_0；

专家知识库的构建模块：收集医疗专家判断牙周疾病时的依据，抽象化并从中提取出涉及到的常量、变量、函数与谓词等等，并将其符号化；利用抽象化所得的符号形式化专家判断时所使用的推理逻辑，形成专家知识库，记作KB；

基于反绎学习框架的伪标记生成和模型更新模块：首先收集大量的无标注多模态牙周图像数据，记作数据集S_0；接着，利用初始分类模型M_0对于S_0中的无标注数据生成伪标记，将打上伪标记之后的数据集记作S'_0；将S'_0所对应的伪标记送入知识库KB中进行推理，对于样本s，如果s的伪标记与知识库的逻辑一致，则不对其伪标记作任何修改；如果s的伪标记与专家知识库的逻辑不一致，则找出所有不被满足的逻辑规则，并对伪标记进行贪心搜索，以修改代价最低且修改后不一致性下降最明显为准则，逐一遍历并修改不符合逻辑规则的伪标记，直到伪标记组合与知识库的不一致性满足预设要求；将矫正伪标记之后的数据集记作S”_0，并将其与初始有监督数据合成数据集S_1，并利用S_1对于分类模型M_0进行一轮梯度下降和反向传播更新参数，记最后得到的模型为M_1；利用模型M_1再对S_0中的无标注数据生成伪标记，重复上述操作k轮直到模型收敛，记最终得到的分类模型为M；

牙周图像识别结果的生成模块：收集牙周图像测试集T；利用分类模型M对于测试集T生成预测结果，记录每个样本最终输出的logit；收集来自同一患者的多模态图像的识别结果，利用多模态融合集成的方法生成患者最终的分类识别结果。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于反绎学习的多模态牙周图像识别方法各步骤或基于反绎学习的多模态牙周图像识别系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结软件结合。

Claims

1.一种基于反绎学习的多模态牙周图像识别方法，其特征在于，包含模型的初始化与监督训练、专家知识库的构建、基于反绎学习框架的伪标记生成和模型更新，以及牙周图像识别结果的生成；

专家知识库的构建中：收集关于牙周图像关于识别牙周疾病分类时的依据，以一阶谓词逻辑的形式进行抽象化表达，形成专家知识库，记作KB；

2.根据权利要求1所述的基于反绎学习的多模态牙周图像识别方法，其特征在于，模型的初始化与监督训练具体实现过程为：

步骤101，准备ImageNet上的预训练模型；

3.根据权利要求1所述的基于反绎学习的多模态牙周图像识别方法，其特征在于，专家知识库的构建过程具体为：

4.根据权利要求1或2所述的基于反绎学习的多模态牙周图像识别方法，其特征在于，基于反绎学习框架的伪标记生成和模型更新具体为：

步骤301，利用初始分类模型M_0对于S_0中的无标注数据生成伪标记，将打上伪标记之后的数据集记作S'_0；

步骤302，将S'_0所对应的伪标记送入知识库KB中进行推理；对于数据集S'_0中的样本s：如果s的伪标记与知识库的逻辑一致，则不对其伪标记作任何修改，并跳转步骤304；如果s的伪标记与专家知识库的逻辑不一致，则跳转步骤303；

步骤303，如果伪标记与知识库不一致，则找出伪标记所不满足的所有逻辑规则，并对伪标记进行贪心搜索，以修改代价最低且修改后不一致性下降最明显为准则，逐一遍历并修改不符合逻辑规则的伪标记，直到伪标记组合与知识库的不一致性满足预设要求，返回反绎得到的矫正伪标记；

步骤307，输出反绎训练过程最终得到的分类器M。

5.根据权利要求4所述的基于反绎学习的多模态牙周图像识别方法，其特征在于，牙周图像识别结果的生成具体为：

步骤400，收集未标注的多模态牙周图像测试集T；

6.根据权利要求4所述的基于反绎学习的多模态牙周图像识别方法，其特征在于，所述基于反绎学习框架的伪标记生成和模型更新过程中，判断训练过程停止的方法为达到预先设置的训练轮数，或者反绎过程中需要矫正的伪标记比例小于定值，且模型达到过拟合。

7.一种基于反绎学习的多模态牙周图像识别系统，其特征在于，包含：模型的初始化与监督训练模块、专家知识库的构建模块、基于反绎学习框架的伪标记生成和模型更新模块，以及牙周图像识别结果的生成模块。

8.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的基于反绎学习的多模态牙周图像识别方法。

9.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的基于反绎学习的多模态牙周图像识别方法的计算机程序。