CN114582470A

CN114582470A - 一种模型的训练方法、训练装置及医学影像报告标注方法

Info

Publication number: CN114582470A
Application number: CN202210463888.7A
Authority: CN
Inventors: 汤进; 李传富; 赵海峰
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-06-03
Anticipated expiration: 2042-04-29
Also published as: CN114582470B

Abstract

本发明公开一种标注模型训练方法、训练装置及医学影像报告标注方法，该标注模型训练方法包括获取标注数据集，标注数据集包括若干标注数据，标注数据包括医学影像报告数据及其病变标签，其中，医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对医学影像报告数据进行标注后的病变类别；利用标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，文本多标签分类模型是以读片知识图谱中的预选级节点作为文本多标签分类模型的病变标签。本发明能够解决现有的医学影像报告标注中无法解决嵌套、非连续、叙述不统一等导致标注质量差，很难直接用于深度学习模型的训练的技术问题。

Description

一种模型的训练方法、训练装置及医学影像报告标注方法

技术领域

本发明涉及计算机技术领域，特别涉及一种模型的训练方法、训练装置及医学影像报告标注方法。

背景技术

人工智能技术在医学领域的广泛应用，大大推动了智能医疗的发展，特别是深度学习技术在医学影像分类和医疗问答等领域表现出了不俗的效果。然而，由于深度学习模型本身的特性，需要海量的标注数据训练才能达到优良的性能。因此基于深度学习方法的智慧医疗项目，大部分需要海量的标注数据才能落地应用，而这其中的关键就是数据的标注工作。与常规的数据标注不同，医学相关数据标注工作需要计算机和医学背景的专业人士共同参与，故标注成本比之其他领域要高出许多。因此，实现医学数据的智能标注是节省人力和财力的关键步骤。

传统的医学影像智能标注工作中，序列标注模型是主流的方法，其实现方式是先对报告中的关键词进行抽取，再标注出这些关键词在报告中的位置。但是在复杂的医学影像标注任务中，该方法无法解决如图1所示的嵌套、非连续、叙述不统一等难题，这导致其标注质量远比人工标注质量差，很难直接用于深度学习模型的训练。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种模型的训练方法、训练装置及医学影像报告标注方法，以解决现有的医学影像报告标注中无法解决嵌套、非连续、叙述不统一等难题而导致标注质量远比人工标注质量差，很难直接用于深度学习模型的训练的技术问题。

为实现上述目的及其他相关目的，本发明提供一种医学影像报告的标注模型训练方法，包括：

获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别；

利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的标签，所述医学影像报告标注模型用于对目标医学影像报告数据进行病变分类处理，以得到所述目标医学影像报告数据的病变类别，作为所述目标医学影像报告数据的病变标签。

在本发明的一可选实施例中，所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型中，所述文本多标签分类模型包括文本特征提取器和分类器，所述文本特征提取器为预训练BERT模型，所述分类器是根据所述读片知识图谱的指导进行构建，得到的病变分类结果对应所述读片知识图谱上的所述预选级节点。

在本发明的一可选实施例中，所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括：

利用所述预训练BERT模型对所述医学影像报告数据进行编码处理，以得到文本特征向量；

利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果；

根据所述多个病变类别的预测结果，使用交叉熵函数计算模型平均损失值；

根据所述模型平均损失值来更新所述预训练BERT模型和所述分类器的参数，以得到医学影像报告标注模型。

在本发明的一可选实施例中，所述利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果包括：

所述分类器利用多层感知机将得到的所述文本特征向量映射到分类类别数的映射向量；其中，所述分类类别数等于所述读片知识图谱中所述预选级节点的个数；

利用Sigmoid函数将所述映射向量归一化成介于0和1之间的概率形式，以输出每种病变类别的概率。

在本发明的一可选实施例中，所述获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签中，所述医学影像报告数据包括检查所见或检查印象。

在本发明的一可选实施例中，

利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括，对所述标注数据集进行数据增强，并用数据增强后的所述标注数据集对文本多标签分类模型进行训练，以获取所述医学影像报告标注模型；

其中，所述对所述标注数据集进行增强处理，包括：

统计所述标注数据集中病变标签的分布情况，以获得每种病变标签所对应的所述标注数据的数量；

选取病变标签所对应的所述标注数据的数量少于预设数量的病变标签；

对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据，以对所述标注数据集进行扩充，以使扩充后的所述标注数据集中每种病变标签所对应的标准数据的数量不少于所述预设数量。

在本发明的一可选实施例中，所述对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据包括：

对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行同义词替换以产生新的标注数据；和/或

对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行回译以产生新的标注数据；和/或

对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行近音字替换以产生新的标注数据。

为实现上述目的及其他相关目的，本发明还提供一种医学影像报告的标注模型训练装置，包括：

数据获取模块，用于获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别；

模型训练模块，用于利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的标签，所述医学影像报告标注模型用于对目标医学影像报告数据进行病变分类处理，以得到所述目标医学影像报告数据的病变类别，作为所述目标医学影像报告数据的病变标签。

为实现上述目的及其他相关目的，本发明还提供一种医学影像报告标注方法，包括：

获取待标注的医学影像报告数据；

将所述待标注的医学影像报告数据输入至医学影像报告标注模型，其中，所述医学影像报告标注模型为根据上述模型的训练方法训练得到；

通过所述医学影像报告标注模型对所述待标注的医学影像报告数据进行编码处理，以得到文本特征向量；

根据所述文本特征向量进行病变分类处理，以得到所述待标注的医学影像报告的病变类别；

利用得到所述待标注的医学影像报告的病变类别来对所述待标注的医学影像报告进行标注。

本发明的模型的训练方法、训练装置及医学影像报告标注方法，通过获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别；利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的病变标签，通过专业的读片知识图谱的指导，使用文本多标签分类模型代替传统的序列标注模型，能够解决现有的医学影像报告标注中无法解决嵌套、非连续、叙述不统一等难题，并且由于本发明的以读片知识图谱中节点作为医学影像报告标注模型的分类种类，故而标注出来的病变标签规范性和准确性较高，可用于下游医学深度学习模型的训练。

附图说明

图1显示为序列标准中存在的嵌套、非连续及叙述不统一的示意图。

图2显示为本发明的医学影像报告标注模型训练方法的流程示意图。

图3显示为根据读片知识图谱上的节点手动标注医学影像报告的示意图。

图4显示为对所述标注数据集进行增强处理的子流程示意图。

图5显示为利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型的子流程示意图。

图6显示为本发明的医学影像报告标注模型训练装置的功能模块图。

图7a显示为病变标签为“异物”的ROC（Receiver Operating Characteristic）曲线，其中，横坐标为假阳性率（False Positive Rate，简称FPR），纵坐标为真阳性率（TruePositive Rate，简称TPR），AUC为ROC曲线下方的面积大小。

图7b显示为病变标签为“肺纹理”的ROC（Receiver Operating Characteristic）曲线，其中，横坐标为假阳性率（False Positive Rate，简称FPR），纵坐标为真阳性率（TruePositive Rate，简称TPR），AUC为ROC曲线下方的面积大小。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-图6、图7a及图7b。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的形态、数量及比例可为一种随意的改变，且其组件布局形态也可能更为复杂。请参阅图2所示，图2示出了本发明的医学影像报告标注模型训练方法的较佳实施例的流程图。本发明的实施例提供的医学影像报告标注模型训练方法，可应用于医学影像报告标注模型训练领域，能够对依据读片知识图谱来构建文本多标签分类模型进行训练来获取医学影像报告模型，所述文本多标签分类模型是以读片知识图谱中的各级节点作为该文本多标签分类模型的标签，从而最终训练好的医学影像报告模型，能够依据多标签文本分类模型，以读片知识图谱中的节点属性标注医学影像报告；并且还能够依据读片知识图谱，对冗长、复杂且表达方式不统一的医学影像报告进行结构化的自动标注，为需要大规模数据的医学影像人工智能方法提供标准的标注数据。

在本实施例中，读片知识图谱是一种应用于医学影像学人工智能诊断的专业知识图谱。知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其本质上是一种大规模的语义网络，其主要目的是对真实世界里实体或概念之间的关联关系进行描述，广泛应用于包括医学在内的各个行业。医学知识图谱可以将各种医疗信息系统中琐碎、零散的知识相互连接，对信息进行分析，进行支持医疗信息获取、医疗文本消歧、综合性知识检索以及问答、辅助决策支持、疾病风险估计等智能医疗应用。读片知识图谱是应用于医学影像学专业的一种医学知识图谱，旨在利用结构化的语义知识库描述影像专科医生在临床读片过程中的读片思维以及相关医学知识及其相互关系，主要应用于医学影像学人工智能诊断的相关研究和系统开发。

读片知识图谱例如通过医学影像教科书、医学影像报告检查所见、学术期刊、百科类网站等非结构化数据源结合专业影像科医生的先验知识，将影像读片涉及的疾病影像表现特性及其相关专业知识作为节点收集，通过知识抽取、知识融合、知识更新等自然语言处理方式获取知识图谱的实体、实体之间的关系以及实体和关系的属性，并利用图数据库进行存储。

读片知识图谱中包括多级节点（一级节点、二级节点、三级节点、……），每级节点包括多个节点（病变节点）。在本实施例的示例中，采用包括13个一级节点的读片知识图谱，13个一级节点分别是胸廓、气管、纵膈、肺纹理、肺门、肺实质、心影、主动脉、胸膜及胸腔、膈面、肋膈角、骨骼、体内异物。

请参阅图2所示，所述医学影像报告标注模型训练方法包括如下步骤：

S10：获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别。

在获取标准数据集时，可以首先获取一定数量（例如是十万例）的医学影像报告，所述医学影像报告中例如可以包括检查所见和/或检查印象；接着，根据读片知识图谱上的预选级节点手动对获取的医学影像报告进行病变类别标注，并把标注后的病变类别作为对应医学影像报告的病变标签；最后，将医学影像报告数据及所述医学影像报告数据的病变标签作为标注数据构成所述标注数据集。

定义预选级节点中节点（选自于一级节点、二级节点、三级节点、……中的一个）的个数为N，根据读片知识图谱上的N个预选级节点手动对获取的医学影像报告进行病变类别标注时，当所述医学影像报告中体现了所述读片知识图谱上的预选级节点的病变信息为阳性就将对应位置的标签设置为1（或0），而将其他位置的标签设置为0（或1），从而标注后的医学影像报告的病变标签就是一个N位的0,1向量。

图3示出了以读片知识图谱中的一级节点指导对医学影像报告的检查所见进行手动标注的示意图。如图3所示，以包括13个一级节点的读片知识图谱中的13个一级节点（分别是胸廓、气管、纵膈、肺纹理、肺门、肺实质、心影、主动脉、胸膜及胸腔、膈面、肋膈角、骨骼、体内异物）来对一段检查所见“胸廓前后径增加、肋间隙增宽；两肺野透过度增高，双肺纹理稀疏变细”进行标注为例，这段检查所见中体现了所述读片知识图谱上的胸廓、肺纹理、肺实质等一级节点的病变信息为阳性，故而将对应胸廓、肺纹理、肺实质位置的标签设置为1，而将其他位置的标签设置为0，形成一个13维的0,1向量作为该段检查所见的病变标签。当然，为了能够使分类结果更精细，也可以以读片知识图谱中的非一级节点，例如二级节点来对获取的医学影像报告进行病变类别标注。

步骤S20：利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的标签。

在利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型时，由于所述标注数据集中个别标签所对应的标注数据的数量较少，这会导致训练获取的医学影像报告标注模型对于这些标签不能很好的分类，为此，需要先对所述标注数据集进行数据增强，以对所述标注数据集中标注数据的数量较少的标签进行扩充，并用数据增强后的所述标注数据集对文本多标签分类模型进行训练，以获取所述医学影像报告标注模型。

在本实施例中，如图4所示，对所述标注数据集进行数据增强包括：

步骤S201，统计所述标注数据集中病变标签的分布情况，以获得每种病变标签所对应的所述标注数据的数量。

步骤S202，选取病变标签（病变标签显示为阳性）所对应的所述标注数据的数量少于预设数量的病变标签；作为示例，所述预设数量例如为200。

步骤S203对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据，以对所述标注数据集进行扩充，以使扩充后的所述标注数据集中每种病变标签所对应的标准数据的数量不少于所述预设数量。

可以理解的是，当统计所述标注数据集中每种病变标签所对应的所述标注数据的数量大于所述预设数量时，也可以不执行对所述标注数据集进行数据增强的步骤。

需要说明的是，在实际操作过程中，当病变标签所对应的所述标注数据的数量少于预设数量的病变标签的个数为多个时，在步骤S203中，可以选取病变标签所对应的所述标注数据的数量最少的一个病变标签（标记为病变标签A）所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据，以对所述标注数据集进行第一次扩充，以使扩充后的所述标注数据集中病变标签A所对应的标准数据的数量不少于所述预设数量；接着第一次扩充后的所述标注数据集继续执行步骤S201至步骤S203的步骤，直至扩充后的所述标注数据集中每种病变标签所对应的标准数据的数量不少于所述预设数量。

在本实施例中，对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据，以对所述标注数据集进行扩充，可以采用如下同义词替换、回译或近音字替换式等方式来进行。

以对原始医学影像报告数据为“两肺纹理稍增多，心影形态大小属正常范围，双侧膈面光整，肋膈角锐利。胸腔内见高密度导管影”进行数据增强为例：

同义词替换：例如可通过同义词替换的方式生成新的标注数据“两肺纹理微微增多，心影形态大小在正常范围，双侧膈面光整，肋膈角尖锐。胸腔内见密度集中导管影”。

回译：①汉译英：The texture of the two lungs increased slightly, theshape and size of the heart shadow were in the normal range, the bilateraldiaphragmatic surface was smooth, and the costophrenic Angle was sharp. Denseductal shadows are seen in the thorax；

②英译汉：肺纹理稍增，心影大小正常，双膈面平滑，肋膈角尖锐。胸腔可见密集的导管影；

汉译英和英译汉可采用不同的翻译软件，如汉译英时使用有道翻译，英译汉时使用百度翻译。

在本实施例中，利用数据增强后的所述标注数据集（也可以没有经过数据增强的标注数据集）对文本多标签分类模型进行训练，以获取医学影像报告标注模型时，还需要先将数据增强后的所述标注数据集划分为训练数据集和验证集。作为示例，数据增强后的所述标注数据集可通过随机的方式划分训练集和验证集，分别占比90%和10%。

在步骤S20中，所述文本多标签分类模型包括文本特征提取器和分类器，所述文本特征提取器为预训练BERT模型，所述分类器是根据所述读片知识图谱的指导进行构建，得到的病变分类结果对应所述读片知识图谱上的所述预选级节点。如图5所示，所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括：

步骤S21：利用所述预训练BERT模型对所述医学影像报告数据进行编码处理，以得到文本特征向量。

在一示例中，可使用预训练模型BERT作为文本的特征提取器，将训练集中的每条医学影像报告编码为768维的向量，作为文本特征向量。因为输入到BERT模型的序列长度被限制到512个字符，当输入到文本提取模型的医学影像报告超过512个字符时，需要对报告进行截取处理，分多次的进入文本提取模型中。

步骤S22：利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果。

在一示例中，根据读片知识图谱的节点和层次设计分类器，使用MLP（多层感知机）将提取的文本特征向量映射到分类种类的维度（读片知识图谱中的预选级节点的个数），继续以使用读片知识图谱的13个一级节点作为指导进行分类为例，因此设计的分类器就需要将含有文本特征的768维向量映射到类别数的13维向量。再将这些向量使用Sigmoid函数归一化成0~1之间的概率形式，以输出每种病变类别的概率，概率离1越近，说明该病变类别为阳性的可能性越大。

步骤S23和步骤S24：根据所述多个病变类别的预测结果，使用交叉熵函数计算模型平均损失值，并根据所述模型平均损失值来更新所述预训练BERT模型和所述分类器的参数，以得到医学影像报告标注模型。

在一示例中，使用交叉熵函数计算本次训练的平均损失值loss：

其中，n为训练集中医学影像报告每个batch的样本数，

为第i张医学影像报告第c类病变类别标签，

为模型预测第i张医学影像报告中第c类病变类别标签为阳性的概率。将loss反向传播用于更新模型参数。

重复步骤S21-S24，不断迭代训练直到平均损失值loss达到预设停止条件时，则认为训练结束。作为示例，所述预设停止条件是平均损失值loss在训练预设次数（譬如10次）后不再减少，所述预设次数可配置。作为示例，所述预设停止条件也可以是平均损失值loss小于一个预设阈值（譬如0.0008），所述预设阈值可配置。

为了验证利用本实施例的训练方法训练获取的医学影像报告标注模型的效果，可通过验证集来进行验证，在进行验证前，可以设计一个判断病变标签为阳性的概率阈值，当将验证集中的一标注数据的医学影像报告输入到所述医学影像报告标注模型进行标注时，一旦所述医学影像报告标注模型的分类器输出的病变类别的概率大于所述概率阈值，就判定该病变类别对应的病变标签为阳性。作为示例，所述概率阈值为0.5（可配置），一旦所述医学影像报告标注模型的分类器输出的病变类别的概率大于0.5，就认为该医学影像报告中体现了该类病变的信息，为其打上相应的病变标签。

验证时，将判定过后的病变标签和真实的人工标注的病变标签进行对比，根据约登指数法绘制验证集的ROC（Receiver Operating Characteristic）曲线来查看预测效果。

在本实例的示例中，将读片知识图谱的13个一级节点作为分类依据，考虑到医学病变检出的严肃性，涉及到对假阴性和假阳性的敏感问题，选择了ROC曲线作为分类效果的展示，如图7a和图7b所示, 其中，图7a显示为病变标签为“异物”的ROC曲线，图7b显示为病变标签为“肺纹理”的ROC曲线，由图7a和图7b可知，在读片知识图谱的指导下，分类效果达到了相当高的精度，ROC曲线的AUC值接近于1。

在读片知识图谱的指导下，分类效果达到了相当高的精度，ROC曲线的AUC值接近于1。其中，图7a显示为病变标签为“异物”的ROC（Receiver Operating Characteristic）曲线，图7b显示为病变标签为“肺纹理”的ROC（Receiver Operating Characteristic）曲线。

在本实施例中，还介绍一种利用上述训练方法训练的医学影像报告标注模型对医学影像报告标注的方法，包括：

获取待标注的医学影像报告数据；

将所述待标注的医学影像报告数据输入至医学影像报告标注模型；

通过所述医学影像报告标注模型对所述待标注的医学影像报告数据进行编码处理，以得到文本特征向量，根据所述文本特征向量进行病变分类处理，以得到所述待标注的医学影像报告的病变类别，利用得到所述待标注的医学影像报告的病变类别来对所述待标注的医学影像报告进行标注。

医学影像报告标注模型的输入输出实例如下：

输入：两肺纹理增粗、模糊，两下肺似可见淡片状密度增高影，余肺内未见明显实质性病灶，所示双侧胸廓对侧，气管居中，心影不大，双侧膈面光滑，双侧肋膈角欠锐利，必要时复查。

输出：肺纹理，肺实质，肋膈角。

将医学影像报告（实例中选取了检查所见）输入到医学影像报告标注模型中，直接输出对应读片知识图谱的一级病变节点标签。因为受到专业的读片知识图谱的指导，医学影像报告标注模型标注的病变标签有很强的规范性和准确性，可以简单调整之后直接用到下游深度学习项目之中。上述的模型的训练方法，通过获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别；利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的病变标签，通过专业的读片知识图谱的指导，使用文本多标签分类模型代替传统的序列标注模型，能够解决现有的医学影像报告标注中无法解决嵌套、非连续、叙述不统一等难题，并且由于本发明的以读片知识图谱中节点作为医学影像报告标注模型的分类种类，故而标注出来的病变标签规范性和准确性较高，可用于下游医学深度学习模型的训练。

如图6所示，图6示出了本发明的医学影像报告标注模型训练装置11的较佳实施例的功能模块图。所述医学影像报告标注模型训练装置11包括数据获取模块111和模型训练模块112。

所述数据获取模块111用于获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别；所述模型训练模块112用于利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的标签，所述医学影像报告标注模型用于对目标医学影像报告数据进行病变分类处理，以得到所述目标医学影像报告数据的病变类别，作为所述目标医学影像报告数据的病变标签。

需要说明的是，本发明的医学影像报告标注模型训练装置11是与上述医学影像报告标注模型训练方法相对应的虚拟装置，医学影像报告标注模型训练装置11中的功能模块分别对应医学影像报告标注模型训练方法中的相应步骤。本发明的医学影像报告标注模型训练装置11可与医学影像报告标注模型训练方法相互相配合实施。本发明的医学影像报告标注模型训练方法中提到的相关技术细节在医学影像报告标注模型训练11中依然有效，为了减少重复，这里不再赘述。相应地，本发明的医学影像报告标注模型训练装置11中提到的相关技术细节也可应用在上述医学影像报告标注模型训练方法中。

需要说明的是，上述的各功能模块实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的部分或全部步骤，或以上的各功能模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

在本文的描述中，提供了许多特定细节，诸如部件和/或方法的实例，以提供对本发明实施例的完全理解。然而，本领域技术人员将认识到可以在没有一项或多项具体细节的情况下或通过其他设备、系统、组件、方法、部件、材料、零件等等来实践本发明的实施例。在其他情况下，未具体示出或详细描述公知的结构、材料或操作，以避免使本发明实施例的方面变模糊。

还应当理解还可以以更分离或更整合的方式实施附图所示元件中的一个或多个，或者甚至因为在某些情况下不能操作而被移除或因为可以根据特定应用是有用的而被提供。

另外，除非另外明确指明，附图中的任何标志箭头应当仅被视为示例性的，而并非限制。此外，除非另外指明，本文所用的术语“或”一般意在表示“和/或”。在术语因提供分离或组合能力是不清楚的而被预见的情况下，部件或步骤的组合也将视为已被指明。

本发明所示实施例的上述描述(包括在说明书摘要中所述的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例，但是正如本领域技术人员将认识和理解的，各种等效修改是可以在本发明的精神和范围内的。如所指出的，可以按照本发明所述实施例的上述描述来对本发明进行这些修改，并且这些修改将在本发明的精神和范围内。

本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外，已经给出了各种具体细节以提供本发明实施例的总体理解。然而，相关领域的技术人员将会认识到，本发明的实施例可以在没有一个或多个具体细节的情况下进行实践，或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下，并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。

因而，尽管本发明在本文已参照其具体实施例进行描述，但是修改自由、各种改变和替换亦在上述公开内，并且应当理解，在某些情况下，在未背离所提出发明的范围和精神的前提下，在没有对应使用其他特征的情况下将采用本发明的一些特征。因此，可以进行许多修改，以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例，但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而，本发明的范围将只由所附的权利要求书进行确定。

Claims

1.一种医学影像报告标注模型训练方法，其特征在于，包括：

2.根据权利要求1所述的医学影像报告标注模型训练方法，其特征在于，所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型中，所述文本多标签分类模型包括文本特征提取器和分类器，所述文本特征提取器为预训练BERT模型，所述分类器是根据所述读片知识图谱的指导进行构建，得到的病变分类结果对应所述读片知识图谱上的所述预选级节点。

3.根据权利要求2所述的医学影像报告标注模型训练方法，其特征在于，所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括：

4.根据权利要求3所述的医学影像报告标注模型训练方法，其特征在于，所述利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果包括：

5.根据权利要求1所述的医学影像报告标注模型训练方法，其特征在于，所述获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签中，所述医学影像报告数据包括检查所见或检查印象。

6.根据权利要求1所述的医学影像报告标注模型训练方法，其特征在于，利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括，对所述标注数据集进行数据增强，并用数据增强后的所述标注数据集对文本多标签分类模型进行训练，以获取所述医学影像报告标注模型；

其中，所述对所述标注数据集进行增强处理，包括：

7.根据权利要求6所述的医学影像报告标注模型训练方法，其特征在于，所述对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据包括：

8.根据权利要求1所述的医学影像报告标注模型训练方法，其特征在于，所述获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签中，所述医学影像报告数据包括检查所见或检查印象。

9.一种医学影像报告标注模型训练装置，其特征在于，包括：

10.一种医学影像报告标注方法，其特征在于，包括：

获取待标注的医学影像报告数据；

将所述待标注的医学影像报告数据输入至医学影像报告标注模型，其中，所述医学影像报告标注模型为根据权利要求1-8中任意一项所述方法训练得到；