CN110033019B

CN110033019B - 人体部位的异常检测方法、装置和存储介质

Info

Publication number: CN110033019B
Application number: CN201910168066.4A
Authority: CN
Inventors: 周洪宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2021-07-27
Anticipated expiration: 2039-03-06
Also published as: CN110033019A

Abstract

本发明公开了一种人体部位的异常检测方法、装置和存储介质。该方法包括：获取目标人体部位的第一射线影像和目标文本；通过第一神经网络模型获取第一射线影像的每个子射线影像的图像特征向量；通过第二神经网络模型对目标文本的编码向量进行处理，得到目标文本的文本特征向量；将每个子射线影像的图像特征向量和文本特征向量进行融合，得到目标特征向量；通过第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率；输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率。本发明解决了相关技术中对人体部位的异常进行预测的准确率低的技术问题。

Description

人体部位的异常检测方法、装置和存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种人体部位的异常检测方法、装置和存储介质。

背景技术

目前，在预测人体部位是否患病时，所通常采用的方法是利用MURA(Musculoskeletal Radiographs)模型来预测人体部位是否患病，该模型主要基于深度学习技术，采用概率平均的方法综合每个患者的多张影像，最终预测人体部位是否患病。

但是，上述方法无法利用病例额外的信息，比如，无法利用X射线在人体上的拍摄位置，由于人体不同部位的患病特征是不同的，而这些因素在传统的医疗诊断中通常扮演着极其重要的角色，从而降低最终对人体部位进行预测的准确率。

针对上述的对人体部位进行预测的准确率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种人体部位的异常检测方法、装置和存储介质，以至少解决相关技术中对人体部位的异常进行预测的准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种人体部位的异常检测方法。该方法包括：获取待检测的目标人体部位的第一射线影像和用于指示目标人体部位的目标文本；获取第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量；获取目标文本的编码向量，并通过预先训练好的第二神经网络模型对编码向量进行处理，得到目标文本的文本特征向量；将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量；通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率；输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率，其中，多个第一概率与多个子射线影像一一对应。

根据本发明实施例的另一方面，还提供了一种人体部位的异常检测装置。该装置包括：第一获取单元，用于获取待检测的目标人体部位的第一射线影像和用于指示目标人体部位的目标文本；第二获取单元，用于获取第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量；第三获取单元，用于获取目标文本的编码向量，并通过预先训练好的第二神经网络模型对编码向量进行处理，得到目标文本的文本特征向量；融合单元，用于将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量；处理单元，用于通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率；输出单元，用于输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率，其中，多个第一概率与多个子射线影像一一对应。

根据本发明实施例的另一方面，还提供了一种存储介质。该存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行本发明实施例的人体部位的异常检测方法。

在本发明实施例中，获取目标人体部位的第一射线影像和目标文本；通过预先训练好的第一神经网络模型对第一射线影像的多个目标区域图像进行处理，得到多个图像特征向量；通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到文本特征向量；对多个图像特征向量和文本特征向量进行融合，得到目标特征向量；通过预先训练好的第三神经网络模型对目标特征向量进行处理，并输出由第三神经网络模型处理得到的目标人体部位出现异常的目标概率和用于指示目标人体部位出现异常的第二射线影像。也就是说，本申请引入用于指示目标人体部位的目标文本，将目标人体部位的第一射线影像的每个子射线影像的图像特征向量和目标文本的文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量，进而对每个子射线影像对应的目标特征向量进行处理，输出目标人体部位出现异常的目标概率，达到了利用目标人体部位的射线影像和目标文本协同预测人体部位的患病概率的目的，从而实现了提高对人体部位进行预测的准确率的技术效果，进而解决了相关技术中对人体部位的异常进行预测的准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种人体部位的异常检测方法的硬件环境的示意图；

图2是根据本发明实施例的一种人体部位的异常检测方法的流程图；

图3是根据本发明实施例的一种人体部位的异常检测方法的流程图；

图4是根据本发明实施例的一种影像处理网络的结构示意图；

图5是根据本发明实施例的一种密集块结构的示意图；

图6是根据本发明实施例的一种病患信息处理网络的结构的示意图；

图7是根据本发明实施例的一种将图像特征和文本特征进行融合的方法的流程图；

图8是根据本发明实施例的一种模型多阶段训练的示意图；

图9是根据本发明实施例的一种FiveCrop的示意图。

图10是根据本发明实施例的一种基于深度学习和X射线影像的肌肉骨骼异常检测的方法的流程图；

图11(a)是根据本发明实施例的一种人体部位的输入图像的示意图；

图11(b)是根据本发明实施例的一种对人体部位进行预测得到的可视化结果的示意图；

图11(c)是根据本发明实施例的另一种人体部位的输入图像的示意图；

图11(d)是根据本发明实施例的另一种对人体部位进行预测得到的可视化结果的示意图；

图12是根据本发明实施例的一种人体部位的异常检测装置的示意图；以及

图13是根据本发明实施例的一种电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种人体部位的异常检测方法的实施例。

可选地，在本实施例中，上述人体部位的异常检测方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。图1是根据本发明实施例的一种人体部位的异常检测方法的硬件环境的示意图。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的人体部位的异常检测方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的人体部位的异常检测方法也可以是由安装在其上的客户端来执行。

图2是根据本发明实施例的一种人体部位的异常检测方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤S202，获取待检测的目标人体部位的第一射线影像和用于指示目标人体部位的目标文本。

在步骤S202提供的技术方案中，待检测的目标人体部位可以为人体上可能患病的肌肉骨骼部位，比如，为人体的肘部、手指、手掌、肱部、前臂、肩部和手腕等部位。获取待检测的目标人体部位的第一射线影像，该第一射线影像也即待进行预测目标人体部位是否患病的输入影像，可以为对目标人体部位进行拍摄的X射线影像，也即，目标人体部位为在人体上进行拍摄以得到第一射线影像的拍摄对象。可选地，该实施例的第一射线影像为与目标人体部位对应的多张射线影像，也即，X摄像影像可以包括对目标人体部位进行拍摄得到的多张X射线影像。

由于人体的不同部位的患病特征是不同的，而该因素在医疗诊断中通常扮演着极其重要的角色。该实施例还获取用于指示目标人体部位的目标文本，该目标文本可以为用于描述目标人体部位的文字信息，为病例额外的信息，也即，为影像外的信息，包括目标人体部位的位置信息。可选地，该实施例的目标人体部位的文本可以为编码向量，比如，当拍摄的人体部位为手肘时，则对应的编码向量可以为[1，0，0，0，0，0，0]，如果拍摄的人体部位为手腕部位时，则对应的编码向量可以为[0，0，0，0，0，0，1]。其中，每个数字可以分别对应肘部、手指、手掌、肱部、前臂、肩部和手腕等人体部位。

步骤S204，获取第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量。

在步骤S204提供的技术方案中，在获取待检测的目标人体部位的第一射线影像之后，获取第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量，以提高对人体部位是否患病进行预测的准确率。

在该实施例中，第一射线影像的多个子射线影像为依据于第一射线影像得到的子射线影像，每个子射线影像可以为对第一射线影像进行采样所得到的射线影像，也可以为对第一射线影像进行采样得到的射线影像进行翻转所得到的影像。该实施例的第一神经网络模型为用于提取待检测的人体部位的影像的图像特征向量的深度神经网络，也即，影像处理网络，可以以DenseNet-169为基础模型进行训练得到的。其中，DenseNet是一种具有密集连接的卷积神经网络，在该网络中，任何两层之间都有直接的连接，也即，网络的每一层的输入都是前面所有层输出的并集，而该层所学习的特征图也会被直接传给其后面所有层作为输入。可选地，该第一神经网络模型的训练步长为1，模型的输入大小可以为448×448，每个卷积层之后都接有激活函数ReLU层和批归一化(Batch Normalization)层，每一个卷积模块都与上一个卷积模块进行拼接。

在该实施例中，通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量，该图像特征向量可以为一个1×1664维度的向量。

步骤S206，获取目标文本的编码向量，并通过预先训练好的第二神经网络模型对编码向量进行处理，得到目标文本的文本特征向量。

在步骤S206提供的技术方案中，在获取用于指示目标人体部位的目标文本之后，通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到文本特征向量。

该实施例的第二神经网络模型用于提取文本的编码向量的文本特征向量，可以为浅层的多层感知机(Multi-Layer Perception，简称为MLP)，该多层感知机为一种多层前向结构的人工神经网络，可以将一组输入向量映射到一组输出向量。该第二神经网络模型的输入为目标文本的编码向量，比如，当拍摄的人体部位为手肘时，则第二神经网络模型的输入为[1，0，0，0，0，0，0]，当拍摄的人体部位为手腕部位时，则第二神经网络模型的输入为[0，0，0，0，0，0，1]。

该实施例通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到文本特征向量，该文本特征向量的维度可以低于图像特征向量，比如，在图像特征向量为一个1×1664维度的向量的情况下，该文本特征向量可以为1×16维度的向量，从而避免其过多影响图像特征向量。

步骤S208，将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量。

在步骤S208提供的技术方案中，在获取每个子射线影像的图像特征向量和文本特征向量之后，将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量。

在该实施例中，将每个子射线影像的图像特征向量和文本特征向量进行融合，可以为将每个子射线影像的图像特征向量和文本特征向量进行拼接，比如，每个子射线影像的图像特征向量为1×1664维度的向量，而文本特征向量为1×16维度的向量，将1×1664维度的图像特征向量和1×16维度的文本特征向量进行拼接，得到1×1680维度的特征向量，从而通过特征融合的方法，利用目标人体部位的第一射线影像和目标文本协同预测人体部位的患病概率。

步骤S210，通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率。

在步骤S210提供的技术方案中，第三神经网络模型用于预测人体部位出现异常的概率。

在该实施例中，第三神经网络模型可以为卷积神经网络模型(ConvolutionalNeural Network，简称为CNN)，可以降低目标特征向量的维度，用于预测人体部位出现异常的概率，也即，确定任意人体部位出现异常的可能性。

该实施例的卷积神经网络模型为一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围神经元，对于大型图像的处理可以有比较好的效果。通过预先训练好的第三神经网络模型对第一射线影像的每个子射线影像对应的目标特征向量进行处理，也即，对每个子射线影像对应的子人体部位进行预测，从而得到每个子射线影像所指示的子人体部位出现异常的第一概率，该第一概率也即对每个子射线影像所指示的子人体部位出现异常进行预测的预测结果。

步骤S212，输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率。

在步骤S212提供的技术方案中，多个第一概率与多个子射线影像一一对应

在该实施例中，在得到每个子射线影像所指示的子人体部位出现异常的第一概率，可以对第一射线影像的多个子射线影像对应的多个第一概率求取平均概率，将该平均概率确定为用于预测目标人体部位出现异常的目标概率，该目标概率也即对目标人体部位出现异常进行预测的最终预测结果。

可选地，在第一射线影像为多张的情况下，可以通过上述方法得到每张第一射线影像对应的目标概率，得到多个目标概率，对该多个目标概率求取平均值，将该平均值确定为对目标人体部位出现异常进行预测的最终预测结果，也即，该实施例采用概率平均的方法综合目标人体部位的多张第一射线影像，来最终预测目标人体部位是否患病，从而提高对人体部位进行预测的准确率。

通过上述步骤S202至步骤S210，引入用于指示目标人体部位的目标文本，将目标人体部位的第一射线影像的每个子射线影像的图像特征向量和目标文本的文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量，进而对每个子射线影像对应的目标特征向量进行处理，输出目标人体部位出现异常的目标概率，达到了利用目标人体部位的射线影像和目标文本协同预测人体部位的患病概率的目的，从而实现了提高对人体部位进行预测的准确率的技术效果，进而解决了相关技术中对人体部位的异常进行预测的准确率低的技术问题。

作为一种可选的实施方式，在步骤S212，输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率时，该方法还包括：输出用于指示异常出现在目标人体部位中的目标位置的目标图像。

在该实施例中，在输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率时，还可以通过输出目标图像来指示目标人体部位出现异常的具体目标位置，也即，该实施例除了会自动输出用于预测目标人体部位出现异常的目标概率之外，还可以通过可视化图像对人体部位的患病情况进行很好地解释，可以快速为医生提供可靠的参考，这样医生可以结合目标概率、目标图像以及自己的经验判断病人的患病情况，从而大大提高了读片的效率。

作为一种可选的实施方式，在输出用于指示异常出现在目标人体部位中的目标位置的目标图像之前，该方法还包括：获取通过第三神经网络模型对每个子射线影像对应的目标特征向量进行处理得到的多个特征图；对每个特征图进行池化操作，得到池化结果；对池化结果进行卷积操作，得到卷积结果；将卷积结果确定为与每个特征图对应的目标权重，其中，目标权重用于指示每个特征图对生成目标图像的重要性程度；对每个特征图按照与每个特征图对应的目标权重进行加权求和，得到目标图像。

可选地，在该实施例中，预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到多个特征图，可以通过第三神经网络模型的最后一层处理得到若干特征图f_i。通过第三神经网络模型的池化层对每个特征图进行池化操作，得到池化结果，也即，对输入至池化层的特征图进行压缩，一方面可以使特征图变小，简化了网络计算复杂度，另一方面提取主要特征。在得到池化结果之后，可以通过第三神经网络模型的卷积层对池化结果进行卷积操作，得到卷积结果，可以将该卷积结果确定为每个特征图的目标权重，该目标权重用于指示每个特征图对生成目标图像的重要性程度。在得到每个特征图对应的目标权重之后，可以对每个特征图按照与每个特征图对应的目标权重进行加权求和，从而得到目标图像。

举例而言，该实施例的每个特征图f_i对应一个权重w_i，通过对这些特征图进行加权求和

从而可以得到人体的具体的患病位置，其中，N是特征图的数量，权重w_i为网络的一部分，通过网络学习得到，可以对一个特征图先进行池化操作，再对池化操作的结果进行卷积操作，从而得到与该一个特征图对应的权重。

作为一种可选的实施方式，步骤S204，获取第一射线影像的多个子射线影像包括：获取为第一射线影像的子集的多个原始子射线影像，其中，多个子射线影像包括多个原始子射线影像。

在该实施例中，多个原始子射线影像为第一射线影像的子集，可以为与第一射线影像中的采样区域对应的第一子射线影像，比如，为与第一射线影像的左上角采样区域对应的影像，为与第一射线影像的右上角采样区域对应的第二子射线影像，为与第一射线影像的左下角采样区域对应的第三子射线影像，为与第一射线影像的左下角采样区域对应的第四子射线影像，为与第一射线影像的中间采样区域对应的影像，可以多个原始子射线影像确定为第一射线影像的多个子射线影像。

需要说明的是，上述第一射线影像的第一子射线影像、第二子射线影像、第三子射线影像、第四子射线影像仅为本发明实施例的一种举例，并不代表本发明实施例的第一射线影像仅为上述第一子射线影像、第二子射线影像、第三子射线影像、第四子射线影像，任何可以和目标文本协同预测人体部位的患病概率，以实现提高对人体部位进行预测的准确率的效果的第一射线影像的多个子射线影像都在该实施例的范围之内，此处不再一一举例说明。

作为一种可选的实施方式，在获取第一射线影像的多个原始子射线影像之后，该方法还包括：对多个原始子射线影像进行翻转处理，得到多个目标子射线影像；将多个原始子射线影像和多个目标子射线影像确定为多个子射线影像。

在该实施例中，获取第一射线影像的多个原始子射线影像之后，可以对多个原始子射线影像进行数据扩增，对多个原始子射线影像进行翻转处理，比如，对5个子射线影像进行一次水平翻转处理，从而得到10个目标子射线影像，进而通过预先训练好的第一神经网络模型对上述目标子射线影像进行处理，得到与目标子射线影像对应的图像特征向量。

下面对该实施例的第一神经网络模型和第二神经网络模型的训练过程进行介绍。

作为一种可选的实施方式，通过人体部位的射线影像训练样本和对应的图像特征向量，对第一子目标模型进行训练，得到第一模型参数，并将具有第一模型参数的第一子目标模型确定为第一神经网络模型；通过用于指示人体部位的文本的编码向量训练样本和对应的文本特征向量，对第二子目标模型进行梯度下降训练，得到第二模型参数，并将具有第二模型参数的第二子目标模型确定为第二神经网络模型。

在该实施例中，在通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量之前，需要训练好第一神经网络模型。可选地，获取人体部位的射线影像训练样本。

可选地，该实施例在获取人体部位的射线影像训练样本包括：从目标数据库中获取人体部位的多张射线影；对每张射线影的尺寸进行调整；对调整后的每张射线影进行翻转处理；将翻转处理后的多张射线影确定为射线影像训练样本。

在该实施例中，在获取人体部位的射线影像训练样本时，可以从目标数据库中获取人体部位的多张射线影像，比如，多张射线影像为40561张人体部位的X光影像，该目标数据库可以为肌肉骨骼数据库。在获取人体部位的多张射线影像之后，对射线影像训练样本进行预处理，比如，将射线影像训练样本中的每张射线影像随机选取的面积占比为0.08到1.0的区域影像作为输入影像，其中，面积占比为采样后的影像和原影像的面积之比，其中，对输入影像进行采样的次数可以根据训练模型的轮数来确定；该实施例还可以对选取的每个区域影像进行随机变形，比如，可以对每张射线影像的尺寸进行调整，比如，对每张图像的长、宽进行调整，从而改变长宽比，其范围可以在0.75到1.333。在对每张射线影像的尺寸进行调整之后，可以对调整后的每张射线影像进行翻转处理，比如，进行随机水平翻转，可选地，最后将每张射线影像调整到大小为448×448，进而将翻转处理后的多张射线影确定为射线影像训练样本。通过这种数据预处理方式，可以极大程度地扩充训练集的大小，进而有效地抑制第一神经网络模型训练过程的过拟合。

在获取人体部位的射线影像训练样本之后，获取与射线影像训练样本对应的人体部位的图像特征向量，该图像特征向量可以为预先采集到的与射线影像训练样本对应的人体部位的图像特征向量，进而通过射线影像训练样本和与射线影像训练样本对应的人体部位的图像特征向量对第一子目标模型进行训练，确定第一神经网络模型的第一模型参数，进而通过第一神经网络模型的第一模型参数生成第一神经网络模型，其中，第一子目标模型可以为初始建立的神经网络模型，与第一神经网络模型的结构相对应。

在该实施例中，所有的网络层可以采用在ImageNet数据集上预训练的DenseNet-169的参数。在通过射线影像训练样本和与射线影像训练样本对应的人体部位的图像特征向量对第一子目标模型进行训练，得到第一神经网络模型时，可以对人体部位的射线影像训练样本和对应的图像特征向量对第一子目标模型进行梯度下降训练，以使第一子目标模型中待确定的参数被确定为第一模型参数，进而将具有第一模型参数的第一子目标模型确定为第一神经网络模型，比如，基于随机梯度下降法(Stochastic Gradient Descent，简称为SGD)求解第一模型参数，该第一模型参数可以为第一神经网络模型的卷积模板的参数w和偏置参数b，其中，随机梯度下降法也即增量梯度下降法，为在最小化目标函数时梯度下降优化方法中的随机逼近方法，最后将具有第一模型参数的第一子目标模型确定为第一神经网络模型。

可选地，在该实施例中，还可以在每次迭代过程中，计算预测结果误差，并反向传播到第一神经网络模型，可以根据反向传播算法更新第一神经网络模型的第一模型参数。可选地，该实施例的第一神经网络模型为卷积神经网络模型。其中，对于每张输入的图像i，会输出一个预测概率p_i，最终的预测结果误差为

其中，N是为输入的图像的数量。

在该实施例中，在通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到文本特征向量之前，需要训练好第二神经网络模型。获取用于指示人体部位的文本的编码向量训练样本，该编码向量训练样本也即第二神经网络模型的训练数据，可以包含14863份病例。在获取人体部位的文本的编码向量训练样本之后，获取与编码向量训练样本对应的文本特征向量，该文本特征向量可以为预先采集到的与编码向量训练样本对应的人体部位的文本特征向量，进而通过编码向量训练样本和文本特征向量对第二子目标模型进行训练，得到第二神经网络模型，确定第二神经网络模型的参数，进而通过第二神经网络模型的参数生成第二神经网络模型，其中，第二子目标模型可以为初始建立的神经网络模型，与第二神经网络模型的结构相对应。

在该实施例中，通过用于指示人体部位的文本的编码向量训练样本和对应的文本特征向量，对第二子目标模型进行训练，得到第二神经网络模型，可以对第二子目标模型进行梯度下降训练，得到第二模型参数，并将具有第二模型参数的第二子目标模型确定为第二神经网络模型，比如，基于随机梯度下降法SGD求解第二目标参数，该第二目标参数可以为第二神经网络模型的卷积模板的参数w和偏置参数b。可选地，该实施例针对第二神经网络模型，新添加的MLP层可以采用方差为0.01，均值为0的高斯分布进行初始化。

可选地，在该实施例中，还可以在每次迭代过程中，计算预测结果误差，并反向传播到第二神经网络模型，计算梯度并更新第二神经网络模型的第二模型参数，可以根据反向传播算法更新第二神经网络模型的第二模型参数，进而将具有第二模型参数的第二子目标模型确定为第二神经网络模型。

作为一种可选的实施方式，得到第一模型参数和第二模型参数的过程包括：在第一训练阶段中，通过射线影像训练样本中的第一射线影像训练样本和对应的第一图像特征向量，对第一子目标模型按照第一初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第一目标模型参数，并通过具有第一训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第一射线影像测试样本的第一图像特征向量；在第一训练阶段中，通过编码向量训练样本中的第一编码向量训练样本和对应的第一文本特征向量，对第二子目标模型按照第二初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第二目标模型参数，并通过具有第二目标模型参数的第二子目标模型对人体部位的第一编码向量测试样本进行处理，得到第一文本特征向量；将第一图像特征向量和第一文本特征向量进行融合，得到第一目标特征向量；通过第三神经网络模型对第一目标特征向量进行处理，得到人体部位出现异常的第一目标概率；根据用于指示人体部位出现异常的真实结果的目标值和第一目标概率确定第一目标误差；在第一目标误差小于目标阈值的情况下，将第一训练阶段的第一目标模型参数确定为第一模型参数，将第一训练阶段的第二目标模型参数确定为第二模型参数。

在该实施例中，通过射线影像训练样本和与射线影像训练样本对应的人体部位的图像特征对第一子目标模型进行梯度下降训练，以使第一子目标模型中待确定的参数被确定为第一模型参数包括：通过射线影像训练样本和与射线影像训练样本对应的人体部位的图像特征，对第一子目标模型按照分阶段进行梯度下降训练，以使第一子目标模型中待确定的参数被确定为第一模型参数，其中，每个阶段上用于梯度下降训练的学习率不同。

通过编码向量训练样本和文本特征向量对第二子目标模型进行梯度下降训练，以使第二子目标模型中待确定的参数被确定为第二模型参数包括：通过编码向量训练样本和文本特征向量，对第二子目标模型按照分阶段进行梯度下降训练，以使第二子目标模型中待确定的参数被确定为第二目标参数，其中，每个阶段上用于梯度下降训练的学习率不同。

可选地，该实施例的射线影像训练样本包括第一射线影像训练样本。在第一训练阶段中，通过第一射线影像训练样本和对应的第一图像特征向量，对初始建立的第一子目标模型按照第一初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第一目标模型参数，其中，第一初始化参数为初始的训练参数，第一学习率可以为0.03，具有第一训练阶段的第一目标模型参数的第一子目标模型为在第一阶段训练好的用于对射线影像进行处理的模型，通过该具有第一训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第一射线影像测试样本的第一图像特征向量，其中，第一射线影像测试样本为用于对具有第一训练阶段的第一目标模型参数的第一子目标模型进行测试的射线影像样本。

可选地，该实施例的编码向量训练样本包括第一文本特征向量。在第一训练阶段中，通过第一编码向量训练样本和对应的第一文本特征向量，对第二子目标模型按照第二初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第二目标模型参数，其中，第二初始化参数为初始的训练参数，第一学习率同样可以为0.03，具有第一训练阶段的第二目标模型参数的第二子目标模型为在第一训练阶段训练好的用于对编码向量进行处理的模型，通过该具有第二目标模型参数的第二子目标模型对第一编码向量测试样本进行处理，得到第一文本特征向量，其中，第一编码向量测试样本为用于对具有第一训练阶段的第二目标模型参数的第二子目标模型进行测试的编码向量样本。

在第一训练阶段得到第一图像特征向量和第一文本特征向量之后，将第一图像特征向量和第一文本特征向量进行融合，得到第一目标特征向量，并通过预先训练好的第三神经网络模型对第一目标特征向量进行处理，得到人体部位出现异常的第一目标概率，该第一目标概率用于确定人体部位出现异常的可能性。在确定人体部位出现异常的第一目标概率之后，根据用于指示人体部位出现异常的真实结果的目标值和第一目标概率确定第一目标误差，其中，在人体部位确实出现异常的情况下，用于指示真实结果的目标值可以为1。在第一目标误差小于目标阈值的情况下，也即，对人体部位出现异常进行预测得到的第一目标概率接近真实结果，可以将第一训练阶段的第一目标模型参数确定为第一模型参数，将第一训练阶段的第二目标模型参数确定为第二模型参数，进而将具有第一模型参数的第一子目标模型确定为第一神经网络模型，将具有第二模型参数的第二子目标模型确定为第二神经网络模型。

作为一种可选的实施方式，在根据用于指示人体部位出现异常的真实结果的目标值和第一目标概率确定第一目标误差之后，该方法还包括：在第一目标误差不小于目标阈值的情况下，在第二训练阶段中，通过射线影像训练样本中的第二射线影像训练样本和对应的第二图像特征向量，对第一子目标模型按照第一训练阶段的第一目标模型参数和第二学习率进行梯度下降训练，得到第二训练阶段的第一目标模型参数，并通过具有第二训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第二射线影像测试样本的第二图像特征向量；在第二训练阶段中，通过编码向量训练样本的第二编码向量训练样本和对应的第二文本特征向量，对第二子目标模型按照第一训练阶段的第二目标模型参数和第二学习率进行梯度下降训练，得到第二训练阶段的第二目标模型参数，并通过具有第二训练阶段的第二目标模型参数的第二子目标模型对人体部位的第二编码向量测试样本进行处理，得到第二文本特征向量；将第二图像特征向量和第二文本特征向量进行融合，得到第二目标特征向量；通过第三神经网络模型对第二目标特征向量进行处理，得到人体部位出现异常的第二目标概率；根据用于指示人体部位出现异常的真实结果的目标值和第二目标概率确定第二目标误差；在第二目标误差小于目标阈值的情况下，将第二训练阶段的第一目标模型参数确定为第一模型参数，将第二训练阶段的第二目标模型参数确定为第二模型参数。

可选地，该实施例的射线影像训练样本包括第二射线影像训练样本。在根据用于指示人体部位出现异常的真实结果的目标值和第一目标概率确定第一目标误差之后，在第一目标误差不小于目标阈值的情况下，在第二训练阶段中，通过第二射线影像训练样本和对应的第二图像特征向量，对第二子目标模型按照第一训练阶段的第一目标模型参数和第二学习率进行梯度下降训练，得到第二训练阶段的第一目标模型参数，其中，第二学习率可以为0.003，具有第二训练阶段的第一目标模型参数的第一子目标模型为在第二阶段训练好的用于对射线影像进行处理的模型，通过该具有第二训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第二射线影像测试样本的第二图像特征向量，其中，第二射线影像测试样本为用于对具有第二训练阶段的第一目标模型参数的第一子目标模型进行测试的射线影像样本。

可选地，该实施例的编码向量训练样本还包括第二编码向量训练样本。在第二训练阶段中，通过第二编码向量训练样本和对应的第二文本特征向量，对第二子目标模型按照第一训练阶段的第二目标模型参数和第二学习率进行梯度下降训练，得到第二训练阶段的第二目标模型参数，其中，第二学习率同样可以为0.003，具有第二训练阶段的第二目标模型参数的第二子目标模型为在第二训练阶段训练好的用于对编码向量进行处理的模型，通过该具有第二训练阶段的第二目标模型参数的第二子目标模型对第二编码向量测试样本进行处理，得到第二文本特征向量，其中，第二编码向量测试样本为用于对具有第二训练阶段的第二目标模型参数的第二子目标模型进行测试的编码向量样本。

在第二训练阶段得到第二图像特征向量和第二文本特征向量之后，将第二图像特征向量和第二文本特征向量进行融合，得到第二目标特征向量，并通过预先训练好的第三神经网络模型对第二目标特征向量进行处理，得到人体部位出现异常的第二目标概率，该第二目标概率用于确定人体部位出现异常的可能性。在确定人体部位出现异常的第目标概率之后，根据用于指示人体部位出现异常的真实结果的目标值和第二目标概率确定第二目标误差，其中，在人体部位确实出现异常的情况下，用于指示真实结果的目标值可以为1。在第二目标误差小于目标阈值的情况下，也即，对人体部位出现异常进行预测得到的第二目标概率接近真实结果，可以将第二训练阶段的第一目标模型参数确定为第一模型参数，将第二训练阶段的第二目标模型参数确定为第二模型参数，进而将具有第一模型参数的第一子目标模型确定为第一神经网络模型，将具有第二模型参数的第二子目标模型确定为第二神经网络模型。

作为一种可选的实施方式，在根据用于指示人体部位出现异常的真实结果的目标值和第二目标概率确定第二目标误差之后，该方法还包括：在第二目标误差不小于目标阈值的情况下，在第三训练阶段中，通过射线影像训练样本中的第三射线影像训练样本和对应的第三图像特征向量，对第一子目标模型按照第三训练阶段的第一目标模型参数和第三学习率进行梯度下降训练，得到第三训练阶段的第一目标模型参数，并通过具有第三训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第三射线影像测试样本的第三图像特征向量；在第三训练阶段中，通过编码向量训练样本的第三编码向量训练样本和对应的第三文本特征向量，对第二子目标模型按照第三训练阶段的第二目标模型参数和第三学习率进行梯度下降训练，得到第三训练阶段的第二目标模型参数，并通过具有第三训练阶段的第二目标模型参数的第二子目标模型对人体部位的第三编码向量测试样本进行处理，得到第三文本特征向量；将第三图像特征向量和第三文本特征向量进行融合，得到第三目标特征向量；通过第三神经网络模型对第三目标特征向量进行处理，得到人体部位出现异常的第三目标概率；根据用于指示人体部位出现异常的真实结果的目标值和第三目标概率确定第三目标误差；在第三目标误差小于目标阈值的情况下，将第三训练阶段的第一目标模型参数确定为第一模型参数，将第二训练阶段的第二目标模型参数确定为第二模型参数。

可选地，在该实施例中，在通过射线影像训练样本和与射线影像训练样本对应的人体部位的图像特征对第一子目标模型进行梯度下降训练，以使第一子目标模型中待确定的参数被确定为第一模型参数时，可以通过射线影像训练样本和与射线影像训练样本对应的人体部位的图像特征，对第一子目标模型按照分阶段进行梯度下降训练，其中，每个阶段上用于梯度下降训练的学习率不同，比如，该多个不同的学习率对应三个不同训练阶段的学习率，第一训练阶段的学习率为0.03，第二训练阶段的学习率为0.003，第三训练阶段的学习率为0.001，其中，第二训练阶段可以利用第一训练阶段学习得到的模型进行参数的初始化，比如，第二训练阶段可以利用第一训练阶段学习得到的模型所确定的权重来微调参数，第三训练阶段可以利用第二训练阶段学习得到的模型进行参数的初始化，比如，第三训练阶段可以利用第二训练阶段学习得到的模型所确定的权重来微调参数，这种多训练阶段的递进式的学习率可以用于更好地学习用于训练第一神经网络模型的特征。

需要说明的是，上述第一神经网络模型的多训练阶段为三个训练阶段仅为本发明实施例的一种举例说明，并不代表该实施例的第一神经网络模型的多训练阶段仅为三个训练阶段，还可以为四个训练阶段、五个训练阶段等，此处不再一一举例说明。可以根据对数据进行处理的时间成本来确定第一神经网络模型的多训练阶段的数量。

该实施例可以引入分阶段的随机梯度下降方法来训练深度网络，同时利用MLP来引入影像外的信息(X射线对人体部位进行拍摄的位置)，从而提升对人体部位进行预测的准确率。

在该实施例中，在通过编码向量训练样本和文本特征向量对第二子目标模型进行梯度下降训练，以使第二子目标模型中待确定的参数被确定为第二目标参数时，可以通过编码向量训练样本和文本特征向量对第二子目标模型，按照分阶段进行梯度下降训练，其中，每个阶段上用于梯度下降训练的学习率不同，比如，该多个不同的学习率对应三个不同训练阶段的学习率，第一训练阶段的学习率为0.03，第二训练阶段的学习率为0.003，第三训练阶段的学习率为0.001，其中，第二训练阶段可以利用第一训练阶段学习得到的模型进行参数的初始化，比如，第二训练阶段可以利用第一训练阶段学习得到的模型所确定的权重来微调参数，第三训练阶段可以利用第二训练阶段学习得到的模型进行参数的初始化，比如，第三训练阶段可以利用第二训练阶段学习得到的模型所确定的权重来微调参数，这种多训练阶段的递进式的学习率可以用于更好地学习用于训练第二神经网络模型的特征。

需要说明的是，上述第二神经网络模型的多训练阶段为三个训练阶段仅为本发明实施例的一种举例说明，并不代表该实施例的第二神经网络模型的多训练阶段仅为三个训练阶段，还可以为四个训练阶段、五个训练阶段等，此处不再一一举例说明。可以根据对数据进行处理的时间成本来确定第二神经网络模型的多训练阶段的数量。

作为一种可选的实施方式，通过第一编码向量训练样本和对应的第一文本特征向量，对第二子目标模型在第一训练阶段按照第二初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第二目标模型参数包括：获取第一编码向量训练样本和第一编码向量训练样本的均值之间的第一差；获取第一差和第一编码向量训练样本的方差之间的第一商；将第一商确定为第一编码向量训练样本的归一化处理结果；通过归一化处理结果和对应的第一文本特征向量，对第二子目标模型在第一训练阶段按照第二初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第二目标模型参数。

在该实施例中，在得到第一训练阶段的第二目标模型参数时，可以对第一编码向量训练样本进行批归一化处理，可以通过减均值除方差的方式进行。可选地，第一编码向量训练样本的均值和第一编码向量训练样本的方差，获取第一编码向量训练样本和第一编码向量训练样本的均值之间的第一差，然后获取第一差和第一编码向量训练样本的方差之间的第一商，可以将该第一商确定为第一编码向量训练样本的归一化处理结果，通过归一化处理结果和对应的第一文本特征向量，对第二子目标模型在第一训练阶段按照第二初始化参数和第一学习率进行梯度下降训练，不仅可以加快模型的收敛速度，而且在一定程度缓解了深层网络中梯度弥散的问题，从而使得训练的第二神经网络模型更加稳定。

作为一种可选的实施方式，步骤S206，获取目标文本的编码向量包括：对目标文本进行独热码编码，得到编码向量。

该实施例的编码向量可以通过独热码编码(one-hot)对目标文本进行编码得到，该独热编码用于将文字信息转化为向量表示，可以使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。在通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到文本特征向量之前，对目标文本进行独热码编码，得到编码向量，比如，当拍摄的人体部位为手肘时，则手肘的编码向量为[1，0，0，0，0，0，0]，当拍摄的人体部位为手腕部位时，则手腕部位的编码向量为[0，0，0，0，0，0，1]，从而将其作为第二神经网络模型的输入，通过第二神经网络模型进行处理，得到文本特征向量。

作为一种可选的实施方式，步骤S208，将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量包括：将图像特征向量拼接在文本特征向量之前，或者将图像特征向量拼接在文本特征向量之后，得到目标特征向量，其中，目标特征向量的维度为图像特征向量的维度和文本特征的维度之和。

在该实施例中，在将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量时，可以将图像特征向量拼接在文本特征向量之前，比如，图像特征向量为[a1，a2……a1664]，文本特征向量为[b1，b2……b16]，则对[a1，a2……a1664]和[b1，b2……b16]进行拼接，则得到目标特征向量为[a1，a2……a1664，b1，b2……b16]。

可选地，在将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量时，可以将图像特征向量拼接在文本特征向量之后，比如，图像特征向量为[a1，a2……a1664]，文本特征向量为[b1，b2……b16]，则对[a1，a2……a1664]和[b1，b2……b16]进行拼接，则得到目标特征向量为[b1，b2……b16，a1，a2……a1664]

该实施例的目标特征向量的维度为图像特征向量的维度和文本特征的维度之和，比如，为图像特征向量的1664维和文本特征的维度16之和，即1680维。

作为一种可选的实施方式，步骤S204，通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量包括：通过预先训练好的第一神经网络模型获取高于第一目标维度的图像特征向量；步骤S206，通过预先训练好的第二神经网络模型对编码向量进行处理，得到目标文本的文本特征向量包括：通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到低于第二目标维度的文本特征向量，其中，第二目标维度低于第一目标维度。

在该实施例中，通过预先训练好的第一神经网络模型获取高于第一目标维度的图像特征向量，该图像特征向量可以为一个1×1664维度的向量。通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到低于第二目标维度的文本特征向量，该文本特征向量可以为一个1×16维度的向量，其中，第一目标维度可以高于第二目标维度，从而使得文本特征向量的维度低于图像特征向量的维度，从而避免文本特征向量过多的影响图像特征向量。

作为一种可选的实施方式，在步骤S210，通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率之前，该方法还包括：获取人体部位的射线影像训练样本的第三图像特征向量、用于指示人体部位的文本的编码向量训练样本的第三文本特征向量和用于指示人体部位出现异常的异常数据；通过第三图像特征向量、第三文本特征向量和异常数据对第三子目标模型进行训练，得到第三神经网络模型。

在该实施例中，在通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率之前，需要对第三神经网络模型进行训练，可以获取人体部位的射线影像训练样本，该射线影像训练样本可以包括大量的射线影像，获取该射线影像训练样本的第三图像特征向量，用于指示人体部位的文本的编码向量训练样本的第三文本特征向量，以及用于指示人体部位出现异常的异常数据，该异常数据可以为用于指示人体部位实际出现异常的数值。通过第三图像特征向量、第三文本特征向量和异常数据对第三子目标模型进行训练，进而得到第三神经网络模型。其中，第三子目标模型为预先建立好的神经网络模型。

作为一种可选的实施方式，步骤S204，通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量包括：将每个子射线影像经过包括卷积层、池化层、密集块、过渡层、分类层的第一神经网络模型，得到图像特征向量。

在该实施例中，第一神经网络模型可以DenseNet-169作为基础模型进行训练，网络层包括卷积层(Convolution)、池化层(Pooling)、密集块(Dense Block)、过渡层(Transition Layer)、分类层(Classification Layer)。第一神经网络模型的输入大小可以为448×448。每个卷积层之后都接有ReLU层和批归一化层，每一个卷积模块都与上一个卷积模块进行拼接。

可选地，该实施例的卷积层的输出大小可以为224×224，DenseNet-169可以为7×7卷积，步长为2；池化层的输出大小可以为112×112，DenseNet-169可以为3×3最大池化，步长为2；密集块1的输出大小可以为112×112，DenseNet-169可以为

步长为1；过渡层1的输出大小可以为112×112，DenseNet-169可以为1×1卷积，步长为1，其输出大小还可以为56×56，DenseNet-169可以为2×2平均池化，步长为2；密集块2的输出大小可以为56×56，DenseNet-169可以为

步长为1；过渡层2的输出大小可以为56×56，DenseNet-169可以为1×1卷积，步长为1，其输出大小还可以为28×28，DenseNet-169还可以为2×2平均池化，步长为2；密集块3的输出大小可以为28×28，DenseNet-169可以为

步长为1；过渡层3的输出大小可以为28×28，DenseNet-169可以为1×1卷积，步长为1，其输出大小还可以为14×14，DenseNet-169还可以为2×2平均池化，步长为2；密集块4的输出大小可以为14×14，DenseNet-169可以为

步长为1；分类层的输出大小可以为1×1，DenseNet-169可以为14×14全局平均池化，步长为1，还可以为sigmoid函数。

将第一射线影像的每个子射线影像经过包括上述卷积层、池化层、密集块、过渡层、分类层的第一神经网络模型进行处理，得到对应的图像特征向量。

作为一种可选的实施方式，骤S206，通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到文本特征向量包括：将编码向量经过包括卷积层、批归一化层的第二神经网络模型，得到文本特征向量。

在该实施例中，第二神经网络模型可以为病患信息处理网络，基于多层感知机MLP训练得到，其网络层包括卷积层和批归一化层。可选地，卷积层1的输出大小为256，MLP为1×1卷积；批归一化层1的输出大小为256，MLP减均值，除方差；卷积层2的输出大小为256，MLP为1×1卷积；批归一化2的输出大小为256，MLP减均值，除方差；卷积层3的输出大小为16，MLP为1×1卷积。

将目标文本的编码向量经过包括卷积层、批归一化层的第二神经网络模型进行处理，得到文本特征向量，进而对多个图像特征向量和文本特征向量进行融合，得到目标特征向量，通过预先训练好的第三神经网络模型对目标特征向量进行处理，并输出由第三神经网络模型处理得到的目标人体部位出现异常的目标概率和用于指示目标人体部位出现异常的第二射线影像，从而提高了对人体部位进行预测的准确率。

该实施例可以对患者的人体部位进行拍摄，得到若干张X射线影像，利用深度模型并结合图像处理技术，预测人体的不同部位是否存在异常。为了得到更加精确的预测结果，该实施例还可以通过分阶段的随机梯度下降方法来训练深度网络，同时利用MLP来引入影像外的信息，该影像外的信息指病例额外信息，也即，X射线拍摄的位置，从而提升分类的准确率。在实际应用中，该方法不仅能够提高医生读片的准确率，而且还可以将解译影像的速度提升几十倍。

该实施例可以提升输入影像的分辨率，从而使得人体部位的患病位置的信息更加明确，从而提高模型训练的效率；该实施例使用随机最速下降法，将SGD替代Adam，作为模型训练的优化器，同时辅以多阶段训练的方法，在防止模型过拟合训练集的同时，还可以稳定测试效果，从而学习得到更多的结构化信息；在深度模型之外，该实施例还引入了一个浅层的多层感知机(MLP)用来处理医疗影像拍摄的人体部位的信息，通过特征融合方法，利用影像和文本信息协同来预测病例的患病概率；在输入数据上，还可以对数据进行预处理，扩充训练数据，从而防止训练过程过拟合；在输出结果上，还可以采用有效的后处理方法，从而进一步提升了模型的分类性能。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

下面结合优选的实施例对本发明的技术方案进行说明。具体以一种基于深度学习和X射线影像的肌肉骨骼异常检测进行举例说明。

X射线可以用于探测骨骼的病变，同时对于探测软组织(比如，肌肉)的病变也相当有用。拍摄基于X射线的影像已成为当前医学检查中不可或缺的一环。另一方面，医院接诊患者众多，在三甲医院的工作日，接待量通常可以突破千人，这样医生通常需要较长时间来解读影像。因而，患者和医院亟需一种能够帮助医生降低时间成本的辅助诊断技术。

该实施例基于上述问题，提出了一种基于深度学习和X射线影像的肌肉骨骼异常检测方法。对患者的部位进行拍摄，得到若干张X射线影像，利用深度模型并结合图像处理技术，预测人体的不同部位是否存在异常。与此同时，为了得到更加精确的预测结果，该实施例还通过分阶段的随机梯度下降方法来训练深度网络，同时利用MLP来引入影像外的信息，该影像外的信息指病例额外信息，也即，X射线拍摄的位置，从而提升分类的准确率。在实际应用中，该方法不仅能够提高医生读片的准确率，而且还可以将解译影像的速度提升几十倍。

可选地，该实施例用于自动或者辅助诊断X射线影像中是否存在肌肉骨骼异常，用户可以输入身体多个部位的若干张X光影像，比如，输入肘部、手指、手掌、肱部、前臂、肩部和手腕的若干张X光影像。该实施例的算法还可以自动预测输入的人体部位是否存在异常，以及输入的人体部位异常的可能性大小；在具体应用过程中，可以帮助医生极大降低诊断的耗时，从而提升用户体验。

图3是根据本发明实施例的一种人体部位的异常检测方法的流程图。如图3所示，该方法包括：

步骤S301，向DenseNet-169输入同一人体部位的多张X射线影像信息。

在该实施例中，用户向DenseNet-169输入拍摄的同一人体部位的多张X射线影像。其中，用户可以为医生，人体部位也即X摄像在人体上拍摄到的位置。

步骤S302，向MLP输入人体部位的文本信息。

该实施例的文本信息用于指示X射线拍摄的人体部位。

步骤S303，通过DenseNet-169X对射线影像信息进行处理，得到图像特征。

步骤S304，通过MLP对文本信息进行处理，得到文本特征。

步骤S305，对图像特征和文本特征进行融合。

步骤S306，输出人体部位出现异常的概率。

该实施例可以自动输出X影像中肌肉骨骼异常的可能性，并给出肌肉骨骼中可能患病的具体位置，医生可以结合该结果和自己的经验判断病人是否真正患病。

该实施例建立训练数据集，可以使用斯坦福大学公开的肌肉骨骼数据库作为训练、验证和测试的数据集。其中，训练的数据集和验证的数据集一共可以包含40561张X光影像，14863份病例，而测试的数据集可以包含207份病例。

该实施例在建立训练的数据集之后，对训练的数据集进行预处理。可以将训练的数据集中每张图片随机选取面积占比0.08到1.0的区域作为输入图像，其中，该面积占比为采样后的图像和输入图像二者之间的面积之比，对输入图像进行采样的次数可以根据训练模型的轮数来确定；对于选取的每个图像块，可以对其进行随机变形，比如，改变图像块的长宽比(阈值范围可以是0.75到1.333)，随机水平翻转，最后调整大小到448×448。通过上述数据预处理方式，可以极大程度地扩充训练集的大小，从而有效地抑制过拟合。

该实施例的深度神经网络设计包括影像处理网络设计和病患信息处理网络设计。

下面对该实施例的影像处理网络的设计方法进行介绍。

图4是根据本发明实施例的一种影像处理网络的结构示意图。如图4所示，该实施例的影像处理网络可以DenseNet-169作为基础模型进行训练，网络层包括卷积层(Convolution)、池化层(Pooling)、密集块(Dense Block)、过渡层(Transition Layer)、分类层(Classification Layer)。第一神经网络模型的输入大小可以为448×448。每个卷积层之后都接有ReLU层和批归一化层，每一个卷积模块都与上一个卷积模块进行拼接。可选地，该实施例将射线影像的多个目标区域图像经过包括上述卷积层、池化层、密集块、过渡层、分类层等的影像处理网络进行处理，从而得到图像特征向量。

需要说明的是，图4所示的影像处理网络的结构仅为本发明实施例的影响处理网络结构的一种，并不限定各个网络层的大小和数量。

表1DenseNet-169结构表

表1是根据本发明实施例的一种DenseNet-169结构表。其中，如非特别注明，默认步长为1；模型的输入大小为448×448。每个卷积层之后都接有ReLU激活函数层和批标准化(Batch Normalization)层。每个模块(block)的结构如图5所示。其中，图5是根据本发明实施例的一种密集块结构的示意图，每一个卷积模块都与上一个卷积模块进行拼接，具体设计细节可以参考表1。以第三个圆圈为例，一共有两个箭头指向它。其中，横向箭头表示对第二个圆圈进行卷积变换，弯曲的箭头表示卷积变换后的模块与第一个模块进行拼接。

下面对该实施例的病患信息处理网络的设计方法进行介绍。

图6是根据本发明实施例的一种病患信息处理网络的结构的示意图。如图6所示，病患信息处理网络基于多层感知机MLP训练得到，其网络层包括卷积层和批归一化层，将文本的编码向量经过包括卷积层、批归一化层等的病患信息处理网络进行处理，得到文本特征向量。

需要说明的是，图6所示的病患信息处理网络的结构仅为本发明实施例的影响处理网络结构的一种，并不限定各个网络层的大小和数量。

该实施例使用简单的多层感知机MLP(即神经网络)来处理影像拍摄的人体部位的信息。其具体的网络结构如表2所示。

表2病患信息处理网络的结构表

网络层(Layers)	输出大小	MLP
			卷积层1(Convolution)	256	1×1卷积
批归一化层1(Batch Norm)	256	减均值，除方差
			卷积层2(Convolution)	256	1×1卷积
批归一化层2(Batch Norm)	256	减均值，除方差
			卷积层3(Convolution)	16	1×1卷积

表2是根据本发明实施例的一种病患信息处理网络的结构表，网络的输入是经过one-hot编码后的人体部位的文本信息，比如，拍摄的人体部位是手肘时，则编码后的输入向量是[1，0，0，0，0，0，0]；如果拍摄的人体部位是手腕部位时，编码后的输入向量是[0，0，0，0，0，0，1]；其中每个向量分别对应肘部、手指、手掌、肱部、前臂、肩部和手腕。

下面对该实施例的特征融合的方法进行介绍。

图7是根据本发明实施例的一种将图像特征和文本特征进行融合的方法的流程图。如图7所示，该方法包括以下步骤：

步骤S701，对获取到的图像特征和文本特征进行特征拼接，得到拼接的特征向量。

在该实施例中，图像特征是一个1×1664维度的向量，而文本特征是一个1×16维度的向量。这里采用较低维度的文本特征，是为了避免其过度影响图像特征；在经过特征拼接之后，可以得到一个1×1680维度的拼接的特征向量。

步骤S702，通过卷积层对拼接的特征向量进行处理，得到处理结果。

通过卷积层对拼接的特征向量进行处理，可以输出一个1×256的向量。

步骤S703，通过处理结果预测人体部位出现异常的概率。

下面对该实施例的深度神经网络的训练过程进行介绍。

在训练深度神经网络时，需要进行参数初始化。所有网络层可以采用在ImageNet数据集上预训练的DenseNet-169的参数，新添加的MLP层可以采用方差为0.01，均值为0的高斯分布进行初始化。

该实施例采用基于SGD的梯度下降法来求解神经网络模型的卷积模板参数w和偏置参数b。在每次迭代过程中，可以计算预测结果误差并反向传播到卷积神经网络模型中，其中，对于每张输入影像i，模型会输出一个预测概率p_i，最终的预测结果误差可以为

其中，N用于表示影像的数量，y_i为影像标记。可以根据反向传播算法更新卷积神经网络模型的第一模型参数。

在该实施例中，训练可以分为3个阶段。图8是根据本发明实施例的一种模型多阶段训练的示意图。如图8所示，三个阶段分别采用不同的学习率进行学习，比如，第一阶段的学习率为0.03，第二阶段的学习率为0.003，第三阶段为0.001，第二阶段和第三阶段均利用上一个阶段学习得到的模型进行初始化；DenseNet-169和MLP在每一个阶段可以采用相同的学习率，这种递进式的学习率可以帮助更好地学习特征。

在验证或测试阶段，该实施例的算法会输出每个病例所包含的所有射线影像的患病概率，通过取平均的操作就可以得到每个病患的得病概率。

可选地，由于该实施例的模型在训练过程中采用的是随机采样，因此该实施例可以采用一种名为TenCrop的数据扩充方式。图9是根据本发明实施例的一种FiveCrop的示意图。如图9所示，框1至框5为图像中的采样区域，分别包括框1至框4的区域为原图像的区域。对于每张待预测的输入图像，对图9所示的五个区域进行一次水平翻转，再输入至训练好的模型中，通过模型就可以对10个不同的区域进行预测，从而提高了预测的准确率。

需要说明的是，对图像划分不同的区域，与最终得到的人体部位的患病位置并没有必然的联系，划分不同的区域只是为了提高预测的准确率，与最终人体部位的患病位置的可视化结果并没有直接的联系。

该实施例可以使用不同的基础网络结构(比如，resnet或者vgg网络)以及增加可利用的患者信息(比如，性别和年龄)方式来训练神经网络模型，以得到与上述可视化结果类似的输出效果。

图10是根据本发明实施例的一种基于深度学习和X射线影像的肌肉骨骼异常检测的方法的流程图。如图10所示，前端A接受到数据(用户多张X射线影像并输入拍摄的人体部位的文本信息)，然后将其上传给后台，后台使用本技术方案对多张X射线影像和人体部位的文本信息进行处理，得到人体部位的患病概率以及具体的患病位置，然后输出到前端B。

该实施例使用深度学习来预测X射线影像的肌肉骨骼是否异常，可以快速为医生提供可靠的参考(高准确率)，从而大大提高读片的效率。

该实施例的算法还可以提供可视化的结果。图11(a)是根据本发明实施例的一种人体部位的输入图像的示意图。图11(b)是根据本发明实施例的一种对人体部位进行预测得到的可视化结果的示意图。图11(c)是根据本发明实施例的另一种人体部位的输入图像的示意图。图11(d)是根据本发明实施例的另一种对人体部位进行预测得到的可视化结果的示意图。

图11(a)和图11(c)分别为输入的人体部位的图像，图11(b)为与图11(a)对应的输出的可视化结果，可以给出可能患病的具体位置A，图11(d)为与图11(c)对应的输出的可视化结果，可以给出可能患病的具体位置B。该图11(b)和11(d)具有较好的可解释性。在实际使用过程中，医生可以根据可视化的合理性进行取舍。

在该实施例中，模型的最后一层通常包含有若干特征图f_i，而每个特征图对应一个权重w_i，通过对这些特征图进行加权求和

从而可以得到具体的患病位置，其中，N是特征图的数量。其中，权重w_i为网络的一部分，通过网络学习得到，可以对一个特征图先进行池化操作，再对池化操作的结果进行卷积操作，从而得到与该一个特征图对应的权重。

该实施例可以提升输入影像的分辨率，从而使得患病位置的信息更加明确，并且使用多GPU来训练分类网络，从而提高模型训练的效率；该实施例使用随机最速下降法，将SGD替代Adam，作为模型训练的优化器，同时辅以多阶段训练的方法，在防止模型过拟合训练集的同时，还可以稳定测试效果，从而学习得到更多的结构化信息；在深度模型之外，该实施例还引入了一个浅层的多层感知机(MLP)用来处理医疗影像拍摄的人体部位的信息，通过特征融合方法，利用影像和文本信息协同来预测病例的患病概率；在输入数据上，还可以对数据进行预处理，扩充训练数据，从而防止训练过程过拟合；在输出结果上，还可以采用有效的后处理方法，从而进一步提升了模型的分类性能。

根据本发明实施例的另一方面，还提供了一种用于实施上述人体部位的异常检测方法的人体部位的异常检测装置。图12是根据本发明实施例的一种人体部位的异常检测装置的示意图。如图12所示，该人体部位的异常检测装置120可以包括：第一获取单元10、第二获取单元20、第三获取单元30、融合单元40、处理单元50和输出单元60。

第一获取单元10，用于获取待检测的目标人体部位的第一射线影像和用于指示目标人体部位的目标文本。

第二获取单元20，用于获取第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量。

第三获取单元30，用于获取目标文本的编码向量，并通过预先训练好的第二神经网络模型对编码向量进行处理，得到目标文本的文本特征向量。

融合单元40，用于将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量。

处理单元50，用于通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率。

输出单元60，用于输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率，其中，多个第一概率与多个子射线影像一一对应。

需要说明的是，该实施例中的第一获取单元10可以用于执行本申请实施例中的步骤S202，该实施例中的第二获取单元20可以用于执行本申请实施例中的步骤S204，该实施例中的第三获取单元30可以用于执行本申请实施例中的步骤S206，该实施例中的融合单元40可以用于执行本申请实施例中的步骤S208，该实施例中的处理单元50可以用于执行本申请实施例中的步骤S210，该实施例中的输出单元60可以用于执行本申请实施例中的步骤S210。

此处需要说明的是，上述单元与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例的另一方面，还提供了一种用于实施上述人体部位的异常检测方法的电子装置。

图13是根据本发明实施例的一种电子装置的结构框图。如图13所示，该电子装置包括存储器1302和处理器1304，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器1304可以被设置为通过计算机程序执行以下步骤：

S1，获取待检测的目标人体部位的第一射线影像和用于指示目标人体部位的目标文本；

S2，获取第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个子射线影像的图像特征向量；

S3，获取目标文本的编码向量，并通过预先训练好的第二神经网络模型对编码向量进行处理，得到目标文本的文本特征向量；

S4，将每个子射线影像的图像特征向量和文本特征向量进行融合，得到与每个子射线影像对应的目标特征向量；

S5，通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率；

S6，输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率，其中，多个第一概率与多个子射线影像一一对应。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图13中所示更多或者更少的组件(如网络接口等)，或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本发明实施例中的人体部位的异常检测方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的人体部位的异常检测方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于图像特征向量、文本特征向量等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述文本的处理装置130中的第一获取单元10、第二获取单元20、第三获取单元30、融合单元40、处理单元50和输出单元60。此外，还可以包括但不限于上述文本的处理装置中的其他模块单元，本示例中不再赘述。

上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1308，用于显示上述用于指示目标人体部位出现异常的第二射线影像；连接总线1310，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

在输出由多个第一概率的平均概率得到的用于预测目标人体部位出现异常的目标概率时，输出用于指示异常出现在目标人体部位中的目标位置的目标图像。

S1，在输出用于指示异常出现在目标人体部位中的目标位置的目标图像之前，获取通过第三神经网络模型对每个子射线影像对应的目标特征向量进行处理得到的多个特征图；

S2，对每个特征图进行池化操作，得到池化结果；

S3，对池化结果进行卷积操作，得到卷积结果；

S4，将卷积结果确定为与每个特征图对应的目标权重，其中，目标权重用于指示每个特征图对生成目标图像的重要性程度；

S5，对每个特征图按照与每个特征图对应的目标权重进行加权求和，得到目标图像。

获取为第一射线影像的子集的多个原始子射线影像，其中，多个子射线影像包括多个原始子射线影像。

S1，在获取第一射线影像的多个原始子射线影像之后，对多个原始子射线影像进行翻转处理，得到多个目标子射线影像；

S2，将多个原始子射线影像和多个目标子射线影像确定为多个子射线影像。

S1，通过人体部位的射线影像训练样本和对应的图像特征向量，对第一子目标模型进行训练，得到第一模型参数，并将具有第一模型参数的第一子目标模型确定为第一神经网络模型；

S2，通过用于指示人体部位的文本的编码向量训练样本和对应的文本特征向量，对第二子目标模型进行梯度下降训练，得到第二模型参数，并将具有第二模型参数的第二子目标模型确定为第二神经网络模型。

S1，在第一训练阶段中，通过射线影像训练样本中的第一射线影像训练样本和对应的第一图像特征向量，对第一子目标模型按照第一初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第一目标模型参数，并通过具有第一训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第一射线影像测试样本的第一图像特征向量；

S2，在第一训练阶段中，通过编码向量训练样本中的第一编码向量训练样本和对应的第一文本特征向量，对第二子目标模型按照第二初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第二目标模型参数，并通过具有第二目标模型参数的第二子目标模型对人体部位的第一编码向量测试样本进行处理，得到第一文本特征向量；

S3，将第一图像特征向量和第一文本特征向量进行融合，得到第一目标特征向量；

S4，通过第三神经网络模型对第一目标特征向量进行处理，得到人体部位出现异常的第一目标概率；

S5，根据用于指示人体部位出现异常的真实结果的目标值和第一目标概率确定第一目标误差；

S6，在第一目标误差小于目标阈值的情况下，将第一训练阶段的第一目标模型参数确定为第一模型参数，将第一训练阶段的第二目标模型参数确定为第二模型参数。

S1，在根据用于指示人体部位出现异常的真实结果的目标值和第一目标概率确定第一目标误差之后，在第一目标误差不小于目标阈值的情况下，在第二训练阶段中，通过射线影像训练样本中的第二射线影像训练样本和对应的第二图像特征向量，对第一子目标模型按照第一训练阶段的第一目标模型参数和第二学习率进行梯度下降训练，得到第二训练阶段的第一目标模型参数，并通过具有第二训练阶段的第一目标模型参数的第一子目标模型获取人体部位的第二射线影像测试样本的第二图像特征向量；

S2，在第二训练阶段中，通过编码向量训练样本的第二编码向量训练样本和对应的第二文本特征向量，对第二子目标模型按照第一训练阶段的第二目标模型参数和第二学习率进行梯度下降训练，得到第二训练阶段的第二目标模型参数，并通过具有第二训练阶段的第二目标模型参数的第二子目标模型对人体部位的第二编码向量测试样本进行处理，得到第二文本特征向量；

S3，将第二图像特征向量和第二文本特征向量进行融合，得到第二目标特征向量；

S4，通过第三神经网络模型对第二目标特征向量进行处理，得到人体部位出现异常的第二目标概率；根据用于指示人体部位出现异常的真实结果的目标值和第二目标概率确定第二目标误差；

S5，在第二目标误差小于目标阈值的情况下，将第二训练阶段的第一目标模型参数确定为第一模型参数，将第二训练阶段的第二目标模型参数确定为第二模型参数。

S1，获取第一编码向量训练样本和第一编码向量训练样本的均值之间的第一差；

S2，获取第一差和第一编码向量训练样本的方差之间的第一商；将第一商确定为第一编码向量训练样本的归一化处理结果；

S3，通过归一化处理结果和对应的第一文本特征向量，对第二子目标模型在第一训练阶段按照第二初始化参数和第一学习率进行梯度下降训练，得到第一训练阶段的第二目标模型参数。

对目标文本进行独热码编码，得到编码向量。

将图像特征向量拼接在文本特征向量之前，或者将图像特征向量拼接在文本特征向量之后，得到目标特征向量，其中，目标特征向量的维度为图像特征向量的维度和文本特征的维度之和。

S1，通过预先训练好的第一神经网络模型获取高于第一目标维度的图像特征向量；

S2，通过预先训练好的第二神经网络模型对目标文本的编码向量进行处理，得到低于第二目标维度的文本特征向量，其中，第二目标维度低于第一目标维度。

S1，在通过预先训练好的第三神经网络模型对每个子射线影像对应的目标特征向量进行处理，得到每个子射线影像所指示的子人体部位出现异常的第一概率之前，获取人体部位的射线影像训练样本的第三图像特征向量、用于指示人体部位的文本的编码向量训练样本的第三文本特征向量和用于指示人体部位出现异常的异常数据；

S2，通过第三图像特征向量、第三文本特征向量和异常数据对第三子目标模型进行训练，得到第三神经网络模型。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人体部位的异常检测方法，其特征在于，包括：

获取待检测的目标人体部位的第一射线影像和用于指示所述目标人体部位的目标文本，其中，所述目标文本用于描述所述目标人体部位的位置信息；

获取所述第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个所述子射线影像的图像特征向量，其中，所述多个子射线影像包括对所述第一射线影像的左上角采样得到的第一子射线影像、对所述第一射线影像的右上角采样得到的第二子射线影像、对所述第一射线影像的左下角采样得到的第三子射线影像、对所述第一射线影像的右下角采样得到的第四子射线影像和对所述第一射线影像的中间区域采样得到的第五子射线影像；

获取所述目标文本的编码向量，并通过预先训练好的第二神经网络模型对所述编码向量进行处理，得到所述目标文本的文本特征向量；

将每个所述子射线影像的图像特征向量和所述文本特征向量进行融合，得到与每个所述子射线影像对应的目标特征向量；

通过预先训练好的第三神经网络模型对每个所述子射线影像对应的目标特征向量进行处理，得到每个所述子射线影像所指示的子人体部位出现异常的第一概率；

输出由多个所述第一概率的平均概率得到的用于预测所述目标人体部位出现异常的目标概率，其中，多个所述第一概率与多个所述子射线影像一一对应。

2.根据权利要求1所述的方法，其特征在于，在输出由多个所述第一概率的平均概率得到的用于预测所述目标人体部位出现异常的目标概率时，所述方法还包括：

输出用于指示所述异常出现在所述目标人体部位中的目标位置的目标图像。

3.根据权利要求2所述的方法，其特征在于，在输出用于指示所述异常出现在所述目标人体部位中的目标位置的目标图像之前，所述方法还包括：

获取通过所述第三神经网络模型对每个所述子射线影像对应的目标特征向量进行处理得到的多个特征图；

对每个所述特征图进行池化操作，得到池化结果；

对所述池化结果进行卷积操作，得到卷积结果；

将所述卷积结果确定为与每个所述特征图对应的目标权重，其中，所述目标权重用于指示每个所述特征图对生成所述目标图像的重要性程度；

对每个所述特征图按照与每个所述特征图对应的所述目标权重进行加权求和，得到所述目标图像。

4.根据权利要求1所述的方法，其特征在于，获取所述第一射线影像的多个子射线影像包括：

获取为所述第一射线影像的子集的多个原始子射线影像，其中，所述多个子射线影像包括所述多个原始子射线影像。

5.根据权利要求4所述的方法，其特征在于，在获取所述第一射线影像的多个原始子射线影像之后，所述方法还包括：

对所述多个原始子射线影像进行翻转处理，得到多个目标子射线影像；

将所述多个原始子射线影像和所述多个目标子射线影像确定为所述多个子射线影像。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过人体部位的射线影像训练样本和对应的图像特征向量，对第一子目标模型进行训练，得到第一模型参数，并将具有所述第一模型参数的所述第一子目标模型确定为所述第一神经网络模型；

通过用于指示所述人体部位的文本的编码向量训练样本和对应的文本特征向量，对第二子目标模型进行梯度下降训练，得到第二模型参数，并将具有所述第二模型参数的所述第二子目标模型确定为所述第二神经网络模型。

7.根据权利要求6所述的方法，其特征在于，得到所述第一模型参数和所述第二模型参数的过程包括：

在第一训练阶段中，通过所述射线影像训练样本中的第一射线影像训练样本和对应的第一图像特征向量，对所述第一子目标模型按照第一初始化参数和第一学习率进行梯度下降训练，得到所述第一训练阶段的第一目标模型参数，并通过具有所述第一训练阶段的第一目标模型参数的所述第一子目标模型获取所述人体部位的第一射线影像测试样本的第一图像特征向量；

在所述第一训练阶段中，通过所述编码向量训练样本中的第一编码向量训练样本和对应的第一文本特征向量，对所述第二子目标模型按照第二初始化参数和所述第一学习率进行梯度下降训练，得到所述第一训练阶段的第二目标模型参数，并通过具有所述第二目标模型参数的所述第二子目标模型对所述人体部位的第一编码向量测试样本进行处理，得到第一文本特征向量；

将所述第一图像特征向量和所述第一文本特征向量进行融合，得到第一目标特征向量；

通过所述第三神经网络模型对所述第一目标特征向量进行处理，得到所述人体部位出现异常的第一目标概率；

根据用于指示所述人体部位出现异常的真实结果的目标值和所述第一目标概率确定第一目标误差；

在所述第一目标误差小于目标阈值的情况下，将所述第一训练阶段的第一目标模型参数确定为所述第一模型参数，将所述第一训练阶段的第二目标模型参数确定为所述第二模型参数。

8.根据权利要求7所述的方法，其特征在于，在根据用于指示所述人体部位出现异常的真实结果的目标值和所述第一目标概率确定第一目标误差之后，所述方法还包括：

在所述第一目标误差不小于所述目标阈值的情况下，在第二训练阶段中，通过所述射线影像训练样本中的第二射线影像训练样本和对应的第二图像特征向量，对所述第一子目标模型按照所述第一训练阶段的第一目标模型参数和第二学习率进行梯度下降训练，得到所述第二训练阶段的第一目标模型参数，并通过具有所述第二训练阶段的第一目标模型参数的所述第一子目标模型获取所述人体部位的第二射线影像测试样本的第二图像特征向量；

在所述第二训练阶段中，通过所述编码向量训练样本的第二编码向量训练样本和对应的第二文本特征向量，对所述第二子目标模型按照所述第一训练阶段的第二目标模型参数和所述第二学习率进行梯度下降训练，得到所述第二训练阶段的第二目标模型参数，并通过具有所述第二训练阶段的第二目标模型参数的所述第二子目标模型对所述人体部位的第二编码向量测试样本进行处理，得到第二文本特征向量；

将所述第二图像特征向量和所述第二文本特征向量进行融合，得到第二目标特征向量；

通过所述第三神经网络模型对所述第二目标特征向量进行处理，得到所述人体部位出现异常的第二目标概率；

根据用于指示所述人体部位出现异常的真实结果的目标值和所述第二目标概率确定第二目标误差；

在所述第二目标误差小于所述目标阈值的情况下，将所述第二训练阶段的第一目标模型参数确定为所述第一模型参数，将所述第二训练阶段的第二目标模型参数确定为所述第二模型参数。

9.根据权利要求7所述的方法，其特征在于，通过第一编码向量训练样本和对应的第一文本特征向量，对所述第二子目标模型在所述第一训练阶段按照第二初始化参数和所述第一学习率进行梯度下降训练，得到所述第一训练阶段的第二目标模型参数包括：

获取所述第一编码向量训练样本和所述第一编码向量训练样本的均值之间的第一差；

获取所述第一差和所述第一编码向量训练样本的方差之间的第一商；

将所述第一商确定为所述第一编码向量训练样本的归一化处理结果；

通过所述归一化处理结果和对应的第一文本特征向量，对所述第二子目标模型在所述第一训练阶段按照第二初始化参数和所述第一学习率进行梯度下降训练，得到所述第一训练阶段的第二目标模型参数。

10.根据权利要求1至9中任意一项所述的方法，其特征在于，获取所述目标文本的编码向量包括：

对所述目标文本进行独热码编码，得到所述编码向量。

11.根据权利要求1至9中任意一项所述的方法，将每个所述子射线影像的图像特征向量和所述文本特征向量进行融合，得到与每个所述子射线影像对应的目标特征向量包括：

将所述图像特征向量拼接在所述文本特征向量之前，或者将所述图像特征向量拼接在所述文本特征向量之后，得到所述目标特征向量，其中，所述目标特征向量的维度为所述图像特征向量的维度和所述文本特征的维度之和。

12.根据权利要求1至9中任意一项所述的方法，其特征在于，

通过预先训练好的第一神经网络模型获取每个所述子射线影像的图像特征向量包括：通过预先训练好的第一神经网络模型获取高于第一目标维度的所述图像特征向量；

通过预先训练好的第二神经网络模型对所述编码向量进行处理，得到所述目标文本的文本特征向量包括：通过预先训练好的所述第二神经网络模型对所述目标文本的所述编码向量进行处理，得到低于第二目标维度的所述文本特征向量，其中，所述第二目标维度低于所述第一目标维度。

13.根据权利要求1至9中任意一项所述的方法，在通过预先训练好的第三神经网络模型对每个所述子射线影像对应的目标特征向量进行处理，得到每个所述子射线影像所指示的子人体部位出现异常的第一概率之前，所述方法还包括：

获取人体部位的射线影像训练样本的第三图像特征向量、用于指示所述人体部位的文本的编码向量训练样本的第三文本特征向量和用于指示所述人体部位出现异常的异常数据；

通过所述第三图像特征向量、所述第三文本特征向量和所述异常数据对第三子目标模型进行训练，得到所述第三神经网络模型。

14.一种人体部位的异常检测装置，其特征在于，包括：

第一获取单元，用于获取待检测的目标人体部位的第一射线影像和用于指示所述目标人体部位的目标文本，其中，所述目标文本用于描述所述目标人体部位的位置信息；

第二获取单元，用于获取所述第一射线影像的多个子射线影像，并通过预先训练好的第一神经网络模型获取每个所述子射线影像的图像特征向量，其中，所述多个子射线影像包括对所述第一射线影像的左上角采样得到的第一子射线影像、对所述第一射线影像的右上角采样得到的第二子射线影像、对所述第一射线影像的左下角采样得到的第三子射线影像、对所述第一射线影像的右下角采样得到的第四子射线影像和对所述第一射线影像的中间区域采样得到的第五子射线影像；

第三获取单元，用于获取所述目标文本的编码向量，并通过预先训练好的第二神经网络模型对所述编码向量进行处理，得到所述目标文本的文本特征向量；

融合单元，用于将每个所述子射线影像的图像特征向量和所述文本特征向量进行融合，得到与每个所述子射线影像对应的目标特征向量；

处理单元，用于通过预先训练好的第三神经网络模型对每个所述子射线影像对应的目标特征向量进行处理，得到每个所述子射线影像所指示的子人体部位出现异常的第一概率；

输出单元，用于输出由多个所述第一概率的平均概率得到的用于预测所述目标人体部位出现异常的目标概率，其中，多个所述第一概率与多个所述子射线影像一一对应。

15.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至13任一项中所述的方法。