CN111768367B

CN111768367B - 数据处理方法、装置和存储介质

Info

Publication number: CN111768367B
Application number: CN202010431227.7A
Authority: CN
Inventors: 丛龙飞; 安兴
Original assignee: Shenzhen Mindray Bio Medical Electronics Co Ltd
Current assignee: Shenzhen Mindray Bio Medical Electronics Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2024-03-29
Anticipated expiration: 2040-05-20
Also published as: CN111768367A

Abstract

本发明提供了一种数据处理方法、装置和存储介质，该方法包括：获取受测者的多模态数据，所述多模态数据包括目标区域的超声图像；对所述多模态数据进行特征提取得到数据特征；针对与所述目标区域对应的多个相关特性，获取所述数据特征对于每个所述相关特性的贡献度向量；基于所述数据特征和所述数据特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的融合特征；基于所述融合特征，利用训练好的分级模型对所述目标区域进行分级，并输出分级结果。本发明的方案能够有效减少多模态数据融合特征中的冗余性。

Description

数据处理方法、装置和存储介质

技术领域

本发明涉及数据处理技术领域，更具体地涉及一种数据处理方法、装置和存储介质。

背景技术

目前，基于机器学习技术对患者某部位的目标区域(诸如乳腺病灶、甲状腺结节等)进行超声智能诊断分析时，常结合患者多个模态的图像数据与临床数据进行综合分析。多模态数据中包含着大量相关且互补的有效信息，基于单一模态的数据很难对患者的目标区域进行全面解释。其中，如何有效融合与选择不同模态的特征，以提高辅助诊断的效果，仍然是当前的技术难点。

现有的多模态特征融合的方法主要集中于特征串联拼接、相关性分析、基于模型进行抽象(如受限波尔茨曼机)以及基于特征降维的方法。这些方法往往忽视了不同模态的数据与待预测问题之间存在着不同的相关性，使得融合特征中存在特征冗余的问题，从而影响对患者目标区域进行分级诊断的准确性。

发明内容

根据本发明一方面，提供了一种数据处理方法，所述方法包括：获取受测者的样本多模态数据和对应的临床标定结果，所述样本多模态数据包括目标区域的样本超声图像；对所述样本多模态数据进行特征提取得到样本特征；针对与所述目标区域对应的多个相关特性，获取所述样本特征对于每个所述相关特性的贡献度向量；基于所述样本特征和所述样本特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的样本融合特征；基于所述样本融合特征和所述对应的临床标定结果训练分级模型，以得到对所述目标区域进行分级的分级模型。

根据本发明另一方面，提供了一种数据处理方法，所述方法包括：获取受测者的多模态数据，所述多模态数据包括目标区域的超声图像；对所述多模态数据进行特征提取得到数据特征；针对与所述目标区域对应的多个相关特性，获取所述数据特征对于每个所述相关特性的贡献度向量；基于所述数据特征和所述数据特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的融合特征；基于所述融合特征，利用训练好的分级模型对所述目标区域进行分级，并输出分级结果。

根据本发明再一方面，提供了一种数据处理装置，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述数据处理方法。

根据本发明又一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述数据处理方法。

根据本发明实施例的数据处理方法、装置和存储介质基于受测者的多维度特征与分级任务的不同预测问题之间的相关性进行特征融合，能够有效减少多模态数据融合特征中的冗余性，从而提高对受测者目标区域进行分级诊断的准确性。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本发明一个实施例的数据处理方法的示意性流程图。

图2示出根据本发明实施例的数据处理方法中对特征向量加权融合的示意图。

图3示出根据本发明另一个实施例的数据处理方法的示意性流程图。

图4示出根据本发明实施例的数据处理装置的示意性结构框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述根据本发明一个实施例的数据处理方法。图1示出了根据本发明一个实施例的数据处理方法100的示意性流程图。此处，数据处理方法100为针对目标区域(诸如乳腺病灶、甲状腺结节或其他任何待分析区域等)训练分级模型的方法，因此，该方法中涉及到的数据和特征被称为样本数据和样本特征。基于该分级模型，可对目标对象的该类型的目标区域进行分级(下文稍后将结合图3描述基于该分级模型对目标对象的目标区域进行分级)，以辅助医生对该目标区域进行诊断。下面详细描述根据本发明实施例的数据处理方法100。如图1所示，数据处理方法100可以包括如下步骤：

在步骤S110，获取受测者的样本多模态数据和对应的临床标定结果，所述样本多模态数据包括目标区域的样本超声图像。

在本申请的实施例中，在步骤S110获取的样本多模态数据至少包括样本超声图像。示例性地，所获取的样本超声图像包括但不限于B模式超声图像、血流图像(诸如多普勒血流图像)以及其他可用于诊断分析的医用图像。

在本申请的实施例中，在步骤S110获取的样本多模态数据还可以包括受测者的样本临床文本信息。示例性地，所获取的样本临床文本信息可以包括但不限于患者性别、肿瘤家族史、有无淋巴结转移、肿瘤浸润、患者年龄等标量信息以及其他与目标区域的分级相关联的分类任务(即预测问题，后文中将详细描述)具有一定相关性的临床信息。在一个示例中，可以将这些文本描述整合成长句，作为临床信息模态的输入数据。

在步骤S120，对所述样本多模态数据进行特征提取得到样本特征。

在本申请的实施例中，当所述样本多模态数据包括目标区域的样本超声图像时，对所述样本多模态数据进行特征提取得到样本特征可以包括：对所述样本超声图像进行特征提取得到样本图像特征。在本申请的实施例中，当所述样本多模态数据包括目标区域的样本超声图像和受测者的样本临床文本信息时，对所述样本多模态数据进行特征提取得到样本特征可以包括：对所述样本超声图像进行特征提取得到样本图像特征，对所述样本临床文本信息进行特征提取得到样本文本特征，并将所述样本图像特征和所述样本文本特征进行拼接得到所述样本特征。

其中，对样本超声图像进行特征提取可以是直接对样本超声图像进行特征提取，也可以是先获取样本超声图像中的感兴趣(Region Of Interest,简称为ROI)区域，再对该感兴趣区域进行特征提取，这可以取决于步骤S110中涉及的目标区域的大小。例如，如果步骤S110中的目标区域为目标组织区域(诸如乳腺区域或甲状腺区域)，则在步骤S120所进行的特征提取可以是针对样本超声图像中的感兴趣区域(如乳腺病灶区域或甲状腺结节区域)的特征提取。再如，如果步骤S110中的目标区域为目标组织的感兴趣区域(诸如乳腺病灶区域或甲状腺结节区域)，则在步骤S120所进行的特征提取可以是直接针对样本超声图像的特征提取。也就是说，在本申请的实施例中，目标区域可以是感兴趣区域，也可以包括感兴趣区域。

在本申请的实施例中，样本超声图像中的感兴趣区域的获取可以包括以下方式中的任意一种：基于预训练的检测模型检测并提取所述样本超声图像中的感兴趣区域；基于预训练的多任务模型检测并提取所述样本超声图像中的感兴趣区域，所述多任务模型还用于对所述感兴趣区域进行所述特征提取；或者，基于用户输入获取所述样本超声图像中的感兴趣区域。

示例性地，所述预训练的检测模型可以基于深度学习、机器学习、传统方法或其组合进行感兴趣区域(诸如病灶区域)的提取，下面对其进行示例性描述。

对于基于深度学习进行感兴趣区域的提取的方式，可以基于已收集多模态图像数据(即上述样本超声图像)以及高年资医师的感兴趣区域标注结果(ROI区域的边界框(boundingbox)，即坐标信息)，对深度学习网络进行训练，深度学习检测分割网络可使用但不限于R-CNN(Region-Convolutional Neural Networks)、Faster R-CNN、SSD SingleShot MultiBox Detector)网络、YOLO(You Only Look Once)网络等。网络训练阶段计算迭代过程中感兴趣区域的检测结果和标注结果之间的误差，并以误差最小化为目的不断更新网络中的权值，不断重复该过程，使检测结果逐渐逼近感兴趣区域的真实值，得到训练好的检测模型。该模型可以实现对于新输入图像数据的感兴趣区域的自动化检测提取。

对于基于传统图像处理方法结合机器学习的感兴趣区域的提取的方式，可以包括以下几个步骤：(1)基于图像处理方法找到待选区域，如使用选择搜索(Select Search)算法；(2)将待选区域变换至固定大小，并使用图像处理方式提取图像的梯度、纹理等特征，如尺度不变特征变换(Scale-invariant feature transform，简称为SIFT)算子、梯度直方图特征(Histogram of Oriented Gradient，简称为HOG)算子、灰度共生矩阵(Grey-LevelCo-occurrence Matrix，简称为GLCM)等；(3)通过传统机器学习算法对待选区域的特征向量进行训练，得到待选框的分类模型；(4)通过回归方法得到目标的边界框。

对于基于传统图像处理方法结合机器学习的感兴趣区域的提取的方式，还可以是基于已收集的多模态超声图像和标注结果训练机器学习分割模型，采用支持向量机(Support Vector Machine，简称为SVM)、K均值聚类算法(K-means)、C均值聚类算法(C-means)等机器学习模型对像素点的灰度值或纹理值进行二分类，判断每个像素点是否属于感兴趣区域，从而实现感兴趣区域的提取。

在本申请的实施例中，可以基于预训练的图像特征提取模型对样本超声图像(或样本超声图像中的感兴趣区域)进行特征提取，并基于预训练的文本特征提取模型对样本临床文本信息进行特征提取。

示例性地，可以采用已收集多模态图像(或多模态图像中提取出的感兴趣区域)，基于与所述目标区域的分级相对应的分类任务进行深度学习分类模型的训练，以得到所述图像特征提取模型。其中，不同的目标区域对应不同的分类任务。例如，当目标区域是乳腺病灶区域时，与该目标区域相对应的分类任务即为对乳腺病灶的分类任务；当目标区域是甲状腺结节区域时，与该目标区域相对应的分类任务即为对甲状腺结节的分类任务。

示例性地，对乳腺病灶的分级可以采用美国放射学会(American College ofRadiology，简称为ACR)提出的乳腺影像报告和数据系统(Breast Imaging Reporting AndData System，简称为BI-RADS)中设定的分级评价标准，该分级评价标准中设定的BI-RADS分级包括：0、1、2、3、4、5、6共计7个等级；相应地，设定的分类任务包括乳腺形状类型、方向类型、边缘类型、回声类型、后方回声类型、钙化类型以及结节良恶性这7个分类任务，每个分类任务作为与乳腺病灶分级相对应的一个相关特性，也即一个预测问题。在其他示例中，对乳腺病灶的分级也可以采用其他的分级评价标准。

示例性地，对甲状腺结节的分级可以采用甲状腺影像报告和数据系统(ThyroidImaging Reporting And Data System，简称为TI-RADS)中设定的分级评价标准，该分级评价标准中设定的TI-RADS分级包括TR1到TR5共计5个等级；相应地，设定的分类任务包括成分、回声、形状、边缘和局灶性强回声这5个分类任务，每个分类任务作为与甲状腺结节分级相对应的一个相关特性，也即一个预测问题。在其他示例中，对甲状腺结节的分级也可以采用其他的分级评价标准。

在本申请的实施例中，上述图像特征提取模型的训练可以基于CNN、Resnet、VGGNet、AlexNet等。在基于此类网络进行训练时，通过计算分级预测结果和临床实际标定结果之间的误差，以最小化误差的方式不断迭代并更新模型中的参数值，当分类效果达到预期后(通过分类准确率评估)，仅保留分类模型对应的前端特征提取网络，用于对新输入图像提取图像特征。在本申请的另一实施例中，上述图像特征提取模型可以包括基于GLCM、局部二值模式(Local Binary Patter，简称为LBP)等统计分析方法对多模态图像(或多模态图像的感兴趣区域)构建纹理图像，并提取诸如熵、能量、均匀性、对比度以及病灶形状、灰度等浅层图像特征。

在本申请的实施例中，可以采用已获取的患者临床信息，基于与所述目标区域相对应的分类任务训练上述文本特征提取模型(包括但不限于BERT(Bidirectional EncoderRepresentation from Transformers)、词向量(word2vec)等)，该模型具有将文本编码为数字向量的功能。例如，将性别男映射为数据向量[00001001]，将性别女映射为[00000110]等。

基于提取得到的样本图像特征，可以继续执行下述的步骤。或者，基于提取得到的样本图像特征和样本文本特征，可将它们二者拼接进行串联拼接，拼接后得到的样本特征用于继续执行下述的步骤。

在步骤S130，针对与所述目标区域对应的多个相关特性，获取所述样本特征对于每个所述相关特性的贡献度向量。

在本申请的实施例中，与目标区域对应的多个相关特性如前所述的，即表示与目标区域的分级相对应的多个分类任务(预测问题)，因此，针对每个相关特性，都有一个相对应的预训练的预测模型，来对该相关特性表示的预测问题进行预测(分类)。在本申请的实施例中，考虑到不同模态的特征与待预测问题之间存在着不同的相关性，在基于多模态特征对目标区域进行分级时将多模态特征(即所述样本特征)中的不同特征对当前预测问题的贡献度差异考虑在其中，从而能够减少多模态特征中的冗余性。对于上述多个预测问题中的每个预测问题，均可考虑多模态特征中的不同特征对该预测问题的贡献度差异，从而提高基于多模态特征对目标区域进行分级的准确性。

下面以一个BI-RADS相关特性——边缘清晰或边缘不清晰为例来描述上述样本特征中的不同特征对于该相关特性的贡献度差异。

在本申请的实施例中，可以构建与所述多个相关特性中的每个相关特性各自对应的预测模型，并基于所述预测模型分别拟合所述样本特征对于每个所述相关特性的贡献度向量，该贡献度向量中的值表示所述样本特征中的每个特征对于该相关特性的贡献度权值。基于此，所述样本特征对于每个所述相关特性的贡献度向量可以包括一组贡献度权值。在一个示例中，可以将该组贡献度权值直接作为所述样本特征对于该相关特性的贡献度向量。在另一个示例中，可以将该组贡献度权值标准化后再作为所述样本特征对于该相关特性的贡献度向量。

在本申请的实施例中，与所述多个相关特性中的每个相关特性各自对应的预测模型可以是通过逻辑回归分类模型或随机森林分类模型构建的。其中，所述逻辑回归预测模型的决策函数可以包括线性决策函数或非线性决策函数。例如，以逻辑回归预测模型对所述样本特征进行权值拟合，拟合函数可以如下面的公式1所示：

其中，z为决策函数，如公式1所示的，可以将决策函数z通过sigmoid函数映射为一个[0,1]区间内的概率值g(z)，以此来表示基于当前样本特征，将BI-RADS边缘特征预测为清晰的概率值。在本发明的实施例中，决策函数包括但不仅限于线性决策函数，如下面的公式2所示：

z(x)＝w₀x₀+w₁x₁+…+w_nx_n 公式2

其中，[x₁,x₂,x₃,…,x_n]表示输入的样本特征；x_n表示特征值；w_n为不同特征值x_n对应的回归系数，即特征值x_n对于当前预测问题(相关特性)的贡献度权值。在本申请的实施例中，可以对回归权重系数w_n通过标准化及归一化操作，得到w_n对应的[0,1]区间内的值w_n’。因此，对某一个病理输入的样本特征[x₁,x₂,x₃,…,x_n]，可以对不同预测问题得到多组贡献度向量W_i＝[w₁’,w₂’,w₃’,…,w_n’]。以与BI-RADS分级相对应的预测问题为例，可以得到与形状类型、方向类型、边缘类型、回声类型、后方回声类型、钙化类型、结节良恶性各自对应的7组贡献度向量[W₁’,W₂’,W₃’,…,W₇’]。

在本申请的另一实施例中，还可以基于互信息的方法来获取所述样本特征对于每个所述相关特性的贡献度向量。例如，对于基于互信息的方法，可以针对与所述目标区域对应的多个相关特性，计算所述样本特征中的每类特征对于每个所述相关特性的互信息量，其中，互信息量的值表示所述样本特征中的每类特征对于所述相关特性的特征重要性，互信息量的值越高表示该特征越重要；将所述样本特征中所有特征对于每个所述相关特性的互信息量的集合作为所述样本特征对于每个所述相关特性的贡献度向量。

在本申请的实施例中，受测者(可能是一个受测者或者更多个受测者)的样本多模态数据一般包括不止一个样本超声图像(以及还可能包括不止一个样本临床文本信息)，因此，对样本多模态数据进行特征提取也得到不止一个样本特征。假定将多个样本特征表示为S1到Sn，那么样本特征S1到Sn中的每一个均包括多个特征，例如表示为[x₁,x₂,x₃,…,x_n]，也就是说，每个样本特征S1到Sn都包括x1到xn这n个类别的特征，只是不同样本特征中同一类别的特征的值可能不同，也可能相同。基于此，对于任一类别的特征，例如x1，假定将其在所有样本数据中的特征向量表达表示为X，则X表示所有样本特征S1到Sn中的x1组成的向量，该向量对于任一相关特性(例如边缘清晰或不清晰)有一个互信息量。假定用Y来表示该相关特性的标签(例如边缘清晰或不清晰)，则I(X,Y)表示X与Y的互信息量。互信息量可以用来度量两个随机变量X和Y之间共享的信息，互信息量越大则表明X和Y的相关性越高；也可以表示为由于X的引入而使Y的不确定度减少的量，减少的量越大说明X更有利于对Y的确定。示例性地，I(X,Y)的计算可以参见如下面的公式3所示：

其中，P(x,y)表示两个离散随机变量X和Y的联合概率分布，P(x)与P(y)表示变量X和Y的概率分布。

以上实施例示例性地示出了基于互信息量的方法获取样本特征对于每个所述相关特性的贡献度向量。在本申请的其他实施例中，还可以基于卡方检验的方法或基于任何其他合适的方法来获取所述样本特征对于每个所述相关特性的贡献度向量。

基于这些贡献度向量，可以确定用于对所述目标区域进行分级的样本融合特征，如步骤S140所述的。

在步骤S140，基于所述样本特征和所述样本特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的样本融合特征。

在本申请的实施例中，基于在步骤S130所获取的样本特征对于每个所述相关特性的贡献度向量，可以确定用于对所述目标区域进行分级的样本融合特征。具体地，可以基于所述样本特征对于每个所述相关特性的贡献度向量计算每个所述相关特性下的加权特征，并将所有所述相关特性下的加权特征进行融合，以得到用于对所述目标区域进行分级的样本融合特征。其中，所述将所有所述相关特性下的加权特征进行融合，可以包括：将所有所述相关特性下的加权特征求平均；或者将所有所述相关特性下的加权特征进行拼接，或者将所有所述相关特性下的加权特征乘以对应分类准确性后进行相加，或者将所所有所述相关特性下的加权特征相加，或者将所有相关特性下的加权特征取最大值或最小值。将所有所述相关特性下的加权特征求平均的示例如下面的公式4所示的：

∑_Average([W1’*[x1,x2,x3,...,xn],W2’*[x1,x2,x3,...,xn],...,W7’*[x1,x2,x3,...,xn]])

公式4

总体上，步骤S130的权值拟合和步骤S140的综合加权的过程可以如图2的示意图所示的。

在步骤S150，基于所述样本融合特征和所述对应的临床标定结果训练分级模型，以得到对所述目标区域进行分级的分级模型。

在本申请的实施例中，基于步骤S140所得到的样本融合特征以及步骤S110获取的样本多模态数据的临床标定结果进行分类模型的训练。其中，所采用的分类模型包括但不限于深度学习分类网络、或采用SVM模型、逻辑回归(Logistic Regression，简称为LR)模型、K最近邻(K-Nearest Neighbor，简称为KNN)分类模型等机器学习分类模型基于已收集的样本融合特征进行训练，最终得到用于对所述目标区域进行分级预测的分级模型。

基于上面的描述，根据本申请实施例的数据处理方法基于基于受测者的多维度特征与分级任务的不同预测问题之间的相关性进行特征融合，并基于融合特征训练分级模型，能够有效减少多模态数据融合特征中的冗余性，从而提高对受测者目标区域进行分级诊断的准确性。

下面结合图3来描述根据本发明另一实施例的数据处理方法。图3示出了根据本发明另一实施例的数据处理方法300的示意性流程图。此处，数据处理方法300为针对目标对象(诸如患者)的目标区域(诸如乳腺病灶、甲状腺结节或其他任何待分析区域等)进行分级的方法，在该方法中采用的分级模型可以是根据前文结合图1所述的数据处理方法训练得到的。下面详细描述根据本发明实施例的数据处理方法300。如图3所示，数据处理方法300可以包括如下步骤：

在步骤S310，获取受测者的多模态数据，所述多模态数据包括目标区域的超声图像。

在本申请的实施例中，在步骤S310获取的多模态数据至少包括待处理的超声图像。示例性地，所获取的待处理的超声图像包括但不限于B模式超声图像、血流图像(诸如多普勒血流图像)以及其他可用于诊断分析的医用图像。

在本申请的实施例中，在步骤S310获取的多模态数据还可以包括待处理的临床文本信息。示例性地，所获取的待处理的临床文本信息可包括但不限于患者性别、肿瘤家族史、有无淋巴结转移、肿瘤浸润、患者年龄等标量信息以及其他与目标区域的分类任务(即预测问题)具有一定相关性的临床信息。在一个示例中，可以将这些文本描述整合成长句，作为临床信息模态的输入数据。

在步骤S320，对所述多模态数据进行特征提取得到数据特征。

在本申请的实施例中，当所述多模态数据包括目标区域的超声图像时，对所述多模态数据进行特征提取得到数据特征可以包括：对所述超声图像进行特征提取得到图像特征。在本申请的实施例中，当所述多模态数据包括目标区域的超声图像和受测者的临床文本信息时，对所述多模态数据进行特征提取得到数据特征可以包括：对所述超声图像进行特征提取得到图像特征，对所述临床文本信息进行特征提取得到文本特征，并将所述图像特征和所述文本特征进行拼接得到所述数据特征。

在本申请的实施例中，对待处理的超声图像进行特征提取可以是直接对待处理的超声图像进行特征提取，也可以是先获取待处理的超声图像中的感兴趣区域，再对该感兴趣区域进行特征提取，这可以取决于步骤S110中涉及的目标区域的大小。例如，如果步骤S110中的目标区域为目标组织区域(诸如乳腺区域或甲状腺区域)，则在步骤S120所进行的特征提取可以是针对待处理的超声图像中的感兴趣区域(如乳腺病灶区域或甲状腺结节区域)的特征提取。再如，如果步骤S110中的目标区域为目标组织的感兴趣区域(诸如乳腺病灶区域或甲状腺结节区域)，则在步骤S120所进行的特征提取可以是直接针对待处理的超声图像的特征提取。也就是说，在本申请的实施例中，目标区域可以是感兴趣区域，也可以包括感兴趣区域。

在本申请的实施例中，待处理的超声图像中的感兴趣区域的获取可以包括以下方式中的任意一种：基于预训练的检测模型检测并提取所述待处理的超声图像中的感兴趣区域；基于预训练的多任务模型检测并提取所述待处理的超声图像中的感兴趣区域，所述多任务模型还用于对所述感兴趣区域进行所述特征提取；或者，基于用户输入获取所述待处理的超声图像中的感兴趣区域。

示例性地，所述预训练的检测模型可以基于深度学习、机器学习、传统方法或其组合进行感兴趣区域(诸如病灶区域)的提取，可以参照前文结合图1的描述理解该检测模型的训练及应用，为了简洁，此处不再赘述。

在本申请的实施例中，可以基于预训练的图像特征提取模型对待处理的超声图像(或待处理的超声图像中的感兴趣区域)进行特征提取，并基于预训练的文本特征提取模型对待处理的临床文本信息进行特征提取。

示例性地，可以采用已收集多模态图像(或多模态图像中提取出的感兴趣区域)，基于与所述目标区域的分级相对应的分类任务进行深度学习分类模型的训练，以得到所述图像特征提取模型。其中，不同的目标区域对应不同的分类任务。例如，当目标区域是乳腺病灶区域时，与该目标区域相对应的分类任务即为对乳腺病灶的分类任务；当目标区域是甲状腺结节区域时，与该目标区域相对应的分类任务即为对甲状腺结节的分类任务。可以参照前文结合图1的描述理解与目标区域相对应的分类任务(也称为预测问题或相关特性)，为了简洁，此处不再赘述。

在本申请的实施例中，上述图像特征提取模型的训练可以基于卷积神经网络、Resnet、VGG网络、AlexNet等。在基于此类网络进行训练时，通过计算分级预测结果和临床实际标定结果之间的误差，以最小化误差的方式不断迭代并更新模型中的参数值，当分类效果达到预期后(通过分类准确率评估)，仅保留分类模型对应的前端特征提取网络，用于对新输入图像提取图像特征。在本申请的另一实施例中，上述图像特征提取模型可以包括基于GLCM、LBP等统计分析方法对多模态图像(或多模态图像的感兴趣区域)构建纹理图像，并提取诸如熵、能量、均匀性、对比度以及病灶形状、灰度等浅层图像特征。

在本申请的实施例中，可以采用已获取的患者临床信息，基于与所述目标区域相对应的分类任务训练上述文本特征提取模型(包括但不限于Transformer双向编码器、word2vec等)，该模型具有将文本编码为数字向量的功能。例如，将性别男映射为数据向量[00001001]，将性别女映射为[00000110]等。

基于提取得到的图像特征，可以继续执行下述的步骤。或者，基于提取得到的图像特征和文本特征，可将它们二者拼接进行串联拼接，拼接后得到的数据特征用于继续执行下述的步骤。

在步骤S330，针对与所述目标区域对应的多个相关特性，获取所述数据特征对于每个所述相关特性的贡献度向量。

在本申请的实施例中，与目标区域对应的多个相关特性如前所述的，即表示与目标区域的分级相对应的多个分类任务(预测问题)，因此，针对每个相关特性，都有一个相对应的预训练的预测模型，来对该相关特性表示的预测问题进行预测(分类)。在本申请的实施例中，考虑到不同模态的特征与待预测问题之间存在着不同的相关性，在基于多模态特征对目标区域进行分级时将多模态特征(即所述数据特征)中的不同特征对当前预测问题的贡献度差异考虑在其中，从而能够减少多模态特征中的冗余性。对于上述多个预测问题中的每个预测问题，均可考虑多模态特征中的不同特征对该预测问题的贡献度差异，从而提高基于多模态特征对目标区域进行分级的准确性。

在本申请的实施例中，所述数据特征对于每个所述相关特性的贡献度向量可以是预先拟合得到的，所述预先拟合可以包括：获取与所述目标区域相关联的样本特征，基于与每个所述相关特性各自对应的预训练的预测模型分别拟合所述样本特征对于每个所述相关特性的贡献度向量；所述预先拟合得到的所述样本特征对于每个所述相关特性的贡献度向量作为所述数据特征对于每个所述相关特性的贡献度向量。其中，所述样本特征对于每个所述相关特性的贡献度向量可以包括一组贡献度权值，所述一组贡献度权值可以直接作为所述贡献度向量或者经标准化后作为所述贡献度向量。

在本申请的另一实施例中，所述数据特征对于每个所述相关特性的贡献度向量可以是预先计算得到的，所述预先计算可以包括：获取与所述目标区域相关联的样本特征，计算所述样本特征中的每类特征对于每个所述相关特性的互信息量，并将所述样本特征中所有特征对于每个所述相关特性的互信息量的集合作为所述样本特征对于每个所述相关特性的贡献度向量；所述预先计算得到的所述样本特征对于每个所述相关特性的贡献度向量作为所述数据特征对于每个所述相关特性的贡献度向量。

在本申请的其他实施例中，还可以基于卡方检验的方法或基于任何其他合适的方法来获取所述样本特征对于每个所述相关特性的贡献度向量，从而获取所述数据特征对于每个所述相关特性的贡献度向量。可以参照前文结合图1的描述理解多模态数据特征对于每个所述相关特性的贡献度向量的获取方式，为了简洁，此处不再赘述。前文的样本特征对于每个所述相关特性的贡献度向量即为此处的所述数据特征对于每个所述相关特性的贡献度向量。

在步骤S340，基于所述数据特征和所述数据特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的融合特征。

在本申请的实施例中，基于在步骤S330所获取的数据特征对于每个所述相关特性的贡献度向量，可以确定用于对所述目标区域进行分级的融合特征。具体地，可以基于所述数据特征对于每个所述相关特性的贡献度向量计算每个所述相关特性下的加权特征，并将所有所述相关特性下的加权特征进行融合，以得到用于对所述目标区域进行分级的融合特征。其中，所述将所有所述相关特性下的加权特征进行融合，可以包括：将所有所述相关特性下的加权特征求平均；或者将所有所述相关特性下的加权特征进行拼接。

在步骤S350，基于所述融合特征，利用训练好的分级模型对所述目标区域进行分级，并输出分级结果。

在本申请的实施例中，可将步骤S340所得到的融合特征输入到预先训练好的分级模型(例如利用前文结合图1所描述的数据处理方法100训练得到的分级模型)，该分级模型基于所输入的融合特征，可输出对目标区域的分级结果，实现对目标区域的分级预测。示例性地，可以以文字或报告的形式对分级结果进行综合显示。

基于上面的描述，根据本申请实施例的数据处理方法基于受测者的多维度特征与分级任务的不同预测问题之间的相关性进行特征融合，能够有效减少多模态数据融合特征中的冗余性，从而提高对受测者目标区域进行分级诊断的准确性。

下面结合图4描述根据本申请另一方面提供的数据处理装置。图4示出了根据本发明实施例的数据处理装置400的示意性结构框图。如图4所示，数据处理装置400包括存储器410以及处理器420。其中，存储器410存储用于实现根据本申请实施例的数据处理方法100或300中的相应步骤的程序。处理器420用于运行存储器410中存储的程序，以执行根据本申请实施例的数据处理方法100或300。本领域技术人员可以参照前文结合图1到图3的描述理解处理器420的具体操作，为了简洁，此处不再赘述。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的数据处理方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

基于上面的描述，根据本发明实施例的数据处理方法、装置和存储介质基于受测者的多维度特征与分级任务的不同预测问题之间的相关性进行特征融合，能够有效减少多模态数据融合特征中的冗余性，从而提高对受测者目标区域进行分级诊断的准确性。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取受测者的样本多模态数据和对应的临床标定结果，所述样本多模态数据包括目标区域的样本超声图像；

对所述样本多模态数据进行特征提取得到样本特征；

针对与所述目标区域对应的多个相关特性，获取所述样本特征对于每个所述相关特性的贡献度向量，所述多个相关特性表示与所述目标区域的分级相对应的多个分类任务；

基于所述样本特征和所述样本特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的样本融合特征；

基于所述样本融合特征和所述对应的临床标定结果训练分级模型，以得到对所述目标区域进行分级的分级模型。

2.根据权利要求1所述的方法，其特征在于，所述样本多模态数据还包括样本临床文本信息，所述对所述样本多模态数据进行特征提取得到样本特征，包括：

对所述样本超声图像进行特征提取得到样本图像特征，对所述样本临床文本信息进行特征提取得到样本文本特征，并将所述样本图像特征和所述样本文本特征进行拼接得到所述样本特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述样本超声图像进行特征提取包括对所述样本超声图像中的感兴趣区域进行特征提取，所述感兴趣区域的获取包括以下中的任一项：

基于预训练的检测模型检测并提取所述样本超声图像中的感兴趣区域；

基于预训练的多任务模型检测并提取所述样本超声图像中的感兴趣区域，所述多任务模型还用于对所述感兴趣区域进行所述特征提取；以及

基于用户输入获取所述样本超声图像中的感兴趣区域。

4.根据权利要求2所述的方法，其特征在于，所述对所述样本超声图像进行特征提取是基于预训练的图像特征提取模型，所述对所述样本临床文本信息进行特征提取是基于预训练的文本特征提取模型。

5.根据权利要求1所述的方法，其特征在于，所述针对与所述目标区域对应的多个相关特性，获取所述样本特征对于每个所述相关特性的贡献度向量，包括：

构建与所述多个相关特性中的每个相关特性各自对应的预测模型，并基于所述预测模型分别拟合所述样本特征对于每个所述相关特性的贡献度向量。

6.根据权利要求5所述的方法，其特征在于，所述与所述多个相关特性中的每个相关特性各自对应的预测模型是通过逻辑回归分类模型或随机森林分类模型构建的。

7.如权利要求6所述的方法，其特征在于，所述逻辑回归分类模型的决策函数包括线性决策函数或非线性决策函数。

8.根据权利要求1所述的方法，其特征在于，所述针对与所述目标区域对应的多个相关特性，获取所述样本特征对于每个所述相关特性的贡献度向量，包括：

针对与所述目标区域对应的多个相关特性，计算所述样本特征中的每类特征对于每个所述相关特性的互信息量，并将所述样本特征中所有特征对于每个所述相关特性的互信息量的集合作为所述样本特征对于每个所述相关特性的贡献度向量。

9.根据权利要求5或8所述的方法，其特征在于，所述样本特征对于每个所述相关特性的贡献度向量包括一组贡献度权值，所述一组贡献度权值直接作为所述贡献度向量或者经标准化后作为所述贡献度向量。

10.根据权利要求1所述的方法，其特征在于，所述基于所述样本特征和所述样本特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的样本融合特征，包括：

基于所述样本特征对于每个所述相关特性的贡献度向量计算每个所述相关特性下的加权特征；

将所有所述相关特性下的加权特征进行融合，以得到用于对所述目标区域进行分级的样本融合特征。

11.根据权利要求10所述的方法，其特征在于，所述将所有所述相关特性下的加权特征进行融合，包括：

将所有所述相关特性下的加权特征求平均；或者

将所有所述相关特性下的加权特征进行拼接。

12.根据权利要求1-11中的任一项所述的方法，其特征在于，所述目标区域包括乳腺病灶区域或甲状腺结节区域。

13.一种数据处理方法，其特征在于，所述方法包括：

获取受测者的多模态数据，所述多模态数据包括目标区域的超声图像；

对所述多模态数据进行特征提取得到数据特征；

针对与所述目标区域对应的多个相关特性，获取所述数据特征对于每个所述相关特性的贡献度向量，所述多个相关特性表示与所述目标区域的分级相对应的多个分类任务；

基于所述数据特征和所述数据特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的融合特征；

基于所述融合特征，利用训练好的分级模型对所述目标区域进行分级，并输出分级结果。

14.根据权利要求13所述的方法，其特征在于，所述多模态数据还包括临床文本信息，对所述多模态数据进行特征提取得到数据特征，包括：

对所述超声图像进行特征提取得到图像特征，对所述临床文本信息进行特征提取得到文本特征，并将所述图像特征和所述文本特征进行拼接得到所述数据特征。

15.根据权利要求14所述的方法，其特征在于，所述对所述超声图像进行特征提取包括对所述超声图像中的感兴趣区域进行特征提取，所述感兴趣区域的获取包括以下中的任一项：

基于预训练的检测模型检测并提取所述超声图像中的感兴趣区域；

基于预训练的多任务模型检测并提取所述超声图像中的感兴趣区域，所述多任务模型还用于对所述感兴趣区域进行所述特征提取；以及

基于用户输入获取所述超声图像中的感兴趣区域。

16.根据权利要求14所述的方法，其特征在于，对感兴趣区域进行特征提取是基于预训练的图像特征提取模型，所述对所述临床文本信息进行特征提取是基于预训练的文本特征提取模型。

17.根据权利要求13所述的方法，其特征在于，所述数据特征对于每个所述相关特性的贡献度向量是预先拟合得到的，

所述预先拟合包括：获取与所述目标区域相关联的样本特征，基于与每个所述相关特性各自对应的预训练的预测模型分别拟合所述样本特征对于每个所述相关特性的贡献度向量；

所述预先拟合得到的所述样本特征对于每个所述相关特性的贡献度向量作为所述数据特征对于每个所述相关特性的贡献度向量。

18.根据权利要求13所述的方法，其特征在于，所述数据特征对于每个所述相关特性的贡献度向量是预先计算得到的，

所述预先计算包括：获取与所述目标区域相关联的样本特征，计算所述样本特征中的每类特征对于每个所述相关特性的互信息量，并将所述样本特征中所有特征对于每个所述相关特性的互信息量的集合作为所述样本特征对于每个所述相关特性的贡献度向量；

所述预先计算得到的所述样本特征对于每个所述相关特性的贡献度向量作为所述数据特征对于每个所述相关特性的贡献度向量。

19.根据权利要求17或18所述的方法，其特征在于，所述样本特征对于每个所述相关特性的贡献度向量包括一组贡献度权值，所述一组贡献度权值直接作为所述贡献度向量或者经标准化后作为所述贡献度向量。

20.根据权利要求13所述的方法，其特征在于，所述基于所述数据特征对于每个所述相关特性的贡献度向量，确定用于对所述目标区域进行分级的融合特征，包括：

基于所述数据特征对于每个所述相关特性的贡献度向量计算每个所述相关特性下的加权特征；

将所有所述相关特性下的加权特征进行融合，以得到用于对所述目标区域进行分级的融合特征。

21.根据权利要求20所述的方法，其特征在于，所述将所有所述相关特性下的加权特征进行融合，包括：

将所有所述相关特性下的加权特征求平均；或者

将所有所述相关特性下的加权特征进行拼接。

22.根据权利要求13所述的方法，其特征在于，所述分级模型是基于权利要求1-12中的任一项所述数据处理方法训练得到的。

23.根据权利要求13-22中的任一项所述的方法，其特征在于，所述目标区域包括乳腺病灶区域或甲状腺结节区域。

24.一种数据处理装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-23中的任一项所述的数据处理方法。

25.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-23中的任一项所述的数据处理方法。