CN115424691A - 病例匹配方法、系统、设备和介质 - Google Patents

病例匹配方法、系统、设备和介质 Download PDF

Info

Publication number
CN115424691A
CN115424691A CN202210829153.1A CN202210829153A CN115424691A CN 115424691 A CN115424691 A CN 115424691A CN 202210829153 A CN202210829153 A CN 202210829153A CN 115424691 A CN115424691 A CN 115424691A
Authority
CN
China
Prior art keywords
case
features
information
feature
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210829153.1A
Other languages
English (en)
Inventor
姜玉林
吉子军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai United Imaging Healthcare Co Ltd
Original Assignee
Shanghai United Imaging Healthcare Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai United Imaging Healthcare Co Ltd filed Critical Shanghai United Imaging Healthcare Co Ltd
Priority to CN202210829153.1A priority Critical patent/CN115424691A/zh
Publication of CN115424691A publication Critical patent/CN115424691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种病例匹配方法、系统、设备和介质,所述病例匹配方法包括:获取患者的多模态信息特征;将所述多模态信息特征进行融合,以生成目标融合特征;将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。本发明可以利用患者在就诊过程中产生的多模态信息,并根据多模态信息匹配患者的病例,提高了患者信息匹配的病例的准确度和效率,进而确保医生对患者采取手术方案的正确性,大大减轻了医生为患者筛选合适病例的工作。

Description

病例匹配方法、系统、设备和介质
技术领域
本发明涉及数字医疗技术领域,尤其涉及一种病例匹配方法、系统、设备和介质。
背景技术
随着医疗数字化的推进,患者在就诊过程中产生的信息能够得以保存下来,保存下来的信息不仅使得医护人员更全面的了解患者,也使得患者能够更加便捷的获得自身的健康状况。随着就诊患者的不断增加,这些保存下来的信息形成了一个庞大的医疗数据库。通过从医疗数据库中对以往病例的检索,可以得到许多有价值的信息。例如,检索并匹配以往相似的病例,为当前患者的诊断作参考,不仅可以了解可用的治疗手段,还可以追踪和预测愈后效果。
现有技术对医疗数据库的信息利用不充分。如,现有技术一般使用聚类方法进行病例匹配,并且一般针对某一种疾病进行匹配,这样往往浪费了很多重要的检查结果或者有效信息,提取的或者信息的数据特征也不够鲁棒,简单的聚类匹配算法得到的结果准确度不高,并且针对不同的病种需要设计不同的病例特征以及对应的算法,采用聚类匹配算法覆盖的病例类型少,匹配效率较低。
发明内容
本发明要解决的技术问题是为了克服现有针对患者信息匹配的病例的准确度、效率较低的缺陷,提供一种病例匹配方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种病例匹配方法,所述病例匹配方法包括:
获取患者的多模态信息特征;
将所述多模态信息特征进行融合,以生成目标融合特征;
将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。
较佳地,所述多模态信息包括图像信息;
所述获取患者的多模态信息特征的步骤包括:
获取所述图像信息;
将所述图像信息输入至图像信息特征提取模型中以提取所述图像信息特征;
所述图像信息特征提取模型包括以残差块为基本结构的自编码器。
较佳地,所述自编码器包括编码器和解码器;
所述编码器和所述解码器呈不对称结构。
较佳地,所述编码器包括多个不同尺寸的卷积核,且所述编码器卷积核的数量多于所述解码器卷积核的数量。
较佳地,所述多模态信息包括文本信息;
所述获取患者的多模态信息特征的步骤包括:
获取所述文本信息;
将所述文本信息输入至文本信息特征提取模型中以提取所述文本信息特征;
所述文本信息特征提取模型通过BERT模型训练生成。
较佳地,所述将所述多模态信息特征进行融合,以生成目标融合特征的步骤包括:
获取多模态信息特征的向量;
对所述多模态信息特征的向量进行向量变换,以使得每个模态信息特征的向量的维度相同;
对每个所述模态信息特征的向量进行加权平均计算,以生成所述目标融合特征。
较佳地,所述将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例的步骤包括:
分别将历史病例库中的多个所述历史病例融合特征和所述目标融合特征进行归一化处理;
分别计算归一化处理后的多个所述历史病例融合特征和所述目标融合特征的相似度;
对所有相似度进行排序,根据排序结果选取与所述患者对应的历史病例。
本发明还提供一种病例匹配系统,所述病例匹配系统包括:
获取模块,用于获取患者的多模态信息特征;
融合模块,用于将所述多模态信息特征进行融合,以生成目标融合特征;
匹配模块,用于将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的病例匹配方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的病例匹配方法。
本发明的积极进步效果在于:
本发明提供了一种病例匹配方法、系统、设备和介质,所述病例的匹配方法使得可以利用患者在就诊过程中产生的多模态信息,并根据多模态信息匹配患者的病例,提高了患者信息匹配的病例的准确度和效率,进而确保医生对患者采取手术方案的正确性,大大减轻了医生为患者筛选合适病例的工作。
附图说明
图1为本发明实施例1的病例匹配方法的流程图。
图2为本发明实施例1的病例匹配方法示意图。
图3为本发明实施例1中的步骤S101的第一流程图。
图4为本发明实施例1中的图像信息特征提取网络总体的结构示意图。
图5为本发明实施例1中的编码模块结构示意图。
图6为本发明实施例1中的解码模块结构示意图。
图7为本发明实施例1中的图像信息特征抽取示意图。
图8为本发明实施例1中的步骤S101的第二流程图。
图9为本发明实施例1中的文本信息特征提取网络示意图。
图10为本发明实施例1中的步骤S102的流程图。
图11为本发明实施例1中的步骤S103的流程图。
图12为本发明实施例2的病例匹配系统的模块示意图。
图13为本发明实施例2中的获取模块的模块示意图。
图14为本发明实施例2中的融合模块的模块示意图。
图15为本发明实施例2中的匹配模块的模块示意图。
图16为本发明实施例3电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例公开了一种病例匹配方法,所述病例匹配方法包括:
步骤S101、获取患者的多模态信息特征;
步骤S102、将所述多模态信息特征进行融合,以生成目标融合特征;
步骤S103、将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。
在一具体的实施例中,如图2所示,例如,多模态的信息包括基本信息、病史、诊断报告/结果及医学图像,将基本信息、病史、诊断报告/结果及医学图像分别输入至向量层中(即图中的Embedding Alg)进行处理并分别提取特征,以获得多模态信息特征(即图中的Feature),将提取的特征输入到特征融合层中进行特征融合处理以获得目标融合特征(即图中的Feature Fusion Alg),最后通过匹配层(即图中的Match Alg),将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例(即图中的Plan 1、Plan 2、…Plan n)。
本方案,病例的匹配方法使得可以利用患者在就诊过程中产生的多模态信息,并根据多模态信息匹配患者的病例,提高了患者信息匹配的病例的准确度和效率,进而确保医生对患者采取手术方案的正确性,大大减轻了医生为患者筛选合适病例的工作。同时,可自动将患者在就诊过程中产生的多模态信息利用不同模态对应的特征提取方法自动地对提取的特征进行嵌入式表示,从而自动构建病人手术特征数据库,进而保证了后续患者信息匹配的病例的准确度和效率。
如图3所示,在一可实施的方式中,当所述多模态信息包括图像信息时,步骤S101具体包括以下步骤:
步骤S10111、获取所述图像信息;
步骤S10112、将所述图像信息输入至图像信息特征提取模型中以提取所述图像信息特征;
具体地,将图像信息作为输入,使用以Residual Block(残差块)为基本结构的AutoEncoder(自编码器)架构进行图像信息特征的提取;
所述图像信息特征提取模型包括以残差块为基本结构的自编码器。
其中,所述自编码器包括编码器和解码器,所述编码器和所述解码器呈不对称结构。具体地,所述编码器包括多个不同尺寸的卷积核,且所述编码器卷积核的数量多于所述解码器卷积核的数量。
本方案中,为获取更加有效的图像信息特征,在设计特征提取网络时,使得Encoder(编码器)和Decoder(解码器)是非对称的,其中Encoder端的网络结构更为复杂,而Decoder端的网络较为简单,这样设计的目的主要是迫使Encoder端学习得到的特征更加有区分性和代表性,从而使得在经过Decoder端简单的网络后才可以较好地还回原始的图像。
如图4所示,该图为图像信息特征提取网络总体的结构图,该结构图由EncoderBlock(编码模块)和Decoder Block(解码模块)构成,Encoder Block(编码模块)和DecoderBlock(解码模块)在每一个stage(阶段)的数目可根据实际图像情况而定。其中,EncoderBlock包括了Encoder Conv Block(编码卷积模块),Decoder Block包括了Decoder ConvBlock(解码卷积模块)。
在一具体的实施例中,Encoder Block和Decoder Block的具体结构分别如图5和图6所示。具体地,在Encoder端的网络,我们采用多分支结构,例如图5中所示,EncoderBlock采用了3个分支结构,也即每个Block只使用3个卷积操作。其中,每个分支结构包括了3DConv(卷积函数)和Relu(激活函数),每个分支分别拥有不同的感受野,也就是使用不同尺寸的卷积核,分别对应抽取不同尺度的特征,最后将这些不同尺度的特征进行融合并输入到下一个Block。Decoder端的网络则比较简单,Decoder Block采用的分支结构少于Encoder Block采用的分支结构,如图6所示,Decoder Block采用了一个分支结构,也即每个Block(模块)只使用一个卷积操作。其中,Decoder Block中每个分支结构包括了3DConv和Relu。
本方案中,图像信息特征提取网络训练如图4所示,将图像信息(即图中的Image)输入至Encoder端网络处理,将图像表示成低维的图像信息特征,再将该图像的低维的图像信息特征输入至Decoder端,Decoder端可以通过Encoder输出的图像信息特征能够最大程度的还原回原始数据,这就迫使Encoder端网络的输出的图像信息特征能够有足够优秀的特征表示信息。
假设输入图像为I,输出图像为R,计算输入和输出之间的差异:
Figure BDA0003713574340000061
本方案可以通过最小化loss(损失函数),不断更新网络参数,从而得到最优的图像信息特征提取模型。
网络训练完成后,当需要抽取新图像数据的特征时,我们只需使用Encoder端的网络,将新数据也即图像信息(即图中的Image)输入到Encoder,Encoder的输出就是抽取的图像信息特征,其中,Encoder包括了Encoder Conv Block,具体如图7所示。
AutoEncoder网络在训练时Encoder端将输入的原始图像I映射到一个高维空间,并输出一个映射矩阵p,之后将p输入到Decoder端,经过Decoder端重新输出一个跟原始图像I一样大小的矩阵,试图还原。这样,矩阵p就可以作为原始图像的特征表示,p中就有可能将图像的纹理信息,结构信息,图像病理信息等嵌入其中,之后使用特征矩阵p作为原始图像I的表示。
获取特征矩阵p的过程可用如下公式表示:
pm×n×q=σ(Wn(…σ(W2σ(W1x+b1)+b2))+bn)
其中W,b为网络可学习参数;σ为激活函数;x为输入的医学图像数据;m×n×q表示特征矩阵p的形状大小,m、n、q分别表示矩阵在z,y,x轴上的长度;Wn是线性方程输入各维度的系数;bn是线性方程的偏置项且bn是一个实数;该公式中每一个小括号可以表示神经网络中的一层,每个神经网络包含很多个网络层,省略号表示还有剩余的没有具体写出公式的网络层。
为便于将图像信息特征与文本信息特征进行特征融合,可将特征矩阵p进行reshape(重新排列)为一维的向量,即:
pm×n×q→Ak
pm×n×q表征三维的矩阵,m、n、q分别表示矩阵在z,y,x轴上的长度;Ak表征具有k个元素的一维向量。
本方案,通过在图像信息特征提取模型中设有残差块为基本结构的自编码器,且自编码器包括呈不对称结构的编码器和解码器,编码器卷积核的数量多于所述解码器卷积核的数量,从而使得图像信息特征的提取更加准确,进而提高了对患者信息匹配的病例的准确度。
如图8所示,在另一可实施的方式中,当所述多模态信息包括文本信息时,步骤S101包括:
步骤S10121、获取所述文本信息;
步骤S10122、将所述文本信息输入至文本信息特征提取模型中以提取所述文本信息特征;
所述文本信息特征提取模型通过BERT模型训练生成。
如图9所示,该图为文本信息特征提取网络示意图。抽取文本信息特征时,将整个文本信息一次性输入到训练好的语言模型中(即图中的Language Model),并将输出的第一个token(标识或标记)对应的输出提取出来作为文本信息特征,也即图中的Embedding(嵌入特征),因为BERT是采用了self-attention(自注意力)机制的网络模型,第一个token的输出是遍历了整个文本信息而获得的,该特征包含了整个文本的语义信息、文本中描述的病理信息等。图9分为模型训练和模型应用两部分,模型训练部分将训练数据(文本信息)一次性输入至待训练的文本信息特征提取模型中,经过模型处理,输出处理结果和文本标签,通过最小化loss(损失函数),不断更新网络参数,从而得到最优的文本信息特征提取模型。模型应用部分将文本信息输入到训练好的文本信息特征提取模型中,经过模型处理输出该文本的嵌入特征。
本方案中的Bert模型利用自监督的学习方法,使用Transformer Encoder(基于深度自注意力变换网络的编码器)结构,通过Attention(注意力)机制将任意位置的两个单词的距离转换成向量表示,在有效解决自然语言处理中长期依赖的问题,同时获取文本中丰富的语义信息。通过将文本信息输入至由BERT模型训练生成的模型中,从而使得文本信息特征的提取更加准确,进而提高了对患者信息匹配的病例的准确度。
如图10所示,在一可实施的方式中,步骤S102具体包括:
步骤S1021、获取多模态信息特征的向量;
步骤S1022、对所述多模态信息特征的向量进行向量变换,以使得每个模态信息特征的向量的维度相同;
步骤S1023、对每个所述模态信息特征的向量进行加权平均计算,以生成所述目标融合特征。
具体地,假设对图像域进行特征提取的结果为Ak
Ak=f(x)
其中,f为图像信息特征提取网络,x为输入的医学图像;Ak表征具有k个元素的一维向量。
同理,对文本域进行特征提取的结果为Bk
Bk=g(y)
其中,g为文本信息特征提取网络,y为输入的文本数据;Bk表征具有k个元素的一维向量。
本方案中,Ak和Bk的向量的维度相同。
按照加权平均的方式进行特征融合得到最终的融合特征Ck:
Ck=w1×Ak+w2×Bk
其中,w1和w2是某个常数,且w1+w2=1,w1和w2的相对大小分别代表图像信息特征和文本信息特征在最终融合特征中所占的比例,一般可设为0.5;Ck表征具有k个元素的一维向量。
本方案,通过对每个模态信息特征的向量进行加权平均计算,以生成目标融合特征,从而使得获取的特征更加准确,进而提高了对患者信息匹配的病例的准确度。
如图11所示,在一可实施的方式中,步骤S103具体包括:
步骤S1031、分别将历史病例库中的多个所述历史病例融合特征和所述目标融合特征进行归一化处理;
步骤S1032、分别计算归一化处理后的多个所述历史病例融合特征和所述目标融合特征的相似度;
步骤S1033、对所有相似度进行排序,根据排序结果选取与所述患者对应的历史病例。
具体地,本方案中可以使用cosine similarity(余弦相似度)计算目标特征与数据库所有特征的匹配程度,并根据匹配度的值按照从大到小输出。
首先,对目标融合特征与特征数据库中的每个特征进行归一化操作,从而能够避免不同特征尺度对特征重要性评价的影响。然后,对进行归一化后的特征按照如下方式计算相似度:
Figure BDA0003713574340000101
其中:similarityj表征病人I的融合特征与数据库中第j个病人的嵌入特征做对比;F表示数据库中所有病例的嵌入特征,F为具有k个元素的一维向量;
Figure BDA0003713574340000102
表示数据库中第j个病例特征中的第i个特征值;k表示每个病例的特征维度总数。i表征第i个位置的特征值;C表示病人I的融合特征,Ci表示病人I的融合特征中第i个位置的特征值。
在一具体的实施例中,数据库中每个病例以及对应的特征表示如表1所示:
病例 特征表示
病例1 [0.2,0.4,0.005]
病例2 [0.008,0.5,9.55]
病例3 [2,4.0,-0.5]
病例4 [3,0.4,1.005]
病例5 [8,0.11,3.2]
病例6 [23,0.6,0.1]
…… ……
假设现有一个新的病例I,将他的所有信息通过网络后,得到的特征表示为[0.2,0.44,0.001],那么计算这个病例与数据库中的病例1之间的相似度计算如下:首先,先对要进行计算的特征进行归一化(除以该特征的最大值),具体操作如下:
特征[0.2,0.4,0.005]除以0.4,可得到特征[0.5,1.0,0.0125],特征[0.2,0.44,0.001]除以0.44,可得到特征[0.46,1.0,0.002]。
然后,计算相似度如下:
Figure BDA0003713574340000111
最后,将所有特征数据库中的特征F与当前目标融合特征计算出来的相似度按照从大到小的顺序依次排列,排列顺序就是当前病例与相应数据库病例的匹配程度的顺序,根据排序结果选取与所述病例I对应的历史病例。
本方案,通过计算归一化处理后的多个所述历史病例融合特征和所述目标融合特征的相似度,并对相似度进行排序,根据排序结果选取与患者对应的历史病例,从而提高了患者信息匹配的病例的准确度和效率,进而确保医生对患者采取手术方案的正确性,大大减轻了医生为患者筛选合适病例的工作。
实施例2
如图12所示,本实施例公开了一种病例匹配系统,所述病例匹配系统包括:
获取模块1,用于获取患者的多模态信息特征;
融合模块2,用于将所述多模态信息特征进行融合,以生成目标融合特征;
匹配模块3,用于将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。
在一具体的实施例中,如图2所示,例如,多模态的信息包括基本信息、病史、诊断报告/结果及医学图像,将基本信息、病史、诊断报告/结果及医学图像分别输入至向量层中(即图中的Embedding Alg)进行处理并分别提取特征,以获得多模态信息特征(即图中的Feature),将提取的特征输入到特征融合层中进行特征融合处理以获得目标融合特征(即图中的Feature Fusion Alg),最后通过匹配层(即图中的Match Alg),将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例(即图中的Plan 1、Plan 2、…Plan n)。
本方案,病例的匹配方法使得可以利用患者在就诊过程中产生的多模态信息,并根据多模态信息匹配患者的病例,提高了患者信息匹配的病例的准确度和效率,进而确保医生对患者采取手术方案的正确性,大大减轻了医生为患者筛选合适病例的工作。同时,可自动将患者在就诊过程中产生的多模态信息利用不同模态对应的特征提取方法自动地对提取的特征进行嵌入式表示,从而自动构建病人手术特征数据库,进而保证了后续患者信息匹配的病例的准确度和效率。
如图13所示,在一可实施的方式中,当所述多模态信息包括图像信息时,获取模块1具体包括:
第一获取单元11,用于获取所述图像信息;
第一提取单元12,用于将所述图像信息输入至图像信息特征提取模型中以提取所述图像信息特征;
具体地,将图像信息作为输入,使用以Residual Block(残差块)为基本结构的AutoEncoder(自编码器)架构进行图像信息特征的提取;
所述图像信息特征提取模型包括以残差块为基本结构的自编码器。
其中,所述自编码器包括编码器和解码器,所述编码器和所述解码器呈不对称结构。具体地,所述编码器包括多个不同尺寸的卷积核,且所述编码器卷积核的数量多于所述解码器卷积核的数量。
本方案中,为获取更加有效的图像信息特征,在设计特征提取网络时,使得Encoder和Decoder是非对称的,其中Encoder端的网络结构更为复杂,而Decoder端的网络较为简单,这样设计的目的主要是迫使Encoder端学习得到的特征更加有区分性和代表性,从而使得在经过Decoder端简单的网络后才可以较好地还回原始的图像。
如图4所示,该图为图像信息特征提取网络总体的结构图,该结构图由EncoderBlock和Decoder Block构成,Encoder Block和Decoder Block在每一个stage(阶段)的数目可根据实际图像情况而定。其中,Encoder Block包括了Encoder Conv Block,DecoderBloc包括了Decoder Conv Block。
在一具体的实施例中,Encoder Block和Decoder Block的具体结构分别如图5和图6所示。具体地,在Encoder端的网络,我们采用多分支结构,例如图5中所示,EncoderBlock采用了3个分支结构,也即每个Block只使用3个卷积操作。其中,每个分支结构包括了3DConv和Relu,每个分支分别拥有不同的感受野,也就是使用不同尺寸的卷积核,分别对应抽取不同尺度的特征,最后将这些不同尺度的特征进行融合并输入到下一个Block。Decoder端的网络则比较简单,Decoder Block采用的分支结构少于Encoder Block采用的分支结构,如图6所示,Decoder Block采用了一个分支结构,也即每个Block(模块)只使用一个卷积操作。其中,Decoder Block中每个分支结构包括了3DConv和Relu。
本方案中图像信息特征提取网络训练如图4所示,将图像信息(即图中的Image)输入至Encoder端网络处理,将图像表示成低维的图像信息特征,再将该图像的低维的图像信息特征输入至Decoder端,Decoder端可以通过Encoder输出的图像信息特征能够最大程度的还原回原始数据,这就迫使Encoder端网络的输出的图像信息特征能够有足够优秀的特征表示信息。
假设输入图像为I,输出图像为R,计算输入和输出之间的差异:
Figure BDA0003713574340000131
本方案可以通过最小化loss,不断更新网络参数,从而得到最优的图像信息特征提取模型。
网络训练完成后,当需要抽取新图像数据的特征时,我们只需使用Encoder端的网络,将新数据也即图像信息(即图中的Image)输入到Encoder,Encoder的输出就是抽取的图像信息特征,其中,Encoder包括了Encoder Conv Block,具体如图7所示。
AutoEncoder网络在训练时Encoder端将输入的原始图像I映射到一个高维空间,并输出一个映射矩阵p,之后将p输入到Decoder端,经过Decoder端重新输出一个跟原始图像I一样大小的矩阵,试图还原。这样,矩阵p就可以作为原始图像的特征表示,p中就有可能将图像的纹理信息,结构信息,图像病理信息等嵌入其中,之后使用特征矩阵p作为原始图像I的表示。
获取特征矩阵p的过程可用如下公式表示:
pm×n×q=σ(Wn(…σ(W2σ(W1x+b1)+b2))+bn)
其中W,b为网络可学习参数;σ为激活函数;x为输入的医学图像数据;m×n×q表示特征矩阵p的形状大小,m、n、q分别表示矩阵在z,y,x轴上的长度;Wn是线性方程输入各维度的系数;bn是线性方程的偏置项且bn是一个实数;该公式中每一个小括号可以表示神经网络中的一层,每个神经网络包含很多个网络层,省略号表示还有剩余的没有具体写出公式的网络层。
为便于将图像信息特征与文本信息特征进行特征融合,可将特征矩阵p进行reshape为一维的向量,即:
pm×n×q→Ak
pm×n×q表征三维的矩阵,m、n、q分别表示矩阵在z,y,x轴上的长度;Ak表征具有k个元素的一维向量。
本方案,通过在图像信息特征提取模型中设有残差块为基本结构的自编码器,且自编码器包括呈不对称结构的编码器和解码器,编码器卷积核的数量多于所述解码器卷积核的数量,从而使得图像信息特征的提取更加准确,进而提高了对患者信息匹配的病例的准确度。
如图13所示,在另一可实施的方式中,当所述多模态信息包括文本信息时,获取模块1包括:
第二获取单元13,用于获取所述文本信息;
第二提取单元14,用于将所述文本信息输入至文本信息特征提取模型中以提取所述文本信息特征;
所述文本信息特征提取模型通过BERT模型训练生成。
如图9所示,该图为文本信息特征提取网络示意图。抽取文本信息特征时,将整个文本信息一次性输入到训练好的语言模型中(即图中的Language Model),并将输出的第一个token对应的输出提取出来作为文本信息特征,也即图中的Embedding(嵌入特征),因为BERT是采用了self-attention机制的网络模型,第一个token的输出是遍历了整个文本信息而获得的,该特征包含了整个文本的语义信息,文本中描述的病理信息等。图9分为模型训练和模型应用两部分,模型训练部分将训练数据(文本信息)一次性输入至待训练的文本信息特征提取模型中,经过模型处理,输出处理结果和文本标签,通过最小化loss(损失函数),不断更新网络参数,从而得到最优的文本信息特征提取模型。模型应用部分将文本信息输入到训练好的文本信息特征提取模型中,经过模型处理输出该文本的嵌入特征。
本方案中的Bert模型利用自监督的学习方法,使用Transformer Encoder结构,通过Attention机制将任意位置的两个单词的距离转换成向量表示,在有效解决自然语言处理中长期依赖的问题,同时获取文本中丰富的语义信息。通过将文本信息输入至由BERT模型训练生成的模型中,从而使得文本信息特征的提取更加准确,进而提高了对患者信息匹配的病例的准确度。
如图14,在一可实施的方式中,融合模块2具体包括:
第三获取单元21,用于获取多模态信息特征的向量;
变换单元22,用于对所述多模态信息特征的向量进行向量变换,以使得每个模态信息特征的向量的维度相同;
融合单元23,用于对每个所述模态信息特征的向量进行加权平均计算,以生成所述目标融合特征。
具体地,假设对图像域进行特征提取的结果为Ak
Ak=f(x)
其中,f为图像信息特征提取网络,x为输入的医学图像;Ak表征具有k个元素的一维向量。
同理,对文本域进行特征提取的结果为Bk
Bk=g(y)
其中,g为文本信息特征提取网络,y为输入的文本数据;Bk表征具有k个元素的一维向量。
本方案中,A和B的向量的维度相同。
按照加权平均的方式进行特征融合得到最终的融合特征Ck
Ck=w1×Ak+w2×Bk
其中,w1和w2是某个常数,且w1+w2=1,w1和w2的相对大小分别代表图像信息特征和文本信息特征在最终融合特征中所占的比例,一般可设为0.5;Ck表征具有k个元素的一维向量。
本方案,通过对每个模态信息特征的向量进行加权平均计算,以生成目标融合特征,从而使得获取的特征更加准确,进而提高了对患者信息匹配的病例的准确度。
如图15所示,在一可实施的方式中,匹配模块3具体包括:
归一单元31,用于分别将历史病例库中的多个所述历史病例融合特征和所述目标融合特征进行归一化处理;
计算单元32,用于分别计算归一化处理后的多个所述历史病例融合特征和所述目标融合特征的相似度;
选取单元33,用于对所有相似度进行排序,根据排序结果选取与所述患者对应的历史病例。
具体地,本方案中可以使用cosine similarity(余弦相似度)计算目标特征与数据库所有特征的匹配程度,并根据匹配度的值按照从大到小输出。
首先,对目标融合特征与特征数据库中的每个特征进行归一化操作,从而能够避免不同特征尺度对特征重要性评价的影响。然后,对进行归一化后的特征按照如下方式计算相似度:
Figure BDA0003713574340000161
其中:similarityj表征病人I的融合特征与数据库中第j个病人的嵌入特征做对比;F表示数据库中所有病例的嵌入特征,F为具有k个元素的一维向量;
Figure BDA0003713574340000171
表示数据库中第j个病例特征中的第i个特征值;k表示每个病例的特征维度总数;i表征第i个位置的特征值;C表示病人I的融合特征,Ci表示病人I的融合特征中第i个位置的特征值。
在一具体的实施例中,数据库中每个病例以及对应的特征表示如表1所示:
病例 特征表示
病例1 [0.2,0.4,0.005]
病例2 [0.008,0.5,9.55]
病例3 [2,4.0,-0.5]
病例4 [3,0.4,1.005]
病例5 [8,0.11,3.2]
病例6 [23,0.6,0.1]
…… ……
假设现有一个新的病例I,将他的所有信息通过网络后,得到的特征表示为[0.2,0.44,0.001],那么计算这个病例与数据库中的病例1之间的相似度计算如下:首先,先对要进行计算的特征进行归一化(除以该特征的最大值),具体操作如下:
特征[0.2,0.4,0.005]除以0.4,可得到特征[0.5,1.0,0.0125],特征[0.2,0.44,0.001]除以0.44,可得到特征[0.46,1.0,0.002]。
然后,计算相似度如下:
Figure BDA0003713574340000172
最后,将所有特征数据库中的特征F与当前目标融合特征计算出来的相似度按照从大到小的顺序依次排列,排列顺序就是当前病例与相应数据库病例的匹配程度的顺序,根据排序结果选取与所述病例I对应的历史病例。
本方案,通过计算归一化处理后的多个所述历史病例融合特征和所述目标融合特征的相似度,并对相似度进行排序,根据排序结果选取与患者对应的历史病例,从而提高了患者信息匹配的病例的准确度和效率,进而确保医生对患者采取手术方案的正确性,大大减轻了医生为患者筛选合适病例的工作。
实施例3
图16为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所提供的病例匹配方法。图16显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图16所示,电子设备40可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备40的组件可以包括但不限于:上述至少一个处理器41、上述至少一个存储器42、连接不同系统组件(包括存储器42和处理器41)的总线43。
总线43包括数据总线、地址总线和控制总线。
存储器42可以包括易失性存储器,例如随机存取存储器(RAM)421和/或高速缓存存储器422,还可以进一步包括只读存储器(ROM)423。
存储器42还可以包括具有一组(至少一个)程序模块424的程序/实用工具425,这样的程序模块424包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器41通过运行存储在存储器42中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的病例匹配方法。
电子设备40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口45进行。并且,模型生成的设备40还可以通过网络适配器46与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器46通过总线43与模型生成的设备40的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的病例匹配方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所提供的病例匹配方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种病例匹配方法,其特征在于,所述病例匹配方法包括:
获取患者的多模态信息特征;
将所述多模态信息特征进行融合,以生成目标融合特征;
将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。
2.如权利要求1所述的病例匹配方法,其特征在于,所述多模态信息包括图像信息;
所述获取患者的多模态信息特征的步骤包括:
获取所述图像信息;
将所述图像信息输入至图像信息特征提取模型中以提取所述图像信息特征;
所述图像信息特征提取模型包括以残差块为基本结构的自编码器。
3.如权利要求2所述的病例匹配方法,其特征在于,所述自编码器包括编码器和解码器;
所述编码器和所述解码器呈不对称结构。
4.如权利要求3所述的病例的匹配方法,其特征在于,所述编码器包括多个不同尺寸的卷积核,且所述编码器卷积核的数量多于所述解码器卷积核的数量。
5.如权利要求1所述的病例匹配方法,其特征在于,所述多模态信息包括文本信息;
所述获取患者的多模态信息特征的步骤包括:
获取所述文本信息;
将所述文本信息输入至文本信息特征提取模型中以提取所述文本信息特征;
所述文本信息特征提取模型通过BERT模型训练生成。
6.如权利要求1所述的病例匹配方法,其特征在于,所述将所述多模态信息特征进行融合,以生成目标融合特征的步骤包括:
获取多模态信息特征的向量;
对所述多模态信息特征的向量进行向量变换,以使得每个模态信息特征的向量的维度相同;
对每个所述模态信息特征的向量进行加权平均计算,以生成所述目标融合特征。
7.如权利要求1所述的病例匹配方法,其特征在于,所述将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例的步骤包括:
分别将历史病例库中的多个所述历史病例融合特征和所述目标融合特征进行归一化处理;
分别计算归一化处理后的多个所述历史病例融合特征和所述目标融合特征的相似度;
对所有相似度进行排序,根据排序结果选取与所述患者对应的历史病例。
8.一种病例匹配系统,其特征在于,所述病例匹配系统包括:
获取模块,用于获取患者的多模态信息特征;
融合模块,用于将所述多模态信息特征进行融合,以生成目标融合特征;
匹配模块,用于将所述目标融合特征与历史病例融合特征进行特征匹配,以获取所述患者对应的历史病例。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的病例匹配方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的病例匹配方法。
CN202210829153.1A 2022-06-24 2022-06-24 病例匹配方法、系统、设备和介质 Pending CN115424691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210829153.1A CN115424691A (zh) 2022-06-24 2022-06-24 病例匹配方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210829153.1A CN115424691A (zh) 2022-06-24 2022-06-24 病例匹配方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN115424691A true CN115424691A (zh) 2022-12-02

Family

ID=84196153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210829153.1A Pending CN115424691A (zh) 2022-06-24 2022-06-24 病例匹配方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN115424691A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682526A (zh) * 2023-08-03 2023-09-01 中国中医科学院中国医史文献研究所 基于古籍知识单元处理的中医知识推荐系统
CN117171407A (zh) * 2023-11-03 2023-12-05 山东中联佳裕软件股份有限公司 一种基于大数据分析的智慧平台管理系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682526A (zh) * 2023-08-03 2023-09-01 中国中医科学院中国医史文献研究所 基于古籍知识单元处理的中医知识推荐系统
CN116682526B (zh) * 2023-08-03 2023-10-24 中国中医科学院中国医史文献研究所 基于古籍知识单元处理的中医知识推荐系统
CN117171407A (zh) * 2023-11-03 2023-12-05 山东中联佳裕软件股份有限公司 一种基于大数据分析的智慧平台管理系统

Similar Documents

Publication Publication Date Title
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110827929B (zh) 疾病分类编码识别方法、装置、计算机设备及存储介质
CN115424691A (zh) 病例匹配方法、系统、设备和介质
CN110442840B (zh) 序列标注网络更新方法、电子病历处理方法及相关装置
CN111738001B (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN109993227B (zh) 自动添加国际疾病分类编码的方法、系统、装置和介质
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN112257422A (zh) 命名实体归一化处理方法、装置、电子设备及存储介质
CN111696661A (zh) 患者分群模型构建方法、患者分群方法及相关设备
CN116721778B (zh) 一种医学术语标准化方法、系统、设备及介质
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
WO2014130287A1 (en) Method and system for propagating labels to patient encounter data
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
CN113723056A (zh) Icd编码转化方法、装置、计算设备和存储介质
Manojlović et al. Deep embedded clustering algorithm for clustering PACS repositories
CN116884636A (zh) 传染病数据分析方法、装置、计算机设备及存储介质
CN114708952B (zh) 一种图像标注方法、装置、存储介质和电子设备
CN116975634A (zh) 一种基于程序静态属性及图神经网络的微服务提取方法
CN115206421B (zh) 药物重定位方法、重定位模型的训练方法及装置
US20220083878A1 (en) Label inference system
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统
Manojlović et al. Using DICOM tags for clustering medical radiology images into visually similar groups
CN112766314B (zh) 解剖结构的识别方法、电子设备及存储介质
CN112328879B (zh) 新闻推荐方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination