CN112800248B

CN112800248B - 相似病例检索方法、装置、计算机设备及存储介质

Info

Publication number: CN112800248B
Application number: CN202110067822.1A
Authority: CN
Inventors: 孟祥飞; 张振伟; 孙华文; 孙娜; 田晓; 冯源
Original assignee: Tianhe Supercomputing Huaihai Sub Center
Current assignee: Linyi Tianhe Technology Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-08-05
Anticipated expiration: 2041-01-19
Also published as: CN112800248A

Abstract

本申请提供了一种相似病例检索方法、装置、计算机设备及存储介质，涉及数据处理技术领域，用于提高相似病例检索准确度。该方法主要包括：将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；获取与所述目标病例的病例标签对应的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例；计算所述目标病例与所述病例数据库中各病例的相似度；将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

Description

相似病例检索方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种相似病例检索方法、装置、计算机设备及存储介质。

背景技术

病例是对疾病的发生、发展、诊断以及治疗情况系统性的记录文件。随着电子病历系统在医院的普及，电子病例逐渐替代了手写病历，使得病例信息的手机和管理变得更加方便和快捷。

目前，对于相似病历的检索，通常采用在一个或多个字段上进行匹配检索来实现的；而在医疗问题中去计算病历相似性，比在非特定领域中，有更大的难度。这是因为医疗的专业术语是非常多的，而普通的词嵌入向量中很难学到医学的信息。这就导致了相似检索结果的不完全和不准确，影响检索效率。

发明内容

本申请实施例提供一种相似病例检索方法、装置、计算机设备及存储介质，用于提高相似病例检索的准确度。

本发明实施例提供一种相似病例检索方法，所述方法包括：

将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；

获取与所述目标病例的病例标签对应的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例；

计算所述目标病例与所述病例数据库中各病例的相似度；

将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

识别模块，用于将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；

获取模块，用于获取与所述目标病例的病例标签对应的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例；

计算模块，用于计算所述目标病例与所述病例数据库中各病例的相似度；

确定模块，用于将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述相似病例检索方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述相似病例检索方法。

本发明提供一种相似病例检索方法、装置、计算机设备及存储介质，将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；获取与所述目标病例的病例标签对应的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例；计算所述目标病例与所述病例数据库中各病例的相似度；将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。与目前在一个或多个字段上进行匹配检索相似病例相比，本发明由于病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的，因此通过该病例类别识别模型可准确的识别出目标病例的病例标签，然后基于该病例标签对应的病例数据库检索目标病例的相似病例，从而通过本发明可提高相似病例检索的准确度。

附图说明

图1为本申请第一实施例提供的相似病例检索方法流程图；

图2为本申请第一实施例提供的seq2seq模型结构图；

图3为本申请第二实施例提供的相似病例检索方法流程图；

图4为本申请第二实施例提供的孪生网络结构图；

图5为本申请一个实施例提供的相似病例检索装置的结构框图；

图6为本申请一个实施例提供的计算机设备的一示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本申请实施例的技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请实施例技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

第一实施例

请参阅图1，所示为本发明第一实施例当中的相似病例检索方法，该方法应用于主节点，所述方法具体包括步骤S10-步骤S40：

步骤S10，将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签。

其中，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的，该病例标签为对应病例所属的疾病分类。具体的，病例标签具体可以包括大标签、中标签和小标签，大标签是对应病例所属疾病的大分类，中标签是对应病例所属疾病的中分类，小标签是对应病例所属疾病的小分类。

在本实施例中，通过专业的医生对不同样本病历进行标注，标注的内容包括该病历所属疾病的大分类，之后添加该病历在大分类疾病下所属的中分类，中分类后还可以继续添加病历所属的更小的分类级别，病历标注的疾病分类越详细越好，并将病历归类到所属的最小的分类级别，最后根据样本病例和对应的病例标签进行模型训练得到病例类别识别模型，以便于在后续步骤中通过该病例类别识别模型可以识别目标病例所属的疾病分类。

具体的，如图2所示，病例类别识别模型为Seq2Seq模型，包括编码层(encoder)和解码层(decoder)，解码层进一步包括隐藏层。

根据本发明，S10进一步包括：

S101，根据目标病例生成病例词向量(x₁，x₂，....，x_t)；t为病例词向量中词的数量。

S102，将病例词向量输入Seq2Seq模型，生成病例标签(y₁，y₂，...，y_t’)。其中t’为病例标签的数量，与t正相关。

优选的，y_i＝g(y_i-1,S_i,C_i)。

其中，g()是非线性激活函数。

其中，C_i＝q(h₁，h₂，....，ht)，为第i阶段的语义向量，其中，(h₁，h₂，....，ht)为根据病例词向量(x₁，x₂，....，x_t)确定的编码层的输出，i的取值与t正相关。q()可以选择现有技术中合适的隐藏层函数，优选的，

a_ij为病例词向量中的x_j和病例标签y_i之间的程度权值。

优选的，

e_ij＝a(s_i-1,h_j)。j的取值为1...t，a()可以采用现有技术中的关联函数。

其中，Si为根据(h₁，h₂，....，ht)确定的隐藏层的输出。优选的，S_i＝f(S_i-1,y_i-1,C_i)。

通过使用图2所示的病例类别识别模型，经测试，与现有的机器学习算法相比，最终获取的相似度明显提升。

步骤S20，获取与所述目标病例的病例标签对应的病例数据库。

在本实施例中，不同的病例标签对应不同的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例。

步骤S30，计算所述目标病例与所述病例数据库中各病例的相似度。

具体的，计算目标病例与病例数据库中各病例的相似度，然后将相似度大于预置数值的病例确定为目标病例的相似病例。

步骤S40，将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

其中，预置数值具体可以为相似度值最大，或者相似度大于70％或是80％等，本实施例不做具体限定。

本发明实施例提供一种相似病例检索方法，将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；获取与目标病例的病例标签对应的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例；计算目标病例与病例数据库中各病例的相似度；将病例数据库中与目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。与目前在一个或多个字段上进行匹配检索相似病例相比，本发明由于病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的，因此通过该病例类别识别模型可准确的识别出目标病例的病例标签，然后基于该病例标签对应的病例数据库检索目标病例的相似病例，从而通过本发明可提高相似病例检索的准确度。

第二实施例

请参阅图3，所示为本发明第二实施例当中的相似病例检索方法，所述方法具体包括步骤S01-步骤S05：

步骤S01，将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签。

其中，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的，所述病例标签包括大标签、中标签和小标签，本步骤S01与实施例一中步骤S10的内容相同，本实施例在此不再赘述。

在本实施例中，对病例识别模型的训练过程具体为：对所述样本病例分词、去除停用词；将所述样本病例中的每个词转化为词向量，并根据所有词的词向量组成所述样本病例的病例向量；对所述样本向量和对应的病例标签进行训练得到所述病例类别识别模型。其中，样本病例就是病例内容，病例标签就是医生对该病历进行的标签标注，例如样本病例1的大标签属于肺，中标签属于肺结节，小标签属于实性结节，此时的病例标签为“肺-肺结节-实性结节”。

步骤S02，获取与大标签、所述中标签和所述小标签均匹配的病例数据库。

例如，目标病例1的大标签属于肺，中标签属于肺结节，小标签属于实性结节，则获取与病例标签“肺-肺结节-实性结节”匹配的病例数据库。不同的病例标签对应不同的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例。

步骤S03，将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。

在本实施例，首先对两两样本病例进行相似度标注，然后根据样本病例和标注的相似度进行模型训练得到孪生网络。具体的，获取每个所述样本病例对应的大标签、中标签和小标签；对每两个所述样本病例按照所述小标签的维度进行相似度标记；根据每两个所述样本病例的病例向量，及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。在本实施例中，可以将两两样本病例的相似度标注成多个等级，如相似度1，相似度2，相似度3，相似度4，相似度的数值越大代表两个病例越相似。

具体的，对所述样本病例分词、去除停用词；将所述样本病例中的每个词转化为词向量，并根据所有词的词向量组成所述样本病例的病例向量；根据每两个所述样本病例的病例向量，及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。

其中，孪生网络的网络结构如图4所示，孪生网络中使用LSTM来处理目标病例的词向量，所述目标病例的词向量为将目标病例进行分词、去除停用词后形成的词向量。

根据本发明，S03中进一步包括：

获取目标病例与病例数据库中各病例的余弦距离Ew

其中，x1为目标病例的词向量，x2为病例数据库中需要获取相似度的病例的词向量。fw()为将词映射为对应的词向量。

损失函数用了Contrastive loss function，是用来评估模型的预测值与真实值不一致的程度，也是神经网络中优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程，损失函数越小，说明模型的预测值就越接近真是值，模型的健壮性也就越好。其表达式如下：

Ew和Lw的关系：

例如，样本病例1是大标签属于肺，中标签属于肺结节，小标签属于实性结节；样本病例2是大标签属于肺，中标签属于肺结节，小标签属于磨玻璃结节；样本病例3是大标签属于脑，中标签属于脑出血，小标签属于原发性脑出血，这样医生在标注时可将样本病例1和样本病例2标注为相似度4，而将样本病例1和样本病例3标注相似度标注为1，因为样本病例1和样本病例2之间非常相似，样本病例1和样本病例3之间病状差距很大。

在本实施例中，在获取到目标病例对应的病例数据库之后，将目标病例和病例数据中的各病例都输入到训练好的孪生网络中，得到目标病例与病例数据库中各病例的相似度，以便于在后续步骤中选择相似度大于预置数值的病例作为目标病例的相似病例。

步骤S04，将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

其中，预置数值具体可以为标注的相似度等级，如预置数值设置为相似度3，则通过孪生网络获取病例数据库中与目标病例相似度大于相似度3的病例作为目标病例的相似病例。

本发明实施例提供一种相似病例检索方法，首先将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；然后获取与大标签、所述中标签和所述小标签均匹配的病例数据库，将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度，最后将病例数据库中与目标病例相似度大于预置数值的病例确定为目标病例的相似病例。即本本发明实施例首先采用病例类别识别模型识别目标病历的病例标签，之后使用了孪生网络对目标病历和目标病历的病例标签对应的病例数据库中的样本病历进行相似度对比，以找到与目标病例相似度最高的病历，进行精准推荐，从而通过本发明可提高相似病例检索的准确度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种相似病例检索装置，该相似病例检索装置与上述实施例中相似病例检索方法一一对应。如图5所示，所述相似病例检索装置各功能模块详细说明如下所示：

识别模块10，用于将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；

获取模块20，用于获取与所述目标病例的病例标签对应的病例数据库，所述病例数据库中存储有与所述病例标签对应的多个病例；

计算模块30，用于计算所述目标病例与所述病例数据库中各病例的相似度；

确定模块40，用于将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

进一步的，所述病例标签包括大标签、中标签和小标签，所述获取模块20，用于获取与所述大标签、所述中标签和所述小标签均匹配的病例数据库。

所述计算模块30，用于将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。

进一步的，所述装置还包括：

所述获取模块20，还用于获取每个所述样本病例对应的大标签、中标签和小标签；

标记模块50，用于对每两个所述样本病例按照所述小标签的维度进行相似度标记；

训练模块60，用于根据每两个所述样本病例的病例向量，及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。

处理模块70，用于对所述样本病例分词、去除停用词；将所述样本病例中的每个词转化为词向量，并根据所有词的词向量组成所述样本病例的病例向量；

所述训练模块60，还用于对所述样本向量和对应的病例标签进行训练得到所述病例类别识别模型。

关于相似病例检索装置的具体限定可以参见上文中对于相似病例检索方法的限定，在此不再赘述。上述设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种相似病例检索方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

计算所述目标病例与所述病例数据库中各病例的相似度；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

计算所述目标病例与所述病例数据库中各病例的相似度；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种相似病例检索方法，其特征在于，所述方法包括：

所述将目标病例输入到Seq2Seq病例类别识别模型得到与所述目标病例的病例标签，包括：

根据目标病例生成病例词向量(x₁，x₂，....，x_t)；t为病例词向量中词的数量；将病例词向量输入Seq2Seq病例类别识别模型，生成病例标签(y₁，y₂，...，y_t’)；

其中，t’为病例标签的数量，与t正相关；y_i＝g(y_i-1,S_i,C_i)，g()是非线性激活函数；C_i＝q(h₁，h₂，....，ht)，为第i阶段的语义向量，(h₁，h₂，....，ht)为根据病例词向量(x₁，x₂，....，x_t)确定的编码层的输出，i的取值与t正相关，q()为隐藏层函数,

a_ij为病例词向量中的x_j和病例标签y_i之间的程度权值；

e_ij＝a(s_i-1，h_j)，j的取值为1...t；a()为关联函数；Si为根据(h₁，h₂，....，ht)确定的隐藏层的输出，S_i＝f(S_i-1,y_i-1,C_i)；

计算所述目标病例与所述病例数据库中各病例的相似度；

2.根据权利要求1所述的相似病例检索方法，其特征在于，所述病例标签包括大标签、中标签和小标签，所述获取与所述目标病例的病例标签对应的病例数据库，包括：

获取与所述大标签、所述中标签和所述小标签均匹配的病例数据库。

3.根据权利要求2所述的相似病例检索方法，其特征在于，所述计算所述目标病例与所述病例数据库中各病例的相似度，包括：

将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。

4.根据权利要求3所述的相似病例检索方法，其特征在于，所述方法还包括：

获取每个所述样本病例对应的大标签、中标签和小标签；

对每两个所述样本病例按照所述小标签的维度进行相似度标记；

根据每两个所述样本病例的病例向量，及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。

5.根据权利要求1-4任一所述的相似病例检索方法，其特征在于，所述方法还包括：

对所述样本病例分词、去除停用词；

将所述样本病例中的每个词转化为词向量，并根据所有词的词向量组成所述样本病例的病例向量；

对所述病例向量和对应的病例标签进行训练得到所述病例类别识别模型。

6.一种相似病例检索装置，其特征在于，所述装置包括：

识别模块，用于将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签，所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的；根据目标病例生成病例词向量(x₁，x₂，....，x_t)；t为病例词向量中词的数量；将病例词向量输入Seq2Seq病例类别识别模型，生成病例标签(y₁，y₂，...，y_t’)；

a_ij为病例词向量中的x_j和病例标签y_i之间的程度权值；

7.根据权利要求6所述的相似病例检索装置，其特征在于，所述病例标签包括大标签、中标签和小标签，所述获取模块，用于获取与所述大标签、所述中标签和所述小标签均匹配的病例数据库。

8.根据权利要求7所述的相似病例检索装置，其特征在于，所述计算模块，用于将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的相似病例检索方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的相似病例检索方法。