CN112800248B - 相似病例检索方法、装置、计算机设备及存储介质 - Google Patents

相似病例检索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112800248B
CN112800248B CN202110067822.1A CN202110067822A CN112800248B CN 112800248 B CN112800248 B CN 112800248B CN 202110067822 A CN202110067822 A CN 202110067822A CN 112800248 B CN112800248 B CN 112800248B
Authority
CN
China
Prior art keywords
case
label
target
database
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110067822.1A
Other languages
English (en)
Other versions
CN112800248A (zh
Inventor
孟祥飞
张振伟
孙华文
孙娜
田晓
冯源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi Tianhe Technology Co ltd
Original Assignee
Tianhe Supercomputing Huaihai Sub Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianhe Supercomputing Huaihai Sub Center filed Critical Tianhe Supercomputing Huaihai Sub Center
Priority to CN202110067822.1A priority Critical patent/CN112800248B/zh
Publication of CN112800248A publication Critical patent/CN112800248A/zh
Application granted granted Critical
Publication of CN112800248B publication Critical patent/CN112800248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种相似病例检索方法、装置、计算机设备及存储介质,涉及数据处理技术领域,用于提高相似病例检索准确度。该方法主要包括:将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;计算所述目标病例与所述病例数据库中各病例的相似度;将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。

Description

相似病例检索方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种相似病例检索方法、装置、计算机设备及存储介质。
背景技术
病例是对疾病的发生、发展、诊断以及治疗情况系统性的记录文件。随着电子病历系统在医院的普及,电子病例逐渐替代了手写病历,使得病例信息的手机和管理变得更加方便和快捷。
目前,对于相似病历的检索,通常采用在一个或多个字段上进行匹配检索来实现的;而在医疗问题中去计算病历相似性,比在非特定领域中,有更大的难度。这是因为医疗的专业术语是非常多的,而普通的词嵌入向量中很难学到医学的信息。这就导致了相似检索结果的不完全和不准确,影响检索效率。
发明内容
本申请实施例提供一种相似病例检索方法、装置、计算机设备及存储介质,用于提高相似病例检索的准确度。
本发明实施例提供一种相似病例检索方法,所述方法包括:
将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;
获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算所述目标病例与所述病例数据库中各病例的相似度;
将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
识别模块,用于将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;
获取模块,用于获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算模块,用于计算所述目标病例与所述病例数据库中各病例的相似度;
确定模块,用于将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述相似病例检索方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述相似病例检索方法。
本发明提供一种相似病例检索方法、装置、计算机设备及存储介质,将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;计算所述目标病例与所述病例数据库中各病例的相似度;将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。与目前在一个或多个字段上进行匹配检索相似病例相比,本发明由于病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的,因此通过该病例类别识别模型可准确的识别出目标病例的病例标签,然后基于该病例标签对应的病例数据库检索目标病例的相似病例,从而通过本发明可提高相似病例检索的准确度。
附图说明
图1为本申请第一实施例提供的相似病例检索方法流程图;
图2为本申请第一实施例提供的seq2seq模型结构图;
图3为本申请第二实施例提供的相似病例检索方法流程图;
图4为本申请第二实施例提供的孪生网络结构图;
图5为本申请一个实施例提供的相似病例检索装置的结构框图;
图6为本申请一个实施例提供的计算机设备的一示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请实施例的技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请实施例技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
第一实施例
请参阅图1,所示为本发明第一实施例当中的相似病例检索方法,该方法应用于主节点,所述方法具体包括步骤S10-步骤S40:
步骤S10,将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签。
其中,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的,该病例标签为对应病例所属的疾病分类。具体的,病例标签具体可以包括大标签、中标签和小标签,大标签是对应病例所属疾病的大分类,中标签是对应病例所属疾病的中分类,小标签是对应病例所属疾病的小分类。
在本实施例中,通过专业的医生对不同样本病历进行标注,标注的内容包括该病历所属疾病的大分类,之后添加该病历在大分类疾病下所属的中分类,中分类后还可以继续添加病历所属的更小的分类级别,病历标注的疾病分类越详细越好,并将病历归类到所属的最小的分类级别,最后根据样本病例和对应的病例标签进行模型训练得到病例类别识别模型,以便于在后续步骤中通过该病例类别识别模型可以识别目标病例所属的疾病分类。
具体的,如图2所示,病例类别识别模型为Seq2Seq模型,包括编码层(encoder)和解码层(decoder),解码层进一步包括隐藏层。
根据本发明,S10进一步包括:
S101,根据目标病例生成病例词向量(x1,x2,....,xt);t为病例词向量中词的数量。
S102,将病例词向量输入Seq2Seq模型,生成病例标签(y1,y2,...,yt’)。其中t’为病例标签的数量,与t正相关。
优选的,yi=g(yi-1,Si,Ci)。
其中,g()是非线性激活函数。
其中,Ci=q(h1,h2,....,ht),为第i阶段的语义向量,其中,(h1,h2,....,ht)为根据病例词向量(x1,x2,....,xt)确定的编码层的输出,i的取值与t正相关。q()可以选择现有技术中合适的隐藏层函数,优选的,
Figure BDA0002904831180000041
aij为病例词向量中的xj和病例标签yi之间的程度权值。
优选的,
Figure BDA0002904831180000042
eij=a(si-1,hj)。j的取值为1...t,a()可以采用现有技术中的关联函数。
其中,Si为根据(h1,h2,....,ht)确定的隐藏层的输出。优选的,Si=f(Si-1,yi-1,Ci)。
通过使用图2所示的病例类别识别模型,经测试,与现有的机器学习算法相比,最终获取的相似度明显提升。
步骤S20,获取与所述目标病例的病例标签对应的病例数据库。
在本实施例中,不同的病例标签对应不同的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例。
步骤S30,计算所述目标病例与所述病例数据库中各病例的相似度。
具体的,计算目标病例与病例数据库中各病例的相似度,然后将相似度大于预置数值的病例确定为目标病例的相似病例。
步骤S40,将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
其中,预置数值具体可以为相似度值最大,或者相似度大于70%或是80%等,本实施例不做具体限定。
本发明实施例提供一种相似病例检索方法,将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;获取与目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;计算目标病例与病例数据库中各病例的相似度;将病例数据库中与目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。与目前在一个或多个字段上进行匹配检索相似病例相比,本发明由于病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的,因此通过该病例类别识别模型可准确的识别出目标病例的病例标签,然后基于该病例标签对应的病例数据库检索目标病例的相似病例,从而通过本发明可提高相似病例检索的准确度。
第二实施例
请参阅图3,所示为本发明第二实施例当中的相似病例检索方法,所述方法具体包括步骤S01-步骤S05:
步骤S01,将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签。
其中,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的,所述病例标签包括大标签、中标签和小标签,本步骤S01与实施例一中步骤S10的内容相同,本实施例在此不再赘述。
在本实施例中,对病例识别模型的训练过程具体为:对所述样本病例分词、去除停用词;将所述样本病例中的每个词转化为词向量,并根据所有词的词向量组成所述样本病例的病例向量;对所述样本向量和对应的病例标签进行训练得到所述病例类别识别模型。其中,样本病例就是病例内容,病例标签就是医生对该病历进行的标签标注,例如样本病例1的大标签属于肺,中标签属于肺结节,小标签属于实性结节,此时的病例标签为“肺-肺结节-实性结节”。
步骤S02,获取与大标签、所述中标签和所述小标签均匹配的病例数据库。
例如,目标病例1的大标签属于肺,中标签属于肺结节,小标签属于实性结节,则获取与病例标签“肺-肺结节-实性结节”匹配的病例数据库。不同的病例标签对应不同的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例。
步骤S03,将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。
在本实施例,首先对两两样本病例进行相似度标注,然后根据样本病例和标注的相似度进行模型训练得到孪生网络。具体的,获取每个所述样本病例对应的大标签、中标签和小标签;对每两个所述样本病例按照所述小标签的维度进行相似度标记;根据每两个所述样本病例的病例向量,及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。在本实施例中,可以将两两样本病例的相似度标注成多个等级,如相似度1,相似度2,相似度3,相似度4,相似度的数值越大代表两个病例越相似。
具体的,对所述样本病例分词、去除停用词;将所述样本病例中的每个词转化为词向量,并根据所有词的词向量组成所述样本病例的病例向量;根据每两个所述样本病例的病例向量,及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。
其中,孪生网络的网络结构如图4所示,孪生网络中使用LSTM来处理目标病例的词向量,所述目标病例的词向量为将目标病例进行分词、去除停用词后形成的词向量。
根据本发明,S03中进一步包括:
获取目标病例与病例数据库中各病例的余弦距离Ew
Figure BDA0002904831180000071
其中,x1为目标病例的词向量,x2为病例数据库中需要获取相似度的病例的词向量。fw()为将词映射为对应的词向量。
损失函数用了Contrastive loss function,是用来评估模型的预测值与真实值不一致的程度,也是神经网络中优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真是值,模型的健壮性也就越好。其表达式如下:
Figure BDA0002904831180000072
Ew和Lw的关系:
Figure BDA0002904831180000073
Figure BDA0002904831180000074
例如,样本病例1是大标签属于肺,中标签属于肺结节,小标签属于实性结节;样本病例2是大标签属于肺,中标签属于肺结节,小标签属于磨玻璃结节;样本病例3是大标签属于脑,中标签属于脑出血,小标签属于原发性脑出血,这样医生在标注时可将样本病例1和样本病例2标注为相似度4,而将样本病例1和样本病例3标注相似度标注为1,因为样本病例1和样本病例2之间非常相似,样本病例1和样本病例3之间病状差距很大。
在本实施例中,在获取到目标病例对应的病例数据库之后,将目标病例和病例数据中的各病例都输入到训练好的孪生网络中,得到目标病例与病例数据库中各病例的相似度,以便于在后续步骤中选择相似度大于预置数值的病例作为目标病例的相似病例。
步骤S04,将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
其中,预置数值具体可以为标注的相似度等级,如预置数值设置为相似度3,则通过孪生网络获取病例数据库中与目标病例相似度大于相似度3的病例作为目标病例的相似病例。
本发明实施例提供一种相似病例检索方法,首先将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;然后获取与大标签、所述中标签和所述小标签均匹配的病例数据库,将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度,最后将病例数据库中与目标病例相似度大于预置数值的病例确定为目标病例的相似病例。即本本发明实施例首先采用病例类别识别模型识别目标病历的病例标签,之后使用了孪生网络对目标病历和目标病历的病例标签对应的病例数据库中的样本病历进行相似度对比,以找到与目标病例相似度最高的病历,进行精准推荐,从而通过本发明可提高相似病例检索的准确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种相似病例检索装置,该相似病例检索装置与上述实施例中相似病例检索方法一一对应。如图5所示,所述相似病例检索装置各功能模块详细说明如下所示:
识别模块10,用于将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;
获取模块20,用于获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算模块30,用于计算所述目标病例与所述病例数据库中各病例的相似度;
确定模块40,用于将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
进一步的,所述病例标签包括大标签、中标签和小标签,所述获取模块20,用于获取与所述大标签、所述中标签和所述小标签均匹配的病例数据库。
所述计算模块30,用于将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。
进一步的,所述装置还包括:
所述获取模块20,还用于获取每个所述样本病例对应的大标签、中标签和小标签;
标记模块50,用于对每两个所述样本病例按照所述小标签的维度进行相似度标记;
训练模块60,用于根据每两个所述样本病例的病例向量,及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。
处理模块70,用于对所述样本病例分词、去除停用词;将所述样本病例中的每个词转化为词向量,并根据所有词的词向量组成所述样本病例的病例向量;
所述训练模块60,还用于对所述样本向量和对应的病例标签进行训练得到所述病例类别识别模型。
关于相似病例检索装置的具体限定可以参见上文中对于相似病例检索方法的限定,在此不再赘述。上述设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种相似病例检索方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;
获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算所述目标病例与所述病例数据库中各病例的相似度;
将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;
获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算所述目标病例与所述病例数据库中各病例的相似度;
将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种相似病例检索方法,其特征在于,所述方法包括:
将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;
所述将目标病例输入到Seq2Seq病例类别识别模型得到与所述目标病例的病例标签,包括:
根据目标病例生成病例词向量(x1,x2,....,xt);t为病例词向量中词的数量;将病例词向量输入Seq2Seq病例类别识别模型,生成病例标签(y1,y2,...,yt’);
其中,t’为病例标签的数量,与t正相关;yi=g(yi-1,Si,Ci),g()是非线性激活函数;Ci=q(h1,h2,....,ht),为第i阶段的语义向量,(h1,h2,....,ht)为根据病例词向量(x1,x2,....,xt)确定的编码层的输出,i的取值与t正相关,q()为隐藏层函数,
Figure FDA0003688897810000011
aij为病例词向量中的xj和病例标签yi之间的程度权值;
Figure FDA0003688897810000012
eij=a(si-1,hj),j的取值为1...t;a()为关联函数;Si为根据(h1,h2,....,ht)确定的隐藏层的输出,Si=f(Si-1,yi-1,Ci);
获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算所述目标病例与所述病例数据库中各病例的相似度;
将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
2.根据权利要求1所述的相似病例检索方法,其特征在于,所述病例标签包括大标签、中标签和小标签,所述获取与所述目标病例的病例标签对应的病例数据库,包括:
获取与所述大标签、所述中标签和所述小标签均匹配的病例数据库。
3.根据权利要求2所述的相似病例检索方法,其特征在于,所述计算所述目标病例与所述病例数据库中各病例的相似度,包括:
将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。
4.根据权利要求3所述的相似病例检索方法,其特征在于,所述方法还包括:
获取每个所述样本病例对应的大标签、中标签和小标签;
对每两个所述样本病例按照所述小标签的维度进行相似度标记;
根据每两个所述样本病例的病例向量,及每两个所述样本病例之间的相似度标记进行训练得到所述孪生网络。
5.根据权利要求1-4任一所述的相似病例检索方法,其特征在于,所述方法还包括:
对所述样本病例分词、去除停用词;
将所述样本病例中的每个词转化为词向量,并根据所有词的词向量组成所述样本病例的病例向量;
对所述病例向量和对应的病例标签进行训练得到所述病例类别识别模型。
6.一种相似病例检索装置,其特征在于,所述装置包括:
识别模块,用于将目标病例输入到病例类别识别模型得到与所述目标病例的病例标签,所述病例类别识别模型是根据样本病例及样本病例对应的病例标签训练得到的;根据目标病例生成病例词向量(x1,x2,....,xt);t为病例词向量中词的数量;将病例词向量输入Seq2Seq病例类别识别模型,生成病例标签(y1,y2,...,yt’);
其中,t’为病例标签的数量,与t正相关;yi=g(yi-1,Si,Ci),g()是非线性激活函数;Ci=q(h1,h2,....,ht),为第i阶段的语义向量,(h1,h2,....,ht)为根据病例词向量(x1,x2,....,xt)确定的编码层的输出,i的取值与t正相关,q()为隐藏层函数,
Figure FDA0003688897810000031
aij为病例词向量中的xj和病例标签yi之间的程度权值;
Figure FDA0003688897810000032
eij=a(si-1,hj),j的取值为1...t;a()为关联函数;Si为根据(h1,h2,....,ht)确定的隐藏层的输出,Si=f(Si-1,yi-1,Ci);
获取模块,用于获取与所述目标病例的病例标签对应的病例数据库,所述病例数据库中存储有与所述病例标签对应的多个病例;
计算模块,用于计算所述目标病例与所述病例数据库中各病例的相似度;
确定模块,用于将所述病例数据库中与所述目标病例相似度大于预置数值的病例确定为所述目标病例的相似病例。
7.根据权利要求6所述的相似病例检索装置,其特征在于,所述病例标签包括大标签、中标签和小标签,所述获取模块,用于获取与所述大标签、所述中标签和所述小标签均匹配的病例数据库。
8.根据权利要求7所述的相似病例检索装置,其特征在于,所述计算模块,用于将所述目标病例与所述病例数据库中各病例输入到孪生网络得到所述病例数据库中各病例与所述目标病例的相似度。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的相似病例检索方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的相似病例检索方法。
CN202110067822.1A 2021-01-19 2021-01-19 相似病例检索方法、装置、计算机设备及存储介质 Active CN112800248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110067822.1A CN112800248B (zh) 2021-01-19 2021-01-19 相似病例检索方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110067822.1A CN112800248B (zh) 2021-01-19 2021-01-19 相似病例检索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112800248A CN112800248A (zh) 2021-05-14
CN112800248B true CN112800248B (zh) 2022-08-05

Family

ID=75810379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110067822.1A Active CN112800248B (zh) 2021-01-19 2021-01-19 相似病例检索方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112800248B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094497B (zh) * 2021-06-07 2021-09-14 华中科技大学 一种电子健康记录推荐方法及共享边缘计算平台
CN113488161A (zh) * 2021-07-05 2021-10-08 中国人民解放军总医院第一医学中心 颞下颌关节紊乱病治疗方案推荐设备、装置和存储介质
CN113488189B (zh) * 2021-08-03 2024-07-02 罗慕科技(北京)有限公司 相似病例检索装置、方法及计算机可读存储介质
CN116662556B (zh) * 2023-08-02 2023-10-20 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580285A (zh) * 2018-06-08 2019-12-17 北京三快在线科技有限公司 一种产品标签确定方法及装置,电子设备
CN110717017A (zh) * 2019-10-17 2020-01-21 腾讯科技(深圳)有限公司 一种处理语料的方法
CN111462896A (zh) * 2020-03-31 2020-07-28 重庆大学 一种基于病案的实时智能辅助icd编码系统和方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6671322B2 (ja) * 2017-07-19 2020-03-25 富士フイルム株式会社 医療情報提供装置および医療情報提供装置の作動方法並びに医療情報提供プログラム
CN107657062A (zh) * 2017-10-25 2018-02-02 医渡云(北京)技术有限公司 相似病例检索方法及装置、存储介质、电子设备
CN110019722B (zh) * 2017-12-21 2023-11-24 株式会社理光 对话模型的回复排序方法、装置及计算机可读存储介质
CN108198620B (zh) * 2018-01-12 2022-03-22 洛阳飞来石软件开发有限公司 一种基于深度学习的皮肤疾病智能辅助诊断系统
CN110019813B (zh) * 2018-05-30 2023-07-25 中国平安人寿保险股份有限公司 寿险案例检索方法、检索装置、服务器及可读存储介质
US11257481B2 (en) * 2018-10-24 2022-02-22 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
CN110364234B (zh) * 2019-06-26 2022-02-18 浙江大学 电子病历智能存储分析检索系统及方法
CN110502622A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 常见医疗问答数据生成方法、装置以及计算机设备
CN110569356B (zh) * 2019-08-14 2022-05-20 中国平安人寿保险股份有限公司 基于智能面试交互系统的面试方法、装置和计算机设备
CN111297349A (zh) * 2020-02-12 2020-06-19 北京蓝卫通科技有限公司 一种基于机器学习的心律分类系统
CN111627512A (zh) * 2020-05-29 2020-09-04 北京大恒普信医疗技术有限公司 一种相似病历的推荐方法、装置,电子设备及存储介质
CN111737954B (zh) * 2020-06-12 2023-07-28 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111785385A (zh) * 2020-06-29 2020-10-16 微医云(杭州)控股有限公司 疾病分类方法、装置、设备和存储介质
CN111859986B (zh) * 2020-07-27 2023-06-20 中国平安人寿保险股份有限公司 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN111859960B (zh) * 2020-07-27 2023-08-01 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580285A (zh) * 2018-06-08 2019-12-17 北京三快在线科技有限公司 一种产品标签确定方法及装置,电子设备
CN110717017A (zh) * 2019-10-17 2020-01-21 腾讯科技(深圳)有限公司 一种处理语料的方法
CN111462896A (zh) * 2020-03-31 2020-07-28 重庆大学 一种基于病案的实时智能辅助icd编码系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
9.3.5 seq2seq;张朝阳;《深入浅出 工业机器学习算法详解与实战》;20200131;全文 *
基于BERT-LSTMCNN的立场分析;胡瑞雪;《信息技术》;20200220;全文 *
第六节 临床医疗大数据挖掘应用;陈华江等;《数字脊柱外科学》;20180131;全文 *

Also Published As

Publication number Publication date
CN112800248A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800248B (zh) 相似病例检索方法、装置、计算机设备及存储介质
CN110414462B (zh) 一种无监督的跨域行人重识别方法及系统
WO2021121129A1 (zh) 雷同病例检测方法、装置、设备及存储介质
CN111832294B (zh) 标注数据的选择方法、装置、计算机设备和存储介质
CN110852107B (zh) 一种关系提取方法、装置、及存储介质
CN112035620B (zh) 医疗查询系统的问答管理方法、装置、设备及存储介质
CN114398983A (zh) 分类预测方法、装置、设备、存储介质及计算机程序产品
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111127364A (zh) 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN110808095B (zh) 诊断结果识别、模型训练的方法、计算机设备及存储介质
CN112016311A (zh) 基于深度学习模型的实体识别方法、装置、设备及介质
CN111222336A (zh) 一种识别未知实体的方法及装置
CN114548192A (zh) 样本数据处理方法、装置、电子设备及介质
CN115713970A (zh) 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN110852076A (zh) 一种自动化疾病编码转换的方法及装置
CN117851605B (zh) 一种行业知识图谱构建方法、计算机设备及存储介质
CN117115565B (zh) 一种基于自主感知的图像分类方法、装置及智能终端
CN112445976B (zh) 一种基于拥堵指数图谱的城市地址定位方法
CN113688243B (zh) 语句中实体的标注方法、装置、设备以及存储介质
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN112579774B (zh) 模型训练方法、模型训练装置及终端设备
CN114706927A (zh) 基于人工智能的数据批量标注方法及相关设备
CN111143625B (zh) 一种基于半监督多模态哈希编码的跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240110

Address after: Expert Apartment West, No. 5, Applied Science City, Liuqing Street, Lanshan District, Linyi City, Shandong Province, 276000

Patentee after: Linyi Tianhe Technology Co.,Ltd.

Address before: 276000 3rd floor, the landlord's side corner room of Linyi north railway station, Lanshan District, Linyi City, Shandong Province

Patentee before: Tianhe supercomputing Huaihai sub center