CN108877880B - 基于病历文本的病人相似性度量装置及方法 - Google Patents

基于病历文本的病人相似性度量装置及方法 Download PDF

Info

Publication number
CN108877880B
CN108877880B CN201810697392.XA CN201810697392A CN108877880B CN 108877880 B CN108877880 B CN 108877880B CN 201810697392 A CN201810697392 A CN 201810697392A CN 108877880 B CN108877880 B CN 108877880B
Authority
CN
China
Prior art keywords
medical record
vector
record vector
representing
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810697392.XA
Other languages
English (en)
Other versions
CN108877880A (zh
Inventor
张学工
陈文昌
闾海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810697392.XA priority Critical patent/CN108877880B/zh
Publication of CN108877880A publication Critical patent/CN108877880A/zh
Application granted granted Critical
Publication of CN108877880B publication Critical patent/CN108877880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于病历文本的病人相似性度量装置及方法,包括病历向量样本库存储部,存储第一病历向量;标签标注部;预处理部,将第一病历向量转化为第一连续数值型病历向量;连续病历向量存储部,存储第一连续数值型病历向量;距离度量矩阵获得部,学习第一连续数值型病历向量,获得距离度量矩阵;病历向量提取部,提取第二病历向量;连续病历向量获得部,获得第二连续数值型病历向量;比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;输出部,选取与第二病历文本的相似的一个或多个第一病历文本并输出。本发明可以得到不同评价指标下病人的相似性。

Description

基于病历文本的病人相似性度量装置及方法
技术领域
本发明涉及医疗领域,具体地,涉及一种基于病历文本的病人相似性度量装置及方法。
背景技术
电子病历的应用已经十分广泛,如何利用电子病历进行研究已经得到人们的重视。病历文本通常会先经过格式化,使每一份病历成为一个数值向量,这样病人之间的相似与不相似就转化为向量距离的问题。对于病人的相似性度量问题,现有技术中,通过手动设置相似性度量的方式来代替欧几里得距离,对病人数据中不同的属性进行单独的处理,如根据属性的特点设计不同的距离函数,最后将这些不同种类的属性的相似性度量计算方法结合起来,得到最终的病人相似性度量。这种通过手动设置的方法确实能够解决原本欧几里得距离或者其他简单距离函数的各种不适用的问题,但一方面这样的方法仅仅适用于病人数据属性较少的情况,如果相关的属性多、性质又复杂时,手动设置的方法工作量太大,最终综合而成的相似性度量的合理性也可能会存在问题。另一方面,手动设置的方法是完全依赖于数据的,病人数据的属性发生变化,就要进行修改,不适用于实际应用场景。现有对相似性度量的自动学习中,是在特定标签下的监督学习,对标签的依赖性太强,难以做到多个评价标准下的相似性度量学习。
发明内容
鉴于以上问题,本发明的目的是提供一种基于病历文本的病人相似性度量装置及方法,以解决现有技术中手动设置相似性度量使得工作量大且适用范围窄,自动学习中对标签的依赖性强的问题。
为了实现上述目的,本发明采用以下技术方案:
本发明的一个方面是提供一种基于病历文本的病人相似性度量装置,包括:病历向量样本库存储部,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量;标签标注部,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签;预处理部,对第一病历向量进行预处理,根据所述第一标签将第一病历向量转化为第一连续数值型病历向量;连续病历向量存储部,存储所述第一连续数值型病历向量;距离度量矩阵获得部,学习所述连续病历向量存储部中的第一连续数值型病历向量,获得距离度量矩阵;病历向量提取部,提取第二病历文本经过结构化处理形成的第二病历向量;连续病历向量获得部,通过预处理部对所述第二病历向量进行预处理,获得第二连续数值型病历向量;比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;输出部,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。
优选地,所述装置还包括:判断部,判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则继续学习第一连续数值型病历向量,若符合设定条件,则存储距离度量矩阵,其中,所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类,分类准确率相比于未应用所述距离度量矩阵时提升超过5%,或调整兰德系数(ARI,Adjusted Rand Index)提高超过0.2。
优选地,所述距离度量矩阵获得部包括:约束构建模块,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似}(6)
D={(xr,xs):xr和xs不相似}(7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt}(8)
其中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;
约束选择模块,选择二元组约束或三元组约束作为约束标准;
矩阵获取模块,获取满足所述约束标准和下式(9)的距离度量矩阵,
Figure BDA0001713920910000031
其中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项。
优选地,所述比较部包括:距离获得模块,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,
Figure BDA0001713920910000032
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,D表示第一病历向量和第二病历向量中向量元素的总数,distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示非零向量L中的第i行,第cq列元素;
排序模块,对获得的距离进行大小排序。
本发明的另一个方面是提供一种基于病历文本的病人相似性度量方法,包括以下步骤:步骤S1,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量;步骤S2,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签;步骤S3,对第一病历向量进行预处理,根据所述第一标签将第一病历向量转化为第一连续数值型病历向量;步骤S4,存储所述第一连续数值型病历向量;步骤S5,学习所述连续病历向量存储部中的第一连续数值型病历向量,获得距离度量矩阵;步骤S6,提取第二病历文本经过结构化处理形成的第二病历向量;步骤S7,对所述第二病历向量进行预处理,并获得第二连续数值型病历向量;步骤S8,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;步骤S9,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。
优选地,所述步骤S5和所述步骤S6之间还包括判断步骤,判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则进行所述步骤S5,若符合设定条件,则存储距离度量矩阵,并进行步骤S6,其中,所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类,分类准确率相比于未应用所述距离度量矩阵时提升超过5%,或调整兰德系数提高超过0.2。
优选地,所述步骤S3包括:
步骤S31,根据第一标签对病历向量样本库中的第一病历向量进行分类;
步骤S32,根据下式(2)将第一病历向量转化为第一连续数值型病历向量,
φ(x)=[P1(x1=v1);P2(x2=v2);...;Pd(xd=vd)](2)
其中,
Figure BDA0001713920910000041
x表示第一病历向量,i表示向量元素的索引,xi表示第一病历向量中的第i个向量元素,vi表示第i个向量元素xi的取值,Pi表示第i个向量元素xi取值vi的概率向量,c表示类别总数,y表示类别,d表示第一病历向量中向量元素的总数,φ(x)表示第一连续数值型病历向量。
优选地,通过下式(4)或(5)计算概率向量的向量元素,
Figure BDA0001713920910000042
Figure BDA0001713920910000043
其中,Ni,c表示类别为c类的第一病历向量的xi取值为vi的数量,Ni表示病历向量样本库中的第一病历向量的xi取值为vi的总数量,Nc表示类别为c的第一病历向量的样本数量,j表示第一病历向量的索引,n表示第一病历向量的总样本数量,vi,j表示第j个第一病历向量的第i个向量元素的取值,hi是一个参数。
优选地,所述步骤S5包括:
步骤S51,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似}(6)
D={(xr,xs):xr和xs不相似}(7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt}(8)
其中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;
步骤S52,选择二元组约束或三元组约束作为约束标准;
步骤S53,获取满足所述约束标准和下式(9)的距离度量矩阵,
Figure BDA0001713920910000051
其中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项,是正则参数。
优选地,所述步骤S8包括:
步骤S81,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,
Figure BDA0001713920910000052
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,D表示第一病历向量和第二病历向量中向量元素的总数,distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示非零向量L中的第i行,第cq列元素;
步骤S82,对获得的距离进行大小排序。
与现有技术相比,本发明具有以下优点和有益效果:
本发明基于病历文本对其结构化结果形成的病历向量进行处理和度量学习,从而对病人进行相似性度量,避免了获得结构化病人信息的高成本。本发明可以通过在不同的评价指标下标注标签信息,并基于少量的标签信息进行度量学习,得到在不同评价指标下病人之间的相似度,对于不同病历文本数据集以及多个不同的病人相似性评价指标有更好的适用性。
附图说明
图1是本发明所述基于病历文本的病人相似性度量装置构成框图的示意图;
图2是本发明所述基于病历文本的病人相似性度量方法流程示意图。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
下面结合图1-图2来详细说明本实施例。
图1是本发明所述基于病历文本的病人相似性度量装置构成框图的示意图,如图1所示,本发明所述基于病历文本的病人相似性度量装置,包括:
病历向量样本库存储部1,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量,第一病历向量的向量元素是表征病人不同症状的各个属性指标,病历样本库中包含多个第一病历文本,选择病历样本库中已有的第一病历文本结构化后的第一病历向量作为训练样本进行后续的度量学习。
标签标注部2,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签,其中,评价指标即是对病人进行相似与否评价的标准,不同的医生会基于不同的评价指标对病人进行相似性评价,因此,针对同一个病历文本会有多个评价指标,例如,血常规和体表特征等都可以作为评价指标;对同一病历文本对应的第一病历向量进行评价时,针对不同的评价指标标注不同的标签,其中,第一标签是一些比较容易获取的标签,例如是否有癌症、属于哪个科室等,第二标签是表征两个病人之间是否相似的标签,包括“相似”标签和“不相似”标签,对于同一病历向量,由于具有多个不同的评价指标,针对不同的评价指标,可能会标注多个第二标签,且标注的第二标签可能相同或不同,例如,将病人血常规的情况作为评价指标时,两个血常规正常与否的结果相同的第一病历向量之间标注“相似”标签,两个血常规正常与否的结果不同的第一病历向量之间标注“不相似”标签,将病人体表特征作为评价指标时,两个体表特征正常与否的结果相同的第一病历向量之间标注“相似”标签,两个体表特征正常与否的结果不同的第一病历向量之间标注“不相似”标签,从而使得同一病历文本相对应的第一病历向量标注了多个第二标签信息。
预处理部3,对第一病历向量进行预处理,根据第一标签将第一病历向量转化为第一连续数值型病历向量,以便于对第一病历向量进行度量学习,得到距离度量矩阵。
本发明的一个实施例中,所述预处理部3包括:
分类模块31,根据第一标签对病历向量样本库中的第一病历向量进行分类,类别有c种,此分类是一种粗略的分类,是对病历文本相似性与否进行评价的辅助监督信息;
转化模块32,将公式(1)表示的第一病历向量转化为公式(2)表示的第一连续数值型病历向量,
x=[x1;x2;...;xd](1)
φ(x)=[P1(x1=v1);P2(x2=v2);...;Pd(xd=vd)](2)
其中,
Figure BDA0001713920910000083
式(1-3)中,x表示第一病历向量,i表示向量元素的索引,xi表示第一病历向量中的第i个向量元素,vi表示第i个向量元素xi的取值,Pi表示第i个向量元素xi取值vi的概率向量,c表示类别数,y表示第一病历向量的标签类别,d表示第一病历向量中向量元素的总数,φ(x)表示第一连续数值型病历向量。
因此,将d×1的向量x就转化为了d×c的矩阵。
本发明的一个实施例中,式(3)中概率向量的向量元素可以通过下式(4)或(5)获得,其中,公式(4)适用于分类数据类型,公式(5)适用于定距变量和定比变量的数据类型。
Figure BDA0001713920910000081
式中,Ni,c表示类别为c类的第一病历向量的xi取值为vi的数量,Ni表示病历向量样本库中的第一病历向量的xi取值为vi的总数量。
Figure BDA0001713920910000082
式中,Nc表示类别为c类的第一病历向量的样本数量,j表示第一病历向量的索引,n表示第一病历向量的总样本数量,vi,j表示第j个第一病历向量的第i个向量元素的取值,hi是一个参数,取经验值hi=1.06σn-1/5,其中,σ表示所有第一病历向量第i个向量元素的方差。
连续病历向量存储部4,存储预处理部3得到的第一连续数值型病历向量。
距离度量矩阵获得部5,学习连续病历向量存储部4中的第一连续数值型病历向量,获得距离度量矩阵,以便后续对病历文本进行相似性度量。
本发明的一个实施例中,所述距离度量矩阵获得部5包括:
约束构建模块51,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似}(6)
D={(xr,xs):xr和xs不相似}(7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt}(8)
式中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;其中,两个第一病历向量是否相似表征的是两个病人是否相似;
约束选择模块52,选择二元组约束或三元组约束作为约束标准,其中,二元组约束和三元组约束的选择取决于选取的约束使得第二标签的标签信息更容易获取;
矩阵获取模块53,获取满足上述约束标准和下式(9)的距离度量矩阵,使得损失函数的数值最小,利用此距离度量矩阵进行后续的相似性度量,
Figure BDA0001713920910000091
式中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项,是正则参数。
本发明的一个实施例中,所述相似性度量装置还包括:判断部6,判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则继续学习第一连续数值型病历向量,若符合设定条件,则存储距离度量矩阵,其中,将获得的距离度量矩阵应用到病历样本库中对第一病历文本结构化形成的第一病历向量进行分类或聚类,与未应用所述距离度量矩阵的分类或聚类结果比较,当分类准确率提升超过5%,或作为聚类评价指标的ARI提高超过0.2,则认为是所获得的距离度量矩阵符合设定条件。对相似性度量的评价指标隐含在得到的距离度量矩阵中,从而可根据距离度量矩阵得到不同的评价指标下的病人之间的相似性。
本发明的一个实施例中,所述判断部6包括:
权重值获得模块61,根据下式(16)计算获得的距离度量矩阵A中每一维特征的权重值,以确定某一维特征上的数值的变化对表征相似性的距离的影响大小。
获得的距离度量矩阵A必须是半正定矩阵,以便于后续进行相似性度量的求解,将距离度量矩阵A作如下式(10)的分解,
A=LTL(10)
则:d2 A(x,x')=(x-x')TA(x-x')=(x-x')TLTL(x-x')(11)
其中,L={lIJ}(12)
x-x'=[b1,b2,…,bd]T(13)
式(10-13)中,x、x’分别表示两个第一病历向量,d2 A(x,x')表示利用距离度量矩阵A求得的向量x、x’之间的距离平方,L表示任意的非零向量,LT表示向量L的转置,lIJ表示向量L中第I行第J列的向量元素,b1,b2,…,bd分别表示第一病历向量x、x’在各个维度上的差值。
假设除了第k维特征,其他维特征对表征相似性的距离的影响都为0,即
Δxk=1,Δxm=0,m=1,2,...,k-1,k+1,...,d(14)
Figure BDA0001713920910000101
Figure BDA0001713920910000102
式(14-16)中,Δxm表示在xm上的变化量,d2 A(x,x')表示利用距离度量矩阵A求得的向量x、x’之间的距离平方,Δd2 A(x,x')表示d2 A(x,x')的变化量,bJ表示第一病历向量x、x’的第J列向量元素的差值。
从而,确定距离度量矩阵A中每一维特征的变化对表征相似性的距离的影响大小。
特征选取模块62,选取权重值大于第二设定阈值的特征,即,选取对表征相似性的距离的影响较大的一个或多个特征。
进一步地,所述判断部6还包括判断模块63,判断选取的特征是否合理,若不合理,则继续学习第一连续数值型病历向量,若合理,则存储获得的距离度量矩阵。通过调取医学知识库,由多个医学专家根据医学知识对选取的特征进行判断,如果超过50%的医学专家认为选取的特征能够体现表征病人相似性的评价指标,则认为选取的特征合理。多个医学专家可以分别对选取的特征进行打分,根据打分值的高低判断其与评价指标的相关程度。作为距离度量学习结果的评估,确定合理的距离度量矩阵进行病历文本之间相似性度量的一个基础。
病历向量提取部7,提取第二病历文本经过结构化处理形成的第二病历向量,其中,第二病历文本是任意给定的一个新病人的病历文本,将新病人的病历文本进行结构化处理形成第二病历向量。
连续病历向量获得部8,通过预处理部对第二病历向量进行预处理,获得第二连续数值型病历向量,其中,预处理部对第二病历向量的预处理方法与对病历向量样本库中的第一病历向量的预处理方法相同。
比较部9,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度,从而用相似度表示与第二连续数值型病历向量相对应的新给定的病人和与第一连续数值型病历向量相对应的样本库中的病人之间的相似程度。
本发明的一个实施例中,所述比较部9包括:
距离获得模块91,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,用两个向量之间的距离表征相似度,距离越小,越相似。
Figure BDA0001713920910000121
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,φ(x)、φ(z)分别表示第一连续数值型病历向量和第二连续数值型病历向量,D表示第一病历向量和第二病历向量中向量元素的总数(二者相等),distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示公式(12)中L向量中的第i行,第cq列元素;
排序模块92,对获得的距离进行大小排序。
输出部10,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。根据比较部对距离进行的排序,从中提取与第二连续数值型病历向量之间距离较小的一个或多个第一连续数值型病历向量,并输出与此第一连续数值型病历向量相对应的第一病历文本,从而在已有的病历样本库中找到与新给定的病人病历相似的一个或多个病历。
图2是本发明所述基于病历文本的病人相似性度量方法流程示意图,如图2所示,所述基于病历文本的病人相似性度量方法,包括以下步骤:
步骤S1,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量,病历样本库中包含多个第一病历文本,选择病历样本库中已有的第一病历文本结构化后的第一病历向量作为训练样本进行后续的度量学习,选择的训练样本的数量根据实际情况而定。
步骤S2,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签,其中,评价指标即是对病人进行相似与否评价的标准,不同的医生会基于不同的评价指标对病人进行相似性评价,因此,针对同一个病历文本会有多个评价指标,例如,血常规和体表特征等都可以作为评价指标;对同一病历文本对应的第一病历向量进行评价时,针对不同的评价指标标注不同的标签,其中,第一标签是一些比较容易获取的标签,例如是否有癌症、属于哪个科室等,第二标签是表征两个病人之间是否相似的标签,包括“相似”标签和“不相似”标签,对于同一病历向量,由于具有多个不同的评价指标,针对不同的评价指标,可能会标注多个第二标签,且标注的第二标签可能相同或不同,例如,将病人血常规的情况作为评价指标时,两个血常规正常与否的结果相同的第一病历向量之间标注“相似”标签,两个血常规正常与否的结果不同的第一病历向量之间标注“不相似”标签,将病人体表特征作为评价指标时,两个体表特征正常与否的结果相同的第一病历向量之间标注“相似”标签,两个体表特征正常与否的结果不同的第一病历向量之间标注“不相似”标签,从而使得同一病历文本相对应的第一病历向量标注了多个第二标签信息。
步骤S3,对第一病历向量进行预处理,根据所述第一标签将第一病历向量转化为第一连续数值型病历向量,以便于对第一病历向量进行度量学习,得到距离度量矩阵。
本发明的一个实施例中,所述步骤S3包括:
步骤S31,根据第一标签对第一病历向量进行分类,类别有c种,此分类是一种粗略的分类,是对病历文本相似性与否进行评价的辅助监督信息;
步骤S32,将公式(1)表示的第一病历向量转化为公式(2)表示的第一连续数值型病历向量,
x=[x1;x2;...;xd](1)
φ(x)=[P1(x1=v1);P2(x2=v2);...;Pd(xd=vd)](2)
其中,
Figure BDA0001713920910000131
式(1-3)中,x表示第一病历向量,i表示向量元素的索引,xi表示第一病历向量中的第i个向量元素,vi表示第i个向量元素xi的取值,Pi表示第i个向量元素xi取值vi的概率向量,c表示类别数,y表示第一病历向量的标签类别,d表示第一病历向量中向量元素的总数,φ(x)表示第一连续数值型病历向量。
因此,将d×1的向量x就转化为了d×c的矩阵。
本发明的一个实施例中,式(3)中概率向量的向量元素可以通过下式(4)或(5)获得,其中,公式(4)适用于分类数据类型,公式(5)适用于定距变量和定比变量的数据类型。
Figure BDA0001713920910000141
式中,Ni,c表示类别为c类的第一病历向量的xi取值为vi的数量,Ni表示病历向量样本库中的第一病历向量的xi取值为vi的总数量。
Figure BDA0001713920910000142
式中,Nc表示类别为c类的第一病历向量的样本数量,j表示第一病历向量的索引,n表示第一病历向量的总样本数量,vi,j表示第j个第一病历向量的第i个向量元素的取值,hi是一个参数,取经验值hi=1.06σn-1/5,其中,σ表示所有第一病历向量第i个向量元素的方差。
步骤S4,存储第一连续数值型病历向量,将步骤S3预处理得到的第一连续数值型病历向量存储在一个数据库中。
步骤S5,学习数据库中存储的第一连续数值型病历向量,获得距离度量矩阵,以便后续对病历文本进行相似性度量。
本发明的一个实施例中,所述步骤S5包括:
步骤S51,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似}(6)
D={(xr,xs):xr和xs不相似}(7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt}(8)
式中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;
步骤S52,选择二元组约束或三元组约束作为约束标准;
步骤S53,获取满足所述约束标准和下式(9)的距离度量矩阵,使得损失函数的数值最小,利用此距离度量矩阵进行后续的相似性度量,
Figure BDA0001713920910000151
式中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项,是正则参数。
步骤S6,提取第二病历文本经过结构化处理形成的第二病历向量,其中,第二病历文本是任意给定的一个新病人的病历文本,将新病人的病历文本进行结构化处理形成第二病历向量。
本发明的一个实施例中,在步骤S5和步骤S6之间还包括判断步骤:判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则进行上述步骤S5,若符合设定条件,则存储距离度量矩阵,并进行步骤S6。其中,将获得的距离度量矩阵应用到病历样本库中对第一病历文本结构化形成的第一病历向量进行分类或聚类,与未应用所述距离度量矩阵的分类或聚类结果比较,当分类准确率提升超过5%,或作为聚类评价指标的ARI提高超过0.2,则认为是所获得的距离度量矩阵符合设定条件。
本发明的一个实施例中,所述判断步骤包括:
根据下式(16)计算获得的距离度量矩阵A中每一维特征的权重值,以确定某一维特征上的数值的变化,对表征相似性的距离的影响大小。
获得的距离度量矩阵A必须是半正定矩阵,以便于后续进行相似性度量的求解,将距离度量矩阵A作如下式(10)的分解,
A=LTL(10)
则:d2 A(x,x')=(x-x')TA(x-x')=(x-x')TLTL(x-x')(11)
其中,L={lIJ}(12)
x-x'=[b1,b2,…,bd]T(13)
式(10-13)中,x、x’分别表示两个第一病历向量,d2 A(x,x')表示利用距离度量矩阵A求得的向量x、x’之间的距离平方,L表示任意的非零向量,LT表示向量L的转置,lIJ表示向量L中第I行第J列的向量元素,b1,b2,…,bd分别表示第一病历向量x、x’在各个维度上的差值。
假设除了第k维特征,其他维特征对表征相似性的距离的影响都为0,即
Δxk=1,Δxm=0,m=1,2,...,k-1,k+1,...,d(14)
Figure BDA0001713920910000161
Figure BDA0001713920910000162
式(14-16)中,Δxm表示在xm上的变化量,d2 A(x,x')表示利用距离度量矩阵A求得的向量x、x’之间的距离平方,Δd2 A(x,x')表示d2 A(x,x')的变化量,bJ表示第一病历向量x、x’的第J列向量元素的差值。
从而,确定距离度量矩阵A中每一维特征的变化对表征相似性的距离的影响大小。
选取权重值大于第二设定阈值的特征,即,选取对表征相似性的距离的影响较大的一个或多个特征。
进一步地,所述判断步骤还包括:判断选取的特征是否合理,若不合理,则继续学习第一连续数值型病历向量,若合理,则存储获得的距离度量矩阵。通过调取医学知识库,由多个医学专家根据医学知识对选取的特征进行判断,如果超过50%的医学专家认为选取的特征能够体现表征病人相似性的评价指标,则认为选取的特征合理。多个医学专家可以分别对选取的特征进行打分,根据打分值的高低判断其与评价指标的相关程度。作为距离度量学习结果的评估,确定合理的距离度量矩阵进行病历文本之间相似性度量的一个基础。
步骤S7,使用与步骤S3中相同的预处理方式对第二病历向量进行预处理,并获得与之相对应的第二连续数值型病历向量。
步骤S8,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度,从而用相似度表示与第二连续数值型病历向量相对应的新给定的病人和与第一连续数值型病历向量相对应的样本库中的病人之间的相似程度。
本发明的一个实施例中,所述步骤S8包括:
步骤S81,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,用两个向量之间的距离表征相似度,距离越小,越相似;
Figure BDA0001713920910000171
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,φ(x)、φ(z)分别表示第一连续数值型病历向量和第二连续数值型病历向量,D表示第一病历向量和第二病历向量中向量元素的总数(二者相等),distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示公式(12)中L向量中的第i行,第cq列元素;
步骤S82,对获得的距离进行大小排序。
步骤S9,输出结果,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。根据比较部对距离进行的排序,从中提取与第二连续数值型病历向量之间距离较小的一个或多个第一连续数值型病历向量,并输出与此第一连续数值型病历向量相对应的第一病历文本,从而在已有的病历样本库中找到与新给定的病人病历相似的一个或多个病历。
综上所述,本发明所述基于病历文本的病人相似性度量装置及方法,通过学习病历向量的距离度量,并根据需求选择不同的约束标准,得到满足约束标准和使得损失函数最小的距离度量矩阵,然后基于此约束标准下的距离度量矩阵,得到新给定病人的第二病历文本与样本库中已有病人的第一病历文本之间的距离,从而在病历样本库中找到一个或多个与新给定病人最相似的病人。不同科室、不同医生对病人的关注点不同,所选择的评价指标不同,给出的标签信息不同,从而确定的约束标准也不同。本发明能够通过给定的不同评价指标下对应的标签信息,学习出其背后隐含的相似性度量的评价指标,从而找到该评价指标下相似的病人。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于病历文本的病人相似性度量装置,其特征在于,包括:
病历向量样本库存储部,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量;
标签标注部,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签;
预处理部,对第一病历向量进行预处理,根据所述第一标签将第一病历向量转化为第一连续数值型病历向量;
连续病历向量存储部,存储所述第一连续数值型病历向量;
距离度量矩阵获得部,学习所述连续病历向量存储部中的第一连续数值型病历向量,获得距离度量矩阵;
病历向量提取部,提取第二病历文本经过结构化处理形成的第二病历向量;
连续病历向量获得部,通过预处理部对所述第二病历向量进行预处理,获得第二连续数值型病历向量;
比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;
输出部,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出;
其中,所述距离度量矩阵获得部包括:
约束构建模块,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似} (6)
D={(xr,xs):xr和xs不相似} (7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt} (8)
其中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;
约束选择模块,选择二元组约束或三元组约束作为约束标准;
矩阵获取模块,获取满足所述约束标准和下式(9)的距离度量矩阵,
Figure FDA0002664811490000021
其中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项。
2.根据权利要求1所述的基于病历文本的病人相似性度量装置,其特征在于,所述装置还包括:
判断部,判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则继续学习第一连续数值型病历向量,若符合设定条件,则存储距离度量矩阵,其中,所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类,分类准确率相比于未应用所述距离度量矩阵时提升超过5%,或调整兰德系数提高超过0.2。
3.根据权利要求1所述的基于病历文本的病人相似性度量装置,其特征在于,所述比较部包括:
距离获得模块,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,
Figure FDA0002664811490000022
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,D表示第一病历向量和第二病历向量中向量元素的总数,distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示非零向量L中的第i行,第cq列元素;
排序模块,对获得的距离进行大小排序。
4.一种基于病历文本的病人相似性度量方法,其特征在于,包括以下步骤:
步骤S1,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量;
步骤S2,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签;
步骤S3,对第一病历向量进行预处理,根据所述第一标签将第一病历向量转化为第一连续数值型病历向量;
步骤S4,存储所述第一连续数值型病历向量;
步骤S5,学习连续病历向量存储部中的第一连续数值型病历向量,获得距离度量矩阵;
步骤S6,提取第二病历文本经过结构化处理形成的第二病历向量;
步骤S7,对所述第二病历向量进行预处理,并获得第二连续数值型病历向量;
步骤S8,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;
步骤S9,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出;
其中,所述步骤S5包括:
步骤S51,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似} (6)
D={(xr,xs):xr和xs不相似} (7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt} (8)
其中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;
步骤S52,选择二元组约束或三元组约束作为约束标准;
步骤S53,获取满足所述约束标准和下式(9)的距离度量矩阵,
Figure FDA0002664811490000041
其中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项,是正则参数。
5.根据权利要求4所述的基于病历文本的病人相似性度量方法,其特征在于,所述步骤S5和所述步骤S6之间还包括判断步骤,判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则进行所述步骤S5,若符合设定条件,则存储距离度量矩阵,并进行步骤S6,其中,所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类,分类准确率相比于未应用所述距离度量矩阵时提升超过5%,或调整兰德系数提高超过0.2。
6.根据权利要求4所述的基于病历文本的病人相似性度量方法,其特征在于,所述步骤S3包括:
步骤S31,根据第一标签对病历向量样本库中的第一病历向量进行分类;
步骤S32,根据下式(2)将第一病历向量转化为第一连续数值型病历向量,
φ(x)=[P1(x1=v1);P2(x2=v2);...;Pd(xd=vd)] (2)
其中,
Figure FDA0002664811490000042
x表示第一病历向量,i表示向量元素的索引,xi表示第一病历向量中的第i个向量元素,vi表示第i个向量元素xi的取值,Pi表示第i个向量元素xi取值vi的概率向量,c表示类别总数,y表示类别,d表示第一病历向量中向量元素的总数,φ(x)表示第一连续数值型病历向量。
7.根据权利要求6所述的基于病历文本的病人相似性度量方法,其特征在于,通过下式(4)或(5)计算概率向量的向量元素,
Figure FDA0002664811490000051
Figure FDA0002664811490000052
其中,Ni,c表示类别为c类的第一病历向量的xi取值为vi的数量,Ni表示病历向量样本库中的第一病历向量的xi取值为vi的总数量,Nc表示类别为c的第一病历向量的样本数量,j表示第一病历向量的索引,n表示第一病历向量的总样本数量,vi,j表示第j个第一病历向量的第i个向量元素的取值,hi是一个参数。
8.根据权利要求4所述的基于病历文本的病人相似性度量方法,其特征在于,所述步骤S8包括:
步骤S81,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,
Figure FDA0002664811490000053
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,D表示第一病历向量和第二病历向量中向量元素的总数,distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示非零向量L中的第i行,第cq列元素;
步骤S82,对获得的距离进行大小排序。
CN201810697392.XA 2018-06-29 2018-06-29 基于病历文本的病人相似性度量装置及方法 Active CN108877880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810697392.XA CN108877880B (zh) 2018-06-29 2018-06-29 基于病历文本的病人相似性度量装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810697392.XA CN108877880B (zh) 2018-06-29 2018-06-29 基于病历文本的病人相似性度量装置及方法

Publications (2)

Publication Number Publication Date
CN108877880A CN108877880A (zh) 2018-11-23
CN108877880B true CN108877880B (zh) 2020-11-20

Family

ID=64297281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810697392.XA Active CN108877880B (zh) 2018-06-29 2018-06-29 基于病历文本的病人相似性度量装置及方法

Country Status (1)

Country Link
CN (1) CN108877880B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817339B (zh) * 2018-12-14 2023-07-04 平安医疗健康管理股份有限公司 基于大数据的患者分组方法和装置
CN110136788B (zh) * 2019-05-14 2021-08-17 清华大学 一种基于自动检测的病历质检方法、装置、设备及存储介质
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质
CN113094497B (zh) * 2021-06-07 2021-09-14 华中科技大学 一种电子健康记录推荐方法及共享边缘计算平台
CN116662556B (zh) * 2023-08-02 2023-10-20 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法
CN116884554B (zh) * 2023-09-06 2023-11-24 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537280A (zh) * 2015-01-15 2015-04-22 南京航空航天大学 基于文本关系相似性的蛋白质交互关系识别方法
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN107301229A (zh) * 2017-06-22 2017-10-27 美味不用等(上海)信息科技股份有限公司 基于语义分析的反馈指派方法及系统
CN107403068A (zh) * 2017-07-31 2017-11-28 合肥工业大学 融合临床思维的智能辅助问诊方法及系统
CN107657062A (zh) * 2017-10-25 2018-02-02 医渡云(北京)技术有限公司 相似病例检索方法及装置、存储介质、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537280A (zh) * 2015-01-15 2015-04-22 南京航空航天大学 基于文本关系相似性的蛋白质交互关系识别方法
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN107301229A (zh) * 2017-06-22 2017-10-27 美味不用等(上海)信息科技股份有限公司 基于语义分析的反馈指派方法及系统
CN107403068A (zh) * 2017-07-31 2017-11-28 合肥工业大学 融合临床思维的智能辅助问诊方法及系统
CN107657062A (zh) * 2017-10-25 2018-02-02 医渡云(北京)技术有限公司 相似病例检索方法及装置、存储介质、电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A semantic logic-based approach to determine textual similarity";Eduardo Blanco;《IEEE/ACM Transactions on Audio, Speech and Langua》;20151231;全文 *
"An ontology-based measure to compute semantic similarity in biomedicine";Montserrat Batet;《Journal of Biomedical Informatics》;20101231;全文 *
"基于潜在语义分析的病历文本挖掘应用研究";李昀泽;《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》;20150515;正文第48页 *
"文本相似度计算方法研究综述";陈二静;《数据分析与知识发现》;20171231;全文 *

Also Published As

Publication number Publication date
CN108877880A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108877880B (zh) 基于病历文本的病人相似性度量装置及方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
US7783581B2 (en) Data learning system for identifying, learning apparatus, identifying apparatus and learning method
CN111259140B (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN111104466A (zh) 一种海量数据库表快速分类的方法
CN104750875B (zh) 一种机器错误数据分类方法及系统
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN113779260A (zh) 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN114398891B (zh) 基于日志关键词生成kpi曲线并标记波段特征的方法
CN111832306A (zh) 基于多特征融合的影像诊断报告命名实体识别方法
Hussain et al. Design and analysis of news category predictor
CN112905793B (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN114093445A (zh) 一种基于偏多标记学习的患者筛选标记方法
CN111611395A (zh) 一种实体关系的识别方法及装置
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN107480126B (zh) 一种工程材料类别智能识别方法
CN116629716A (zh) 一种智能交互系统工效分析方法
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
CN111767402B (zh) 一种基于对抗学习的限定域事件检测方法
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN113239277A (zh) 一种基于用户评论的概率矩阵分解推荐方法
CN113261975A (zh) 一种基于深度学习的心电分类方法
CN111966780A (zh) 一种基于词向量建模和信息检索的回顾性队列选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant