CN112420192A - 融合多维诊疗信息的疾病分型方法及相关设备 - Google Patents

融合多维诊疗信息的疾病分型方法及相关设备 Download PDF

Info

Publication number
CN112420192A
CN112420192A CN202011345960.3A CN202011345960A CN112420192A CN 112420192 A CN112420192 A CN 112420192A CN 202011345960 A CN202011345960 A CN 202011345960A CN 112420192 A CN112420192 A CN 112420192A
Authority
CN
China
Prior art keywords
node
target
current
diagnosis
treatment information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011345960.3A
Other languages
English (en)
Other versions
CN112420192B (zh
Inventor
吴及
刘喜恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011345960.3A priority Critical patent/CN112420192B/zh
Publication of CN112420192A publication Critical patent/CN112420192A/zh
Application granted granted Critical
Publication of CN112420192B publication Critical patent/CN112420192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本公开提供了一种融合多维诊疗信息的疾病分型方法、装置、电子设备及存储介质。该方法包括:获取待分型患者的当前多维诊疗信息;获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图;通过图神经网络模型对所述当前诊疗信息拓扑图进行多次卷积操作,获得所述当前诊疗信息拓扑图中各节点对应的目标语义表征;根据所述当前诊疗信息拓扑图中各节点对应的目标语义表征,获得所述待分型患者的目标分型结果。该方法可以自动、快速、准确地获得待分型患者的目标分型结果。

Description

融合多维诊疗信息的疾病分型方法及相关设备
技术领域
本公开涉及计算机技术领域,尤其涉及一种融合多维诊疗信息的疾病分型方法、装置、电子设备及存储介质。
背景技术
新型冠状病毒肺炎(以下简称“新冠肺炎”)的患者多以轻症(轻型、普通型)为主,大多数给予对症支持治疗后病情可好转;但一旦发展为重症(重型、危重型)病例,其救治难度以及死亡风险则大大增加。因此新冠肺炎的分型及重症患者的早期识别是极为重要的。
相关技术中的分型手段主要是根据医护人员经验或者是国家发布的分型标准,但是对于新冠肺炎这种突发的传染性疾病,其症状和表现是未知且随着时间推移不断被发现的,不能按照医生或者研究人员的已有经验来。同时由于新冠肺炎传染性极强,如果患者与医生或者护士进行过多交流,不仅效率低下,还可能造成与医护人员或者与其他患者之间的交叉感染。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种融合多维诊疗信息的疾病分型方法、装置、电子设备及存储介质,该方法可以自动、快速、准确地获得待分型患者的目标分型结果。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种融合多维诊疗信息的疾病分型方法,包括:获取待分型患者的当前多维诊疗信息;获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图;通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;根据当前诊疗信息拓扑图中各节点对应的目标语义表征,获得待分型患者的目标分型结果。
在示例性实施例中,上述方法还包括:获得训练数据集,所述训练数据集包括患者病例的诊疗信息拓扑图及其各节点的语义表征标签;利用所述训练数据集训练所述图神经网络模型,确定所述图卷积权重参数矩阵、所述更新门权重参数矩阵、所述更新门偏差参数矩阵、所述更新门激活函数、所述遗忘权重参数矩阵和所述遗忘偏差参数矩阵。
在示例性实施例中,对所述当前多维诊疗信息进行命名实体识别,获得医学命名实体粒度的待选医疗术语,包括:通过长短期记忆网络对所述当前多维诊疗信息进行特征提取,获得所述当前多维诊疗信息中各目标字词的序列特征;通过条件随机场对各目标字词的序列特征进行标注,获得各目标字词的标注序列;根据各目标字词的标注序列,获得所述医学命名实体粒度的待选医疗术语。
本公开实施例提供一种融合多维诊疗信息的疾病分型装置,包括:多维诊疗信息获取模块,用于获取待分型患者的当前多维诊疗信息;目标字词获得模块,用于获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;诊疗信息拓扑图构建模块,用于以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图;目标语义表征获得模块,用于通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;目标分型结果获得模块,用于根据当前诊疗信息拓扑图中各节点对应的目标语义表征,获得待分型患者的目标分型结果。
本公开实施例提供一种电子设备,包括:至少一个处理器;存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述任一种方法。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一种方法。
本公开一些实施例提供的融合多维诊疗信息的疾病分型方法,获取待分型患者的当前多维诊疗信息,可以完整地获取待分型患者的信息;获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词,可以全面地保留当前多维诊疗信息的特征,避免丢失信息;根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,可以表达不同目标字词之间的相关程度;以各目标字词为节点,根据不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图,便于后续实现快速分型;通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征不仅可以表征各节点自身特征,而且可以包括各节点的各阶邻居节点特征;根据当前诊疗信息拓扑图中各节点对应的目标语义表征,可以自动、快速、准确地获得待分型患者的目标分型结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1示出了可以应用本公开实施例的融合多维诊疗信息的疾病分型方法的示例性系统架构的示意图。
图2是根据一示例性实施方式示出的一种融合多维诊疗信息的疾病分型方法的流程图。
图3是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
图4是根据一示例性实施方式示出的一种融合多维诊疗信息的疾病分型系统的示意图。
图5是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
图6是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
图7是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
图8是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
图9是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
图10是根据一示例性实施方式示出一种融合多维诊疗信息的疾病分型方法的应用实例。
图11是根据一示例性实施方式示出的一种融合多维诊疗信息的疾病分型装置的框图。
图12是根据一示例性实施方式示出的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
图1示出了可以应用本公开实施例的融合多维诊疗信息的疾病分型方法的示例性系统架构的示意图。
如图1所示,该系统架构可以包括服务器101、网络102和终端设备103。网络102用以在终端设备103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器101可例如获取待分型患者的当前多维诊疗信息;服务器101可例如获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;服务器101可例如以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图;服务器101可例如通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;服务器101可例如根据当前诊疗信息拓扑图中各节点对应的目标语义表征,获得待分型患者的目标分型结果。服务器101可例如显示目标分型结果,也可以将目标分型结果发送给终端设备103,终端设备103可以用于显示目标分型结果。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器101可以是一个实体的服务器,还可以为多个服务器组成的服务器集群,还可以是云端服务器,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
下面,将结合附图及实施例对本公开示例实施例中的融合多维诊疗信息的疾病分型方法的各个步骤进行更详细的说明。
图2是根据一示例性实施方式示出的一种融合多维诊疗信息的疾病分型方法的流程图。如图2所示,本公开实施例提供的融合多维诊疗信息的疾病分型方法可以包括以下步骤。
在步骤S201中,获取待分型患者的当前多维诊疗信息。
在示例性实施例中,对普通疾病进行分型时,当前多维诊疗信息可以包括人口学特征维度信息、临床表现维度信息、实验室和影像学检查维度信息和人体系统维度信息等;对流行性疾病进行分型时,当前多维诊疗信息可以包括流行病学史维度信息、人口学特征维度信息、临床表现维度信息、实验室和影像学检查维度信息和人体系统维度信息等。当前多维诊疗信息也可以根据实际情况确定,本公开并不限定于此。
其中,普通疾病也可以称为非传染性疾病,是指由一般性病因如机械性、物理性和化学性因素的作用,或由于某些营养物质的缺乏/过剩或代谢紊乱所引起的疾病。例如:骨折、铅中毒等。流行性疾病是指由各种致病性微生物或病原体引起的具有传染性的疾病。例如:新冠肺炎、鼠疫、霍乱等。由于流行性疾病具有传播的特性,在对流行性疾病进行分型时,在普通疾病的当前多维诊疗信息的基础上,当前多维诊疗信息还包括流行病学史维度信息。本公开实施例中,以待分型患者为新冠肺炎的待分型患者为例进行说明,但并公开并不限定于此。
例如,可以通过待分型患者的患者病例,获得待分型患者的当前多维诊疗信息,也可以让待分型患者填写预先制定的表格,通过待分型患者填写好的表格获取待分型患者的当前多维诊疗信息,其中,预先制定的表格可以包括流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度五个维度。
在步骤S202中,获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词。
本公开实施例中,对于待分型患者的当前多维诊疗信息,可以按照字粒度、词粒度和医学命名实体粒度对其进行语义划分,获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词。
例如,当前多维诊疗信息中包括“恶性肿瘤”,按照字粒度对其进行语义划分后,获得的目标字词包括“恶”、“性”、“肿”、“瘤”;按照词粒度对其进行语义划分后,获得的目标字词包括“恶性”、“肿瘤”;按照医学命名实体粒度对其进行语义划分后,获得的目标字词包括“恶性肿瘤”,按照上述三种粒度对当前多维诊疗信息进行语义划分后,获得的目标字词可以包括“恶、性、肿、瘤、恶性、肿瘤、恶性肿瘤”。
在步骤S203中,以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图。
本公开实施例中,可以根据不同目标字词之间的共现依赖关系确定不同节点之间的边及不同节点之间的边权重,可以将各目标字词作为节点,根据不同节点之间的边及不同节点之间的边权重,构建待分型患者的当前诊疗信息拓扑图。
在示例性实施例中,可以根据点互信息(PMI,Point-wise Mutual Information)确定不同目标字词之间的共现依赖关系。但本公开并不限定于此。
本公开实施例中,待分型患者的当前诊疗信息拓扑图中,可以认为有边的节点之间存在语义上的相关性,有边的节点可以包括直接相连的节点,也可以包括通过两条或两条以上的边间接相连的节点。若两个节点通过两条或两条以上的边相连,可以将这两个节点称为n阶邻居,其中,n可以等于这两个节点跨越边的条数,n为大于或等于1的正整数。
在步骤S204中,通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征。
其中,图神经网络模型可以为图卷积模型(GCN,Graph Convolutional Network),也可以为其他图神经网络模型,下面以图卷积模型为例进行说明,但本公开并不限定于此。
本公开实施例中,可以通过图卷积模型对当前诊疗信息拓扑图进行多次卷积操作,卷积次数可以根据实际需求设定,每次卷积操作可以聚合一阶邻居节点特征,多次卷积操作可以聚合多阶邻居节点特征,例如,第一次卷积操作可以聚合各节点自身特征和一阶邻居节点特征,第二次卷积操作可以在第一次卷积操作的基础上聚合各节点的二阶邻居节点特征,……,由此,通过多次卷积操作,可以获得当前诊疗信息拓扑图中的各节点对应的目标语义表征,其中,各节点对应的目标语义表征中聚合了各节点自身特征及其各阶邻居节点特征。
在步骤S205中,根据当前诊疗信息拓扑图中各节点对应的目标语义表征,获得待分型患者的目标分型结果。
其中,目标分型结果可以包括为轻型、重型和危重型的其中一种,也可以包括为轻型、重型和危重型的概率。
本公开实施例中,可以通过多层全连接层网络对当前诊疗信息拓扑图中各节点对应的目标语义表征进行处理,获得待分型患者的目标分型结果。
本公开实施例中,可以通过多层全连接层网络对多个维度对应的目标字词的目标语义表征进行处理,获得待分型患者的每个维度对应的分型结果,对每个维度对应的分型结果进行评估,可以获得待分型患者的目标分型结果。
本公开实施例提供的融合多维诊疗信息的疾病分型方法,获取待分型患者的当前多维诊疗信息,可以完整地获取待分型患者的信息;获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词,可以全面地保留当前多维诊疗信息的特征,避免丢失信息;根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,可以表达不同目标字词之间的相关程度;以各目标字词为节点,根据不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图,便于后续实现快速分型;通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征不仅可以表征各节点自身特征,而且可以包括各节点的各阶邻居节点特征;根据当前诊疗信息拓扑图中各节点对应的目标语义表征,可以自动、快速、准确地获得待分型患者的目标分型结果。此外,通过该方法,无需医护人员和患者直接接触,可以有效防止医护人员和其他患者的交叉感染。
图3是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
本公开实施例中,图3所示的融合多维诊疗信息的疾病分型方法提供了上述步骤S204的一种实施例。本公开实施例中,以多次卷积操作中的一次卷积操作为例进行说明,其他每次的卷积操作与此类似。
如图3所示,步骤S204可以包括以下步骤。
在步骤S2041中,根据当前诊疗信息拓扑图生成拓扑图矩阵。
本公开实施例中,根据当前诊疗信息拓扑图中各节点、各节点之间的边及其边权重,可以生成拓扑图矩阵,拓扑图矩阵可以用A表示。
例如,当前诊疗信息拓扑图中包含M个节点(即M个目标字词),M为大于或等于1的正整数,则可以生成一个M*M的矩阵,这个矩阵中的值可以对应各节点之间的边权重。
图4是根据一示例性实施方式示出的一种融合多维诊疗信息的疾病分型系统的示意图。如图4所示,该系统可以包括多源信息抽取模块、诊疗信息拓扑图&多维评分模块。
参照图4,当前诊疗信息拓扑图可以作为图神经网络模型的输入。
在步骤S2042中,根据各节点的上一语义表征、拓扑图矩阵和图卷积权重参数矩阵,确定各节点的当前语义表征。
其中,各节点的上一语义表征是利用图神经网络模型对拓扑图矩阵进行第t-1次卷积操作后的获得的节点表征,各节点的当前语义表征是利用图神经网络模型对拓扑图矩阵进行第t次卷积操作后的获得的节点表征,t为大于1的正整数,各节点的上一语义表征包括各节点自身特征及其t-1阶邻居节点特征,各节点的当前语义表征包括各节点的自身特征及其t阶邻居节点特征。
本公开实施例中,可以根据以下公式确定各节点的当前语义表征:
at=Aht-1Wa (1)
其中,at表示当前语义表征,A表示拓扑图矩阵,ht-1表示上一语义表征,Wa表示图卷积权重参数矩阵。
在步骤S2043中,根据各节点的当前语义表征,确定各节点的目标语义表征。
本公开实施例中,可以根据各节点的当前语义表征at,确定各节点的待更新特征矩阵和待遗忘特征矩阵,并根据各节点的待更新特征矩阵和待遗忘特征矩阵,确定各节点的目标语义表征ht
图5是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
本公开实施例中,图5所示的融合多维诊疗信息的疾病分型方法提供了上述步骤S2043的一种实施例。
如图5所示,步骤S2043可以包括以下步骤。
在步骤S20431中,根据各节点的上一语义表征、各节点的当前语义表征、更新门权重参数矩阵、更新门偏差参数矩阵和更新门激活函数,确定各节点的待更新特征矩阵。
参照图4,本公开实施例中,为了刻画不同阶不同的邻居节点特征对中心节点的语义表征起到的不同重要性影响,可以在图神经网络模型的基础上,加入门控机制,即更新门和遗忘门。
本公开实施例中,可以根据以下公式确定各节点的待更新特征矩阵:
zt=σ1(Wzat+Uzht-1+bz) (2)
其中,zt表示待更新特征矩阵,σ1表示更新门激活函数,Wz和Uz表示更新门权重参数矩阵、bz表示更新门偏差参数矩阵。更新门权重参数矩阵和更新门偏差参数矩阵可以控制是否采纳邻居节点特征和采纳程度。
在步骤S20432中,根据各节点的上一语义表征、各节点的当前语义表征、遗忘门权重参数矩阵、遗忘门偏差参数矩阵和遗忘门激活函数,确定各节点的待遗忘特征矩阵。
本公开实施例中,可以根据以下公式确定各节点的待遗忘特征矩阵:
rt=σ2(Wrat+Urht-1+br) (3)
其中,rt表示待遗忘特征矩阵,σ2表示遗忘门激活函数,Wr和Ur表示遗忘门权重参数矩阵、br表示遗忘门偏差参数矩阵。遗忘门权重参数矩阵和遗忘门偏差参数矩阵可以控制是否采纳邻居节点特征。
在步骤S20433中,根据各节点的上一语义表征、各节点的当前语义表征、各节点的待遗忘特征矩阵、遗忘权重参数矩阵和遗忘偏差参数矩阵,确定各节点的遗忘特征矩阵。
本公开实施例中,可以根据以下公式确定各节点的遗忘特征矩阵:
Figure BDA0002799823070000101
其中,
Figure BDA0002799823070000102
表示遗忘特征矩阵,Wh和Uh表示遗忘权重参数矩阵、bh表示遗忘偏差参数矩阵。
在步骤S20434中,根据各节点的遗忘特征矩阵、各节点的待更新特征矩阵和各节点的上一语义表征,确定各节点的目标语义表征。
本公开实施例中,可以根据以下公式确定各节点的目标语义表征:
Figure BDA0002799823070000103
其中,ht表示目标语义表征。
本公开实施例中,可以根据公式(5),对过了遗忘门之后的遗忘特征矩阵
Figure BDA0002799823070000104
进行信息聚合,对遗忘特征矩阵
Figure BDA0002799823070000105
和待更新特征矩阵zt计算相似度,然后将上一语义表征ht-1与(1-zt)计算相似度,这样的设置能够使图卷积模型在保留上一语义表征的基础上,对当前语义表征的更新以及更新程度有一个可控制的选择,同时还能防止图卷积模型震荡。
本公开实施例中,融合多维诊疗信息的疾病分型方法还可以包括:获得训练数据集;以及利用训练数据集训练图神经网络模型,确定图卷积权重参数矩阵、更新门权重参数矩阵、更新门偏差参数矩阵、更新门激活函数、遗忘权重参数矩阵和遗忘偏差参数矩阵。
其中,训练数据集包括患者病例的诊疗信息拓扑图及其各节点的语义表征标签,可以利用已有的新冠肺炎病例作为训练数据集,利用训练数据集对图神经网络模型进行训练,可以获得上述图卷积权重参数矩阵、更新门权重参数矩阵、更新门偏差参数矩阵、更新门激活函数、遗忘权重参数矩阵和遗忘偏差参数矩阵。
本公开实施例中,可以利用交叉熵损失函数作为模型优化目标,可以利用已有数据对模型进行监督训练,使得模型在不断的迭代中学习到最优的权重参数。
图6是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
本公开实施例中,图6所示的融合多维诊疗信息的疾病分型方法提供了上述步骤S202的一种实施例。
如图6所示,步骤S202可以包括以下步骤。
在步骤S2021中,对当前多维诊疗信息进行分字处理,获得字粒度的待选字。
本公开实施例中,可以将当前多维诊疗信息以字为单位进行分字处理,获得字粒度的待选字。
例如,当前多维诊疗信息中包括“恶性肿瘤”,对当前多维诊疗信息进行分字处理后,获得的待选字为“恶”、“性”、“肿”、“瘤”。
在步骤S2022中,对当前多维诊疗信息进行分词处理,获得词粒度的待选词。
本公开实施例中,可以利用结巴分词工具包对当前多维诊疗信息进行分词处理,获得词粒度的待选词。
例如,当前多维诊疗信息中包括“恶性肿瘤”,对当前多维诊疗信息进行分词处理后,获得的待选词为“恶性”、“肿瘤”。
在步骤S2023中,对当前多维诊疗信息进行命名实体识别,获得医学命名实体粒度的待选医疗术语。
本公开实施例中,可以采用预训练好的LSTM(Long Short-Term Memory,长短期记忆网络)+CRF(Conditional Random Field,条件随机场)模型对当前多维诊疗信息进行命名实体识别,获得医学命名实体粒度的待选医疗术语。
在示例性实施例中,可以通过长短期记忆网络对当前多维诊疗信息进行特征提取,获得当前多维诊疗信息中各目标字词的序列特征。
其中,各目标字词的序列特征可以表示不同目标字词之间的前后关系。
在示例性实施例中,可以通过条件随机场对各目标字词的序列特征进行标注,获得各目标字词的标注序列。
例如,可以通过条件随机场对各目标字词的序列特征的类别进行标注,例如,可以用B表示当前目标字词是一个组块的开始,可以用I表示当前目标字词在一个组块中,可以用O表示当前目标字词不在任意组块中。
在示例性实施例中,可以根据各目标字词的标注序列,获得医学命名实体粒度的待选医疗术语。
本公开实施例中,可以根据各目标字词的标注序列,确定各目标字词在组块中的位置,获得医学命名实体粒度的待选医疗术语。
例如,若“恶性”的标注类别为B,“肿瘤”的标注类别为I,获得的待选医疗术语可以为“恶性肿瘤”。
在步骤S2024中,获取支持词表。
本公开实施例中,支持词表例如可以是预先根据大量的患者病例构建的。
在步骤S2025中,将与支持词表匹配的待选字、待选词和待选医疗术语确定为目标字词。
本公开实施例中,可以将支持词表中没有的待选字、待选词和待选医疗术语去掉,与支持词表中相同的待选字、待选词和待选医疗术语确定为目标字词。
图7是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
本公开实施例中,图7所示的融合多维诊疗信息的疾病分型方法提供了上述步骤S2024的一种实施例。
如图7所示,步骤S2024可以包括以下步骤。
在步骤S20241中,获取患者病例库中的患者病例。
本公开实施例中,可以获取患者病例库中的大量患者病例,对大量患者病例进行信息抽取,可以获得更完整的支持词表。
参照图4,获取到的患者病例可以作为多源信息抽取模块的输入。
在步骤S20242中,从多个维度对患者病例进行信息抽取,获得患者病例的多维诊疗信息。
在示例性实施例中,以建立新冠肺炎的支持字词为例,多个维度可以包括:流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度、人体系统维度。
本公开实施例中,流行病学是研究特定人群中疾病、健康状况的分布及其决定因素,针对新冠肺炎这一疾病,其流行病学调查可以包括如下几方面:
a.就诊或症状出现前2周内到过疫区(结合全国疫情分布图判断);
b.就诊或症状出现前2周内乘坐高危飞机、火车、长途汽车、轮船、地铁等公共交通;
c.就诊或症状出现前2周内接触过可疑野生动物(蝙蝠、土拨鼠、果子狸);
d.就诊或症状出现前2周内密切接触疫区人群;
e.就诊或症状出现前2周内接触的家人、朋友、同事,有症状者大于1人;
f.就诊或症状出现前2周内接触、照顾、探视密切接触者、疑似或确诊患者。
若患者病例中存在上述至少一种情况,可以认为该患者具有较大被传染的概率。因此,可以对这六条流行病学史的结果逐一进行判断,存在一种或多种情况时,可以将“接触疫区”记录在患者信息中,如果上述情况均不存在,可以将“未接触疫区”记录在患者信息中。
本公开实施例中,对于新冠肺炎这一疾病,人口学特征可以包括患者的年龄、性别、民族、职业、婚姻状况、常住地址(精确到市)。这些信息可能会对患者是否感染了新冠肺炎以及感染病情程度产生影响,可以将患者的个人信息进行隐私处理后,将这些信息提取出来加入到患者信息中。
本公开实施例中,临床表现一般可以是患者病例中的主要字段信息,可以包括:主诉、现病史、既往史和体格检查。其中,主诉是患者自述的患病情况,通常可以是令自己感到最不舒服的症状、部位以及持续时间描述。现病史是对主诉内容的更完整和更详细的描述,通常可以包含:起病情况和患病时间、主要症状及其特点、发病病因以及严重诱因、病情的发展和演变过程、之前的诊治过程以及病程中的一般情况等几大部分。既往史也是病例中的一个字段,记录了患者既往的患病、用药、过敏、饮食习惯等情况,因为新冠肺炎很考验患者的免疫力,所以既往病史对疾病分型轻症、重症和危重症可能有很大影响,例如,具有基础病的老年患者更容易分到重型。
针对新冠肺炎的体格检查可以包括:体温,脉搏,呼吸,血压,指脉氧,神志,浅表淋巴结,双肺呼吸音,双下肺可闻音,心率,各瓣膜区音,Murphy(墨菲)征,肝脾区是否叩痛,双肾区是否叩痛,肠鸣音,双下肢是否水肿,病理征。
上述主诉、现病史、既往史和体格检查四个字段的文本信息可以加入到患者信息中。
本公开实施例中,实验室检查结果可以是患者进行一些检查项目的结果,可以包括血常规,中性粒细胞百分比,淋巴细胞百分比,中性粒细胞绝对值,淋巴细胞绝对值;甲型流感病毒抗原检测和乙型流感病毒抗原检测。影像学检查可以是胸片检查结果,例如:胸部正位片,双下肺炎症,心影增大,双侧胸膜肥厚。
本公开实施例中,通过对新冠肺炎的患者病例的分析,该疾病在人体不同系统下的典型症状可以包括:
呼吸系统:咳嗽、咳痰、胸闷、气短、气喘、呼吸困难、胸闷不适、哮喘;
循环系统:晕厥、心悸、心律不齐、心前区痛、气促、咯血、胸闷、血压升高;
消化系统:食欲减退、反酸、嗳气、恶心、呕吐、胃痛、腹痛、便秘、腹泻、呕血、黑便、黄疸、便血;
泌尿系统:腰痛、尿频、尿急、尿痛、排尿困难、血尿、浮肿、夜尿;
血液系统:乏力、头昏、眼花、耳鸣、齿龈出血、鼻衄、皮下出血;
内分泌代谢系统:食欲亢进、食欲减退、怕热、怕冷、多饮、多尿、消瘦。
本公开实施例中,从上述流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度、人体系统维度对患者病例进行信息抽取,获得患者病例的流行病学史维度信息、人口学特征维度信息、临床表现维度信息、实验室和影像学检查维度信息和人体系统维度信息。
在步骤S20243中,获得患者病例的多维诊疗信息的字粒度、词粒度和医学命名实体粒度的支持字词。
本公开实施例中,对患者病例的多维诊疗信息分别进行分字处理、分词处理和命名实体识别,可以获得患者病例的多维诊疗信息的字粒度、词粒度和医学命名实体粒度的支持字词。
本公开实施例中,获得患者病例的多维诊疗信息的字粒度、词粒度和医学命名实体粒度的支持字词的方法,可以参照图6所示的融合多维诊疗信息的疾病分型方法,在此不再赘述。
在步骤S20244中,去掉支持字词中的停用字词和词频小于预设阈值的字词,获得支持词表。
本公开实施例中,患者病例中可以是自然语言,其可以包括停用字词和低频字词,例如,停用字词可以包括:的、了、吗。
其中,停用字词可以根据停用字词表确定,预设阈值可以根据实际需要确定。
本公开实施例中,可以根据停用字词表去掉支持字词中的停用字词,将词频小于预设阈值的字词确定为低频字词,将支持字词中的低频字词去掉,可以获得支持词表。
参照图4,支持词表可以在后续获得待分型患者的目标字词时使用。
图8是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
本公开实施例中,图8所示的融合多维诊疗信息的疾病分型方法提供了上述步骤S203的一种实施例。如图8所示,步骤S203包括以下步骤。
在步骤S2031中,通过预设大小的滑动窗口遍历各目标字词,获得多个滑动窗口,每个滑动窗口中包括预设数量的目标字词,预设数量与预设大小相对应。
其中,预设大小和预设数量可以相等,预设大小和预设数量可以根据实际情况设置。
例如,预设大小可以为3。可以通过窗口大小为3的滑动窗口按照从左到右的顺序遍历各目标字词,遍历完成后可以获得多个滑动窗口,每个滑动窗口中可以包括3个目标字词。
在步骤S2032中,根据每个滑动窗口中包括的预设数量的目标字词,获得每两个目标字词之间的点互信息值,用每两个目标字词之间的点互信息值衡量对应两个目标字词之间的共现依赖关系。
其中,共现依赖关系可以表示两个目标字词之间的相关程度,可以通过两个目标字词之间的点互信息值衡量,两个目标字词之间的点互信息值越大,可以表示两个目标字词的相关程度越高,两个目标字词之间的点互信息值越小,可以表示两个目标字词的相关程度越低。
本公开实施例中,两个目标字词之间的点互信息值可以根据以下公式确定:
Figure BDA0002799823070000161
Figure BDA0002799823070000162
Figure BDA0002799823070000163
Figure BDA0002799823070000164
其中,i、j表示目标字词,PMI(i,j)表示目标字词i和j的点互信息值,#W表示滑动窗口的总个数,#W(i)表示目标字词i出现的次数,#W(j)表示目标字词j出现的次数,#W(i,j)表示目标字词对i、j共同出现的总次数,p(i)表示目标字词i出现的概率,p(j)表示目标字词j出现的概率,p(i,j)表示目标字词对i、j共同出现的概率。
在步骤S2033中,以各目标字词为节点,若两个节点对应的两个目标字词之间的点互信息值大于0,则在对应的两个节点之间构建一条边,且将两个节点之间的点互信息值作为对应的两个节点之间的边的边权重。
本公开实施例中,可以将各目标字词作为节点,若两个节点对应的两个目标字词之间的点互信息值为0,则可以认为这两个目标字词之间没有依赖关系;若两个节点对应的两个目标字词之间的点互信息值大于0,则可以在对应的两个节点之间构建一条边,可以将这两个目标字词之间的点互信息值作为这两个节点之间的边的边权重。
在步骤S2034中,为各节点建立一条自边,并将各节点的自边的边权重确定为预定常数。
本公开实施例中,为了使各节点在消息传递的时候可以保留自身信息,可以为各节点建立一条自边,各节点的自边的边权重可以设置为预定常数,例如,预定常数可以为1。
在步骤S2035中,根据各节点、各节点的自边的边权重和各节点之间的边的边权重,构建待分型患者的当前诊疗信息拓扑图。
本公开实施例中,根据各节点、各节点的自边的边权重和各节点之间的边的边权重,构建了待分型患者的当前诊疗信息拓扑图,当前诊疗信息拓扑图可以表示各节点之间的关系,可以作为后续图神经网络模型的输入。
图9是根据一示例性实施方式示出的另一种融合多维诊疗信息的疾病分型方法的流程图。
本公开实施例中,图9所示的融合多维诊疗信息的疾病分型方法提供了上述步骤S205的一种实施例。
在示例性实施例中,当前多维诊疗信息包括流行病学史维度信息、人口学特征维度信息、临床表现维度信息、实验室和影像学检查维度信息和人体系统维度信息。
如图9所示,步骤S205可以包括以下步骤。
在步骤S2051中,从目标字词中获得流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词。
本公开实施例中,可以按照目标字词的类别从目标字词中获得流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词。
在步骤S2052中,通过多层全连接网络分别对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词的目标语义表征进行处理,获得待分型患者的流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果。
其中,流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果包括待分型患者为轻型、重型和危重型的概率。
参考图4,可以通过多层全连接网络对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词的目标语义表征进行处理,多层全连接层网络的维度会逐层递减,直到最后一层减少为与分型结果对应的维度,例如,分型结果包括轻型、重型和危重型三种,则多层全连接层网络最后一层可以为三维,分别对应待分型患者的流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果为轻型、重型和危重型的概率。
在获得上述各维度对应的分型结果为轻型、重型和危重型的概率后,可以直接输出分型结果,供医护人员参考;也可以对各维度对应的分型结果为轻型、重型和危重型的概率取平均值(mean-pooling),通过softmax(逻辑回归)函数,可以选取各维度中概率最大值对应的分型结果作为单维度的预测结果。
在步骤S2053中,对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果进行综合评估,获得目标分型结果。
其中,流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标分型结果包括待分型患者为轻型、重型和危重型的概率。
例如,可以对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的待分型患者为轻型、重型和危重型的概率取平均值或取最大值,将该平均值或最大值作为目标分型结果。
图10是根据一示例性实施方式示出一种融合多维诊疗信息的疾病分型方法的应用实例。
如图10所示,相关技术中的分型方法只能输出单一的分型结果,而本公开实施例提供的融合多维诊疗信息的疾病分型方法,通过对患者信息进行处理后,可以输出上述五个维度对应的各分型结果的概率,也可以输出对上述五个维度综合评估后的各分型结果的概率,医护人员通过输出结果可以全面地掌握患者的情况,快速判断患者的分型结果,并且,若患者的某一维度打分过高,可以引起医护人员的重视,防止漏判和误判的情况;同时,本公开实施例提供的方法是对每个患者单独构建当前诊疗信息拓扑图,模型的计算速度很快,可以为重型和危重型患者争抢更多的治疗时间。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图11是根据一示例性实施方式示出的一种融合多维诊疗信息的疾病分型装置的框图。
如图11所示,融合多维诊疗信息的疾病分型装置1100可以包括:多维诊疗信息获取模块1101、目标字词获得模块1102、诊疗信息拓扑图构建模块1103、目标语义表征获得模块1104及目标分型结果获得模块1105。
其中,多维诊疗信息获取模块1101可以用于获取待分型患者的当前多维诊疗信息;目标字词获得模块1102可以用于获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;诊疗信息拓扑图构建模块1103可以用于以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图;目标语义表征获得模块1104可以用于通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;目标分型结果获得模块1105可以用于根据当前诊疗信息拓扑图中各节点对应的目标语义表征,获得待分型患者的目标分型结果。
在示例性实施例中,目标语义表征获得模块1104可以包括:拓扑图矩阵生成模块、当前语义表征确定模块和目标语义表征确定模块。其中,拓扑图矩阵生成模块可以用于根据当前诊疗信息拓扑图生成拓扑图矩阵;当前语义表征确定模块可以用于根据各节点的上一语义表征、拓扑图矩阵和图卷积权重参数矩阵,确定各节点的当前语义表征;其中,各节点的上一语义表征是利用图神经网络模型对拓扑图矩阵进行第t-1次卷积操作后的获得的节点表征,各节点的当前语义表征是利用图神经网络模型对拓扑图矩阵进行第t次卷积操作后的获得的节点表征,t为大于1的正整数,各节点的上一语义表征包括各节点自身特征及其t-1阶邻居节点特征,各节点的当前语义表征包括各节点的自身特征及其t阶邻居节点特征;目标语义表征确定模块,可以用于根据各节点的当前语义表征,确定各节点的目标语义表征。
在示例性实施例中,目标语义表征确定模块可以包括:待更新特征矩阵确定模块、待遗忘特征矩阵确定模块、遗忘特征矩阵确定模块和目标语义表征确定模块。其中,待更新特征矩阵确定模块可以用于根据各节点的上一语义表征、各节点的当前语义表征、更新门权重参数矩阵、更新门偏差参数矩阵和更新门激活函数,确定各节点的待更新特征矩阵;待遗忘特征矩阵确定模块可以用于根据各节点的上一语义表征、各节点的当前语义表征、遗忘门权重参数矩阵、遗忘门偏差参数矩阵和遗忘门激活函数,确定各节点的待遗忘特征矩阵;遗忘特征矩阵确定模块可以用于根据各节点的上一语义表征、各节点的当前语义表征、各节点的待遗忘特征矩阵、遗忘权重参数矩阵和遗忘偏差参数矩阵,确定各节点的遗忘特征矩阵;目标语义表征确定模块可以用于根据各节点的遗忘特征矩阵、各节点的待更新特征矩阵和各节点的上一语义表征,确定各节点的目标语义表征。
在示例性实施例中,装置1100还可以包括:训练数据集获得模块和模型训练模块。其中,训练数据集获得模块可以用于获得训练数据集,训练数据集包括患者病例的诊疗信息拓扑图及其各节点的语义表征标签;模型训练模块可以用于利用训练数据集训练图神经网络模型,确定图卷积权重参数矩阵、更新门权重参数矩阵、更新门偏差参数矩阵、更新门激活函数、遗忘权重参数矩阵和遗忘偏差参数矩阵。
在示例性实施例中,目标字词获得模块1102可以包括:待选字获得模块、待选词获得模块、待选医疗术语获得模块、支持词表获取模块和目标字词确定模块。其中,待选字获得模块可以用于对当前多维诊疗信息进行分字处理,获得字粒度的待选字;待选词获得模块可以用于对当前多维诊疗信息进行分词处理,获得词粒度的待选词;待选医疗术语获得模块可以用于对当前多维诊疗信息进行命名实体识别,获得医学命名实体粒度的待选医疗术语;支持词表获取模块可以用于获取支持词表;目标字词确定模块可以用于将与支持词表匹配的待选字、待选词和待选医疗术语确定为目标字词。
在示例性实施例中,待选医疗术语确定模块可以包括:序列特征获得模块,可以用于通过长短期记忆网络对当前多维诊疗信息进行特征提取,获得当前多维诊疗信息中各目标字词的序列特征;标注序列获得模块,可以用于通过条件随机场对各目标字词的序列特征进行标注,获得各目标字词的标注序列;待选医疗术语获得模块,可以用于根据各目标字词的标注序列,获得医学命名实体粒度的待选医疗术语。
在示例性实施例中,支持词表获取模块可以包括:患者病例获取模块,可以用于获取患者病例库中的患者病例;多维诊疗信息获得模块,可以用于从多个维度对患者病例进行信息抽取,获得患者病例的多维诊疗信息;支持字词获得模块,可以用于获得患者病例的多维诊疗信息的字粒度、词粒度和医学命名实体粒度的支持字词;支持词表获得模块,可以用于去掉支持字词中的停用字词和词频小于预设阈值的字词,获得支持词表。
在示例性实施例中,诊疗信息拓扑图构建模块1103可以包括:目标字词遍历模块,可以用于通过预设大小的滑动窗口遍历各目标字词,获得多个滑动窗口,每个滑动窗口中包括预设数量的目标字词,预设数量与预设大小相对应;点互信息值获得模块,可以用于根据每个滑动窗口中包括的预设数量的目标字词,获得每两个目标字词之间的点互信息值,用每两个目标字词之间的点互信息值衡量对应两个目标字词之间的共现依赖关系;边权重确定模块,可以用于以各目标字词为节点,若两个节点对应的两个目标字词之间的点互信息值大于0,则在对应的两个节点之间构建一条边,且将两个节点之间的点互信息值作为对应的两个节点之间的边的边权重;自边确定模块,可以用于为各节点建立一条自边,并将各节点的自边的边权重确定为预定常数;拓扑图构建模块,可以用于根据各节点、各节点的自边的边权重和各节点之间的边的边权重,构建待分型患者的当前诊疗信息拓扑图。
在示例性实施例中,当前多维诊疗信息包括流行病学史维度信息、人口学特征维度信息、临床表现维度信息、实验室和影像学检查维度信息和人体系统维度信息;其中,目标分型结果获得模块1105可以包括:多维目标字词获得模块,可以用于从目标字词中获得流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词;分型结果获得模块,可以用于通过多层全连接网络分别对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词的目标语义表征进行处理,获得待分型患者的流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果;综合评估模块,可以用于对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果进行综合评估,获得目标分型结果;其中,流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果和目标分型结果包括待分型患者为轻型、重型和危重型的概率。
图12是根据一示例性实施方式示出的一种电子设备的结构示意图。
如图12所示,电子设备1200包括中央处理单元(CPU)1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中,还存储有系统1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本发明的系统中限定的上述功能。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取待分型患者的当前多维诊疗信息;获得当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建待分型患者的当前诊疗信息拓扑图;通过图神经网络模型对当前诊疗信息拓扑图进行多次卷积操作,获得当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;根据当前诊疗信息拓扑图中各节点对应的目标语义表征,获得待分型患者的目标分型结果。

Claims (10)

1.一种融合多维诊疗信息的疾病分型方法,其特征在于,包括:
获取待分型患者的当前多维诊疗信息;
获得所述当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;
以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建所述待分型患者的当前诊疗信息拓扑图;
通过图神经网络模型对所述当前诊疗信息拓扑图进行多次卷积操作,获得所述当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;
根据所述当前诊疗信息拓扑图中各节点对应的目标语义表征,获得所述待分型患者的目标分型结果。
2.根据权利要求1所述的方法,其特征在于,通过图神经网络模型对所述当前诊疗信息拓扑图进行多次卷积操作,获得所述当前诊疗信息拓扑图中各节点对应的目标语义表征,包括:
根据所述当前诊疗信息拓扑图生成拓扑图矩阵;
根据各节点的上一语义表征、所述拓扑图矩阵和图卷积权重参数矩阵,确定各节点的当前语义表征;
其中,各节点的上一语义表征是利用所述图神经网络模型对所述拓扑图矩阵进行第t-1次卷积操作后的获得的节点表征,各节点的当前语义表征是利用所述图神经网络模型对所述拓扑图矩阵进行第t次卷积操作后的获得的节点表征,t为大于1的正整数,各节点的上一语义表征包括各节点自身特征及其t-1阶邻居节点特征,各节点的当前语义表征包括各节点的自身特征及其t阶邻居节点特征;
根据各节点的当前语义表征,确定所述各节点的目标语义表征。
3.根据权利要求2所述的方法,其特征在于,根据各节点的当前语义表征,确定所述各节点的目标语义表征,包括:
根据各节点的上一语义表征、各节点的当前语义表征、更新门权重参数矩阵、更新门偏差参数矩阵和更新门激活函数,确定各节点的待更新特征矩阵;
根据各节点的上一语义表征、各节点的当前语义表征、遗忘门权重参数矩阵、遗忘门偏差参数矩阵和遗忘门激活函数,确定各节点的待遗忘特征矩阵;
根据各节点的上一语义表征、各节点的当前语义表征、各节点的待遗忘特征矩阵、遗忘权重参数矩阵和遗忘偏差参数矩阵,确定各节点的遗忘特征矩阵;
根据各节点的遗忘特征矩阵、各节点的待更新特征矩阵和各节点的上一语义表征,确定各节点的目标语义表征。
4.根据权利要求1所述的方法,其特征在于,获得所述当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词,包括:
对所述当前多维诊疗信息进行分字处理,获得字粒度的待选字;
对所述当前多维诊疗信息进行分词处理,获得词粒度的待选词;
对所述当前多维诊疗信息进行命名实体识别,获得医学命名实体粒度的待选医疗术语;
获取支持词表;
将与所述支持词表匹配的所述待选字、所述待选词和所述待选医疗术语确定为所述目标字词。
5.根据权利要求4所述的方法,其特征在于,获取支持词表,包括:
获取患者病例库中的患者病例;
从多个维度对所述患者病例进行信息抽取,获得所述患者病例的多维诊疗信息;
获得所述患者病例的多维诊疗信息的字粒度、词粒度和医学命名实体粒度的支持字词;
去掉所述支持字词中的停用字词和词频小于预设阈值的字词,获得所述支持词表。
6.根据权利要求1所述的方法,其特征在于,以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建所述待分型患者的当前诊疗信息拓扑图,包括:
通过预设大小的滑动窗口遍历各目标字词,获得多个滑动窗口,每个滑动窗口中包括预设数量的目标字词,所述预设数量与所述预设大小相对应;
根据每个滑动窗口中包括的预设数量的目标字词,获得每两个目标字词之间的点互信息值,用每两个目标字词之间的点互信息值衡量对应两个目标字词之间的共现依赖关系;
以各目标字词为节点,若两个节点对应的两个目标字词之间的点互信息值大于0,则在对应的两个节点之间构建一条边,且将两个节点之间的点互信息值作为对应的两个节点之间的边的边权重;
为各节点建立一条自边,并将各节点的自边的边权重确定为预定常数;
根据各节点、各节点的自边的边权重和各节点之间的边的边权重,构建所述待分型患者的当前诊疗信息拓扑图。
7.根据权利要求1所述的方法,其特征在于,所述当前多维诊疗信息包括流行病学史维度信息、人口学特征维度信息、临床表现维度信息、实验室和影像学检查维度信息和人体系统维度信息;其中,根据所述当前诊疗信息拓扑图中各节点对应的目标语义表征,获得所述待分型患者的目标分型结果,包括:
从目标字词中获得流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词;
通过多层全连接网络分别对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的目标字词的目标语义表征进行处理,获得所述待分型患者的流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果;
对流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果进行综合评估,获得目标分型结果;
其中,流行病学史维度、人口学特征维度、临床表现维度、实验室和影像学检查维度和人体系统维度对应的分型结果和所述目标分型结果包括所述待分型患者为轻型、重型和危重型的概率。
8.一种融合多维诊疗信息的疾病分型装置,其特征在于,包括:
多维诊疗信息获取模块,用于获取待分型患者的当前多维诊疗信息;
目标字词获得模块,用于获得所述当前多维诊疗信息的字粒度、词粒度和医学命名实体粒度的目标字词;
诊疗信息拓扑图构建模块,用于以各目标字词为节点,并根据不同目标字词之间的共现依赖关系构建不同节点之间的边及其边权重,构建所述待分型患者的当前诊疗信息拓扑图;
目标语义表征获得模块,用于通过图神经网络模型对所述当前诊疗信息拓扑图进行多次卷积操作,获得所述当前诊疗信息拓扑图中各节点对应的目标语义表征,各节点对应的目标语义表征聚合各节点自身特征及其各阶邻居节点特征;
目标分型结果获得模块,用于根据所述当前诊疗信息拓扑图中各节点对应的目标语义表征,获得所述待分型患者的目标分型结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202011345960.3A 2020-11-26 2020-11-26 融合多维诊疗信息的疾病分型方法及相关设备 Active CN112420192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011345960.3A CN112420192B (zh) 2020-11-26 2020-11-26 融合多维诊疗信息的疾病分型方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011345960.3A CN112420192B (zh) 2020-11-26 2020-11-26 融合多维诊疗信息的疾病分型方法及相关设备

Publications (2)

Publication Number Publication Date
CN112420192A true CN112420192A (zh) 2021-02-26
CN112420192B CN112420192B (zh) 2023-12-15

Family

ID=74843982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011345960.3A Active CN112420192B (zh) 2020-11-26 2020-11-26 融合多维诊疗信息的疾病分型方法及相关设备

Country Status (1)

Country Link
CN (1) CN112420192B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096756A (zh) * 2021-04-26 2021-07-09 安徽科大讯飞医疗信息技术有限公司 病情演变分类方法、装置、电子设备和存储介质
CN113081025A (zh) * 2021-03-10 2021-07-09 华中科技大学 一种基于肺音的新冠肺炎智能诊断系统和装置
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113704415A (zh) * 2021-09-09 2021-11-26 北京邮电大学 医学文本的向量表示生成方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297642A1 (en) * 2009-02-10 2014-10-02 Ayasdi, Inc. Systems and methods for mapping patient data from mobile devices for treatment assistance
US20180121759A1 (en) * 2016-10-28 2018-05-03 International Business Machines Corporation Simultaneous feature extraction and dictionary learning using deep learning architectures for characterization of images of heterogeneous tissue samples
CN109935336A (zh) * 2019-01-15 2019-06-25 北京思普科软件股份有限公司 一种儿童呼吸科疾病的智能辅助诊断方法及诊断系统
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN111145909A (zh) * 2019-11-29 2020-05-12 泰康保险集团股份有限公司 诊疗数据处理方法与装置、存储介质、电子设备
CN111292821A (zh) * 2020-01-21 2020-06-16 上海联影智能医疗科技有限公司 一种医学诊疗系统
CN111581969A (zh) * 2020-05-08 2020-08-25 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111709233A (zh) * 2020-05-27 2020-09-25 西安交通大学 基于多注意力卷积神经网络的智能导诊方法及系统
CN111933281A (zh) * 2020-09-30 2020-11-13 平安科技(深圳)有限公司 一种疾病分型的确定系统、方法、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297642A1 (en) * 2009-02-10 2014-10-02 Ayasdi, Inc. Systems and methods for mapping patient data from mobile devices for treatment assistance
US20180121759A1 (en) * 2016-10-28 2018-05-03 International Business Machines Corporation Simultaneous feature extraction and dictionary learning using deep learning architectures for characterization of images of heterogeneous tissue samples
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN109935336A (zh) * 2019-01-15 2019-06-25 北京思普科软件股份有限公司 一种儿童呼吸科疾病的智能辅助诊断方法及诊断系统
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN111145909A (zh) * 2019-11-29 2020-05-12 泰康保险集团股份有限公司 诊疗数据处理方法与装置、存储介质、电子设备
CN111292821A (zh) * 2020-01-21 2020-06-16 上海联影智能医疗科技有限公司 一种医学诊疗系统
CN111581969A (zh) * 2020-05-08 2020-08-25 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111709233A (zh) * 2020-05-27 2020-09-25 西安交通大学 基于多注意力卷积神经网络的智能导诊方法及系统
CN111933281A (zh) * 2020-09-30 2020-11-13 平安科技(深圳)有限公司 一种疾病分型的确定系统、方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113081025A (zh) * 2021-03-10 2021-07-09 华中科技大学 一种基于肺音的新冠肺炎智能诊断系统和装置
CN113096756A (zh) * 2021-04-26 2021-07-09 安徽科大讯飞医疗信息技术有限公司 病情演变分类方法、装置、电子设备和存储介质
CN113096756B (zh) * 2021-04-26 2023-12-22 讯飞医疗科技股份有限公司 病情演变分类方法、装置、电子设备和存储介质
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113704415A (zh) * 2021-09-09 2021-11-26 北京邮电大学 医学文本的向量表示生成方法和装置
CN113704415B (zh) * 2021-09-09 2023-05-23 北京邮电大学 医学文本的向量表示生成方法和装置

Also Published As

Publication number Publication date
CN112420192B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN112420192B (zh) 融合多维诊疗信息的疾病分型方法及相关设备
Hassantabar et al. CovidDeep: SARS-CoV-2/COVID-19 test based on wearable medical sensors and efficient neural networks
RU2703679C2 (ru) Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов
Alaa et al. Personalized risk scoring for critical care prognosis using mixtures of gaussian processes
Huang et al. A clinical decision support framework for heterogeneous data sources
US8949079B2 (en) Patient data mining
CN110459320A (zh) 一种基于知识图谱的辅助诊疗系统
CN106934235A (zh) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN111048167A (zh) 一种层级式病例结构化方法及系统
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
Fakhfakh et al. ProgNet: Covid-19 prognosis using recurrent and convolutional neural networks
CN109213871A (zh) 患者信息知识图谱构建方法、可读存储介质和终端
WO2023155441A1 (zh) 医疗资源推荐方法、装置、设备及存储介质
CN113724815A (zh) 基于决策分群模型的信息推送方法及装置
Chadaga et al. Predicting cervical cancer biopsy results using demographic and epidemiological parameters: A custom stacked ensemble machine learning approach
CN112542242A (zh) 数据转换/症状评分
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
Nallabasannagari et al. All data inclusive, deep learning models to predict critical events in the medical information mart for intensive care iii database (mimic iii)
Yuan et al. Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification
CN112349367B (zh) 一种生成仿真病历的方法、装置、电子设备及存储介质
CN113688205A (zh) 一种基于深度学习的疾病检测方法
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN116383413B (zh) 基于医疗数据提取的知识图谱更新方法和系统
Tripathy et al. Innovative classification, regression model for predicting various diseases
CN115938593A (zh) 病历信息的处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant