CN111581969B - 医疗术语向量表示方法、装置、存储介质及电子设备 - Google Patents

医疗术语向量表示方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111581969B
CN111581969B CN202010382168.9A CN202010382168A CN111581969B CN 111581969 B CN111581969 B CN 111581969B CN 202010382168 A CN202010382168 A CN 202010382168A CN 111581969 B CN111581969 B CN 111581969B
Authority
CN
China
Prior art keywords
medical
terms
term
relationship
medical terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010382168.9A
Other languages
English (en)
Other versions
CN111581969A (zh
Inventor
焦增涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202010382168.9A priority Critical patent/CN111581969B/zh
Publication of CN111581969A publication Critical patent/CN111581969A/zh
Application granted granted Critical
Publication of CN111581969B publication Critical patent/CN111581969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本公开的实施例提供了一种医疗术语向量表示方法、装置、存储介质及电子设备。该方法包括:从病历数据中提取多个医疗术语;确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。不需要人工标注文本,充分利用医疗术语之间的关系以及图卷积模型对医疗术语进行向量表示,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。

Description

医疗术语向量表示方法、装置、存储介质及电子设备
技术领域
本公开涉及计算机技术以及信息处理技术领域,具体而言,涉及一种医疗术语向量表示方法、装置、存储介质及电子设备。
背景技术
知识向量表示方法又称知识嵌入embedding表示方法,可以将真实世界中的知识信息,通过一定算法,表示成一维向量的方法。在自然语言处理、图像处理等技术领域,知识嵌入表示一类重要的学习技术,可以将无结构化的、半结构化的知识表示成维度对齐的向量,可以作为后续机器学习任务的输入,参与模型训练。
目前,在医疗领域,各种基于病历文本的人工智能模型,都是以医疗数据的embedding向量表示作为模型的输入,因而如何生成医疗数据的向量表示一个热点问题。相关技术中的生成数据的向量的表示方法存在着生成的向量不准确的问题。
因此,需要一种新的医疗术语向量表示的方法、装置、存储介质及电子设备,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供一种医疗术语向量表示的方法、装置、存储介质及电子设备,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种医疗术语向量表示方法,其中,所述方法包括:从病历数据中提取多个医疗术语;确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。
在本公开的一些示例性实施例中,基于前述方案,确定每一医疗术语与其他医疗术语之间的关系,包括:基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系。
在本公开的一些示例性实施例中,基于前述方案,基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系,包括:基于所述病历数据中每一医疗术语与任一其他医疗术语同时出现以及单独出现的频率确定每一医疗术语与任一医疗术语的优势比,以基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系。
在本公开的一些示例性实施例中,基于前述方案,根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图,包括:确定每一医疗术语与其他医疗术语的关系占所述每一医疗术语的所有关系的权重;提取出权重超过阈值的每一医疗术语与其他医疗术语的关系;基于所述提取出的权重超过阈值的每一医疗术语与其他医疗术语的关系生成网络拓扑图。
在本公开的一些示例性实施例中,基于前述方案,从病历数据中提取多个医疗术语,包括:从病历数据获取多个记录表;基于记录表的目标字段与医疗术语的类别的对应关系,从每个记录表的目标字段中提取对应的类别的医疗术语,以获取多个医疗术语。
在本公开的一些示例性实施例中,基于前述方案,根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量,包括:基于所述图卷积模型在所述网络拓扑图中提取每一医疗术语的相关医疗术语,生成每一医疗术语的向量。
在本公开的一些示例性实施例中,基于前述方案,所述方法还包括:展示所述网络拓扑图,其中,基于每一医疗术语与其他医疗术语的关系,以不同边长表示每一医疗术语与其他医疗术语的边,以及以相同颜色表示相同类别的医疗术语。
根据本公开实施例的一个方面,提供了一种医疗术语向量表示装置,其中,所述装置包括:提取模块,配置为从病历数据中提取多个医疗术语;生成模块,配置为确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;确定模块,配置为根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。
在本公开的一些示例性实施例中,基于前述方案,所述生成模块,配置为基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系。
在本公开的一些示例性实施例中,基于前述方案,所述生成模块,配置为基于所述病历数据中每一医疗术语与任一其他医疗术语同时出现以及单独出现的频率确定每一医疗术语与任一医疗术语的优势比,以基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系。
在本公开的一些示例性实施例中,基于前述方案,所述生成模块,包括:确定单元,配置为确定每一医疗术语与其他医疗术语的关系占所述每一医疗术语的所有关系的权重;提取单元,配置为提取出权重超过阈值的每一医疗术语与其他医疗术语的关系;生成单元,配置为基于所述提取出的权重超过阈值的每一医疗术语与其他医疗术语的关系生成网络拓扑图。
在本公开的一些示例性实施例中,基于前述方案,所述提取模块,配置为从病历数据获取多个记录表;基于记录表的目标字段与医疗术语的类别的对应关系,从每个记录表的目标字段中提取对应的类别的医疗术语,以获取多个医疗术语。
在本公开的一些示例性实施例中,基于前述方案,所述确定模块,配置为基于所述图卷积模型在所述网络拓扑图中提取每一医疗术语的相关医疗术语,生成每一医疗术语的向量。
在本公开的一些示例性实施例中,基于前述方案,所述装置还包括:展示模块,配置为展示所述网络拓扑图,其中,基于每一医疗术语与其他医疗术语的关系,以不同边长表示每一医疗术语与其他医疗术语的边,以及以相同颜色表示相同类别的医疗术语。
根据本公开实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述实施例中所述的方法。
根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的方法。
本发明实施例中,从病历数据中提取多个医疗术语;确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。不需要人工标注文本,充分利用医疗术语之间的关系以及图卷积模型对医疗术语进行向量表示,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本公开的一个实施例的医疗术语向量表示方法的流程图;
图2示意性示出了根据本公开的一个实施例的网络拓扑图;
图3示意性示出了根据本公开的一个实施例的展示的简略的网络拓扑图;
图4示意性示出了根据本公开的另一个实施例的医疗术语向量表示方法的流程图;
图5示意性示出了根据图3的网络拓扑图生成的网络拓扑图;
图6示意性示出了根据本公开的一实施例的医疗术语向量表示装置的框图;
图7示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
相关技术中提出一些生成数据的向量表示的方法,如:
第一类方法:利用人工方法或词表挖掘方法收集医学术语词表针对特定文本是否出现,构造独热码one-hot向量表示。
第二类方法:通过大量文本的预分词结果,使用基于上下文的共现信息(以一定频率共现于数据中的信息),训练词向量。这也是目前比较热门的一个研究领域,包括词向量表示Word2Vec算法、神经网络语言算法NNLM、新型深度语境化词表征算法ELMo等。
第三类方法:基于知识图谱的平移向量算法TransE,可以学习知识图谱中实体的向量表示,这也是近年来一个比较热门的一个研究领域。
但是,相关技术中提出的生成数据的向量表示的方法存在以下问题:
1、针对第一类方法,one hot向量只能表示信息的有无,对同义词和近义词无法区分。如,症状“发烧”和“高烧”作为两个不同的词,用one-hot向量会得出完全不同的结果。
2、针对第二类方法:经典的自然语言处理NLP思路,得出的向量表示可以最大程度的反应文本语料中词的共现信息。但是该技术有两个缺陷:
(1)、对文本分词比较敏感,医学术语中很多分词并不是很稳定,甚至嵌套。如“左乳癌根治术”,片段中既有手术也有诊断,可以分为很多的文本序列分词,基于不同的分词可以得到不同的结果。
(2)仅能考虑一段文本的上下文,而在医疗领域,真实病历是由不同文本的多段独立的文本组成,这些不同文本之间的共现信息无法利用。
3、针对第三类方法,需要基于一个已经构建的知识图谱才能进行transE训练。而通常情况下,一个完备的知识图谱是很难构建的,大部分医疗知识图谱都是基于特定应用构建。
基于上述相关技术中的存在的生成的向量不准确的问题,本发明实施例提供一种医学术语向量表示方法,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。
图1示意性示出了根据本公开的一个实施例的医疗术语向量表示方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如,服务器或终端设备,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
如图1所示,本公开实施例提供的医疗术语向量表示的方法可以包括以下步骤:
在步骤S110中,从病历中提取多个医疗术语。
本公开实施例中,病历可以是各医院提供的大量的历史病历(包括电子病历以及手写病历),每份病历可以包括多个记录表,如,入院记录表、出院记录表、检验记录表、手术记录表、药品医嘱记录表等。
本公开实施例中,预设置有记录表的目标字段与医疗术语的类别的对应关系,在从病历中获取到每份病历对应的多个记录表后,基于该记录表的目标字段与医疗术语的类别的对应关系,从每个记录表中提取到对应的类别的医疗术语。
需要指出的是,记录表中的不同字段可以对应于不同类别的医疗术语,从而一个记录表中可以提取多种类别的医疗术语,而且,提取的每种类型的医疗术语可以包括多个医疗术语。
表1为本发明实施例提供的部分医疗术语的类别与记录表的目标字段的对应关系。
医疗术语的类别 记录表的目标字段
症状 入院记录表->主诉
诊断 出院记录表->出院诊断(顺位第一)
检验 检验记录表->检验子项目(异常表示)
手术 手术记录表->手术名
药品 药品医嘱记录表->药品通用名
是否吸烟 入院记录表->个人史
表1
如表1所示,入院记录表的不同字段(主诉以及个人史)可以对应不同的医疗术语的类别(症状以及是否吸烟),而且,对于药品医嘱记录表可能对应于多种药品。
需要说明的是,医疗术语的类别可以自由扩展,如由用户自定义设置,在增加新的的医疗术语的类别时,需要基于数据的可靠程度、精准程度以及更新及时程度设置该医疗术语对应的记录表的目标字段,并将该对应关系添加到预设置的记录表的目标字段与医疗术语的类别的对应关系中。
还需要说明的是,如表1所示,在出院记录表的出院诊断的字段中,取顺位第一的出院诊断提取对应的诊断的类别。这是由于各记录数据的可靠程度、精准程度、更新及时程度是不一样的,如,出院记录表中的出院诊断中可能包括多种诊断,顺位第一的诊断通常是最主要的诊断,因此,设置出院记录表中的出院诊断的顺位第一的字段提取诊断类型的医疗术语。
本发明实施例中,基于数据的可靠程度、精准程度以及更新及时程度设置提取医疗术语的类别的记录表的目标字段,提升了提取的医疗术语的可靠程度、精准程度以及更新的及时性,为后续医疗术语的向量表示提供了准确的源数据,提升了医疗术语向量表示的准确性。
在步骤S120中,确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图。
本公开实施例中,同一份病历中不同表的数据之间具有天然的关系,这些关系都是大量医生在临床过程中输出的,有很强的知识性,本发明实施例中可以基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系,衡量这种关系的强度。但本发明并不限于此,例如,还可以基于每一医疗术语与其他医疗术语之间的互信息、期望交叉熵以及条件概率确定每一医疗术语与其他医疗术语的关系。其中,互信息(Mutual Information)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。期望交叉熵,是一种常用的特征选择的算法,以文本分类为例,期望交叉熵用来度量一个词对于整体的重要程度。条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。
例如,同一份病历中的多个医疗术语(如:高血脂、高血压)之间具有关系,本发明实施例利用大量的病历中的这些医疗术语的优势比确定每一医疗术语与其他医疗术语的关系。
本发明实施例中,在确定每一医疗术语与其他医疗术语的关系后,可以以每个医疗术语为顶点,以每一医疗术语与其他医疗术语之间的关系为边,生成网络拓扑图。图2示意性示出了根据本公开的一个实施例的网络拓扑图。如图2所示,图中每个顶点都表示一个医疗术语,其中,各顶点之间连接的边表示各顶点之间的关系,当两个顶点之间的边越长,表示两个顶点之间的关系越弱。当两个顶点之间的边越短,表示两个顶点之间的关系越强。
本发明实施例,在生成网络拓扑图后,可以对网络拓扑图进行展示,在进行展示时,可以基于每一医疗术语与其他医疗术语的关系,以不同边长表示每一医疗术语与其他医疗术语的边,以及以相同颜色表示相同类别的医疗术语。
图3示意性示出了根据本公开的一个实施例的展示的简略的网络拓扑图。图3中每个顶点都表示一个医疗术语,其中,各顶点之间连接的边表示各顶点之间的关系,当两个顶点之间的边越长,表示两个顶点之间的关系越弱,如医疗术语A和D。当两个顶点之间的边越短,表示两个顶点之间的关系越强,如医疗术语A和B。
需要指出的是,同一类型的医疗术语可以以相同的颜色表示,如将医疗术语A和医疗术语B以相同的颜色展示。
需要说明的是,本发明实施例中仅以5个医疗术语为例展示网络拓扑图,实际上本发明实施例网络拓扑图中可以包括提取出的所有医疗术语以及其中每一医疗术语与其他医疗术语的关系。
本发明实施例中,基于每一医疗术语与其他医疗术语的关系,以不同边长表示每一医疗术语与其他医疗术语的边,以及以相同颜色表示相同类别的医疗术语,提升了网络拓扑图的可视化效果。
在步骤S130中,根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。
需要说明的是,在深度学习领域,卷积神经网络(Convolutional NeuralNetworks,CNN)在计算机视觉、自然语言程序学(Neuro-Linguistic Programming,NLP)等任务中都实现了很好的效果,这类任务处理的都是欧式空间数据,结构很规则。而本发明实施例中产生的医疗术语网络拓扑图是一种不规则的非欧式空间数据,因此传统的CNN等模型难以提取特征。本发明实施例中利用图卷积模型来解决这个问题。
图卷积(Graph Convolutional Network,GCN)模型是一类用于图书局的神经网络架构,本质目的就是用来提取拓扑图的空间特征,提取拓扑图空间特征的包括以下两种较为主流的方式:
1、空域vertex domain(spatial domain),这是非常直观的提取拓扑图上的空间特征一种方式,把每个顶点相邻的邻近顶点找出来,并基于此,提取出网络拓扑图的空间特征。
2、频域spectral domain,借助图谱的理论来实现拓扑图上的卷积操作,并基于此,提取出网络拓扑图的空间特征。
本发明实施例中,图卷积模型还可以替换为深度游走DeepWalk模型、边LINE模型以及节点向量模型node2vec中的至少一种模型。
其中,深度游走DeepWalk主要分为随机游走和生成表示向量两个部分。首先利用随机游走算法从图中提取一些顶点序列,然后借助自然语言处理的思路,将生产的顶点序列看做有单词组成的句子,所有的序列可以看做一个大的语料库,最后利用自然语言处理工具将每一个顶点表示为向量,该向量包括多个维度。
边LINE模型将一个大型网络中的节点根据其关系的疏密程度映射到向量空间中去,是联系紧密的节点被投射到相似的位置中去。
节点向量模型node2vec类似于深度游走,主要的区别在于改进了随机游走的策略,定义了两个参数p和q,在广度优先BFS和深度优先DFS中达到一个平衡,同时考虑到局部和宏观的信息,并且具有很高的适应性。
本发明实施例中,在生成网络拓扑图后,可以基于该图卷积模型在上述网络拓扑图中提取每一医疗术语的相关医疗术语,生成每一医疗术语的向量。
本发明实施例中,每一医疗术语的相关医疗术语是指与该医疗术语在网络拓扑图中存在关系的医疗术语。在生成该医疗术语的向量时,可以利用独热码的形式表示该医疗术语的向量,例如,某医疗术语与该医疗术语存在关系,则该医疗术语的向量中该某医疗术语对应的比特为1,若某医疗术语与该医疗术语不存在关系,则该医疗术语的向量中该某医疗术语对应的比特为0,即相关医疗术语的比特设置为1,不相关的医疗术语的比特设置为0。
例如,图3中的网络拓扑图中共包括5个医疗术语,基于图卷积模型可以提取出每一医疗术语的相关医疗术语,如医疗术语A的相关医疗术语B、C、D,以及与A不存在关系的E,基于此,可以生成医疗术语A的向量,其中,与B、C、D对应的比特均设置为1,与E对应的比特设置为0。
本发明实施例中,从病历数据中提取多个医疗术语;确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。不需要人工标注文本,充分利用医疗术语之间的关系以及图卷积模型对医疗术语进行向量表示,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。
下面结合具体的实施例,对本发明提出的医疗术语向量表示方法进行进一步的说明。
在一个实施例中,在确定每一医疗术语与其他医疗术语的关系后,考虑到数据质量问题难以完全规避,本发明实施例中可以对偶然噪声进行清除。图4示意性示出了根据本公开的另一个实施例的医疗术语向量表示方法的流程图。在从病历中提取多个医疗术语,以及确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图后,如图3所示,所述方法可以包括但不限于以下步骤:
在S410中,确定每一医疗术语与其他医疗术语的关系占所述每一医疗术语的所有关系的权重。
例如,以图3中网络拓扑图为例,假设医疗术语A与B的关系值为5,医疗术语A与C的关系值为10,医疗术语A与D的关系值为1。则A与B的关系所占A与所有其他医疗术语的关系的权重为:5/(5+10+1)=5/16,A与C的关系所占A与所有其他医疗术语的关系的权重为:10/(5+10+1)=10/16。则A与D的关系所占A与所有其他医疗术语的关系的权重为:1/(5+10+1)=1/16。
在S420中,提取出权重超过阈值的每一医疗术语与其他医疗术语的关系。
例如,设置阈值为0.1,则A与D的关系的权重小于该阈值,被删除,提取出A与B以及A与C的关系。在S430中,基于所述提取出的权重超过阈值的每一医疗术语与其他医疗术语的关系生成网络拓扑图。
图5示意性示出了根据图3的网络拓扑图生成的网络拓扑图。如图5所示,其与图3相比,删除了A与D的关系。
需要指出的是,本发明实施例中虽然提取权重超过阈值的每一医疗术语与其他医疗术语的关系生成网络拓扑图,相当于仅删除了权重不超过阈值的医疗术语之间的关系,并没有删除医疗术语,而且,针对每一医疗术语,由于其与其他医疗术语的关系总和不同,因此,可能会存在两个医疗术语之间的关系,在一个医疗术语的权重需要提取,在另一个医疗术语的权重不需要提取(相当于是删除)的情况。本发明实施例中设置此时该关系不需要提取。
例如,针对两个医疗术语,假设为A和B,其中A和B的关系与B和A的关系相同,但是,A与其他医疗术语的关系的总和,与B与其他医疗术语的关系的总和可能不同,若对于A而言,其与B的关系的权重超过阈值,而对于B而言,其与A的关系未超过权重阈值,这种情况下,通常是将A与B的关系删除。
需要说明的是,本发明实施例中可以利用基于提取出的权重超过阈值的每一医疗术语与其他医疗术语的关系生成的网络拓扑图以及图卷积模型,确定每一医疗术语的向量。
例如,上述示例中,可以利用图卷积模型、A与B关系、A与C的关系以及D与E的关系确定网络拓扑图中每一医疗术语的向量信息,需要说明的是,虽然删除了A与D的关系,但是仍可以基于与D以及E表示A的向量维度的比特。
本发明实施例中,可以基于设置的阈值对每一医疗术语与其他医疗术语的关系进行筛选,从而清除偶然噪声,提升医疗术语向量表示的准确性,也可以为后续进行向量表示时缩减数据计算量,提升医疗术语向量表示的效率。
在一个实施例中,可以利用优势比来确定目标医疗术语与其他医疗术语的关系。同一份电子病历中的数据,在临床的生产过程中具有天然关系。这种关系的强度,可以优势比OR来计算。
在数据统计中,比值比也称优势比,是量化在统计学群体中,如属性A与属性B之间关系强弱方法。例如,如果在统计学群体中每一个个体存在(或不存在)属性A(例如“高血压”),并且存在(或不存在)属性B(例如“高血脂”),在这两个属性被适当定义的情况下,可以形成一个比率,定量描述人群中存在/不存在“A”(高血压)和存在/不存在“B”(“高血脂”)的关系。一般OR值为1,表示该因素对疾病的发生不起作用,即与疾病的危险度无关(无相关);OR值大于1,表示该因素是一个危险因素,即使疾病的危险度增加(正相关);OR值小于1,表示该因素是一个保护因素,即使疾病的危险度降低(负相关)。
例如,表2为本发明实施例提供的高血脂症(icd编码为E78.501)与高血压(icd编码为I10xx02)的关系的数据表:
高血脂症 无高血脂症
高血压 9(A) 360(B) 369(n<sub>1</sub>)
无高血压 45(C) 9959(D) 10004(n<sub>2</sub>)
54 10319 10373(N)
表2
如表2所示,病历共10373份,其中,既有高血脂症又有高血压的病历共9份,用A表示,有高血脂症无高血压的病历共45份,用C表示,无高血脂症有高血压的病历共360份,用B表示,无高血脂症也无高血压的病历共9959份,用D表示。
基于表2所示的数据表,可以得到优势比为:
Figure BDA0002482417820000131
其中,高血脂症与高血压的关系值为5.53。
上述实施例中,利用优势比确定医疗术语之间的关系,提升了确定的医疗术语之间关系的准确性,在一定程度上减少噪声的干扰,更科学的确定关系的强弱程度。
以下介绍本公开的装置实施例,可以用于执行本公开上述的药品信息标准化的方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的药品信息标准化的方法的实施例。
图6示意性示出了根据本公开的一实施例的医疗术语向量表示装置的框图。参照图6所示,本公开的一个实施例的医疗术语向量表示装置600,可以包括:提取模块610、生成模块620、确定模块630。
提取模块610,配置为从病历数据中提取多个医疗术语。
生成模块620,配置为确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图。
确定模块630,配置为根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。
本发明实施例中,从病历数据中提取多个医疗术语;确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。不需要人工标注文本,充分利用医疗术语之间的关系以及图卷积模型对医疗术语进行向量表示,便捷的实现对医疗术语的多维、全面的向量表示,提升医疗术语向量表示的准确性。
图7示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元也可以设置在处理器中。其中,这些模块和/或单元的名称在某种情况下并不构成对该模块和/或单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图2或图3或图4所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种医疗术语向量表示方法,其特征在于,所述方法包括:
从病历数据中提取多个医疗术语;
确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;
根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量;
其中,所述根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图,包括:
确定每一医疗术语与其他医疗术语的关系占所述每一医疗术语的所有关系的权重;提取出权重超过阈值的每一医疗术语与其他医疗术语的关系;基于所述提取出的权重超过阈值的每一医疗术语与其他医疗术语的关系生成网络拓扑图。
2.如权利要求1所述的方法,其特征在于,确定每一医疗术语与其他医疗术语之间的关系,包括:
基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系。
3.如权利要求2所述的方法,其特征在于,基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系,包括:
基于所述病历数据中每一医疗术语与任一其他医疗术语同时出现以及单独出现的频率确定每一医疗术语与任一医疗术语的优势比,以基于每一医疗术语与其他医疗术语的优势比确定每一医疗术语与其他医疗术语之间的关系。
4.如权利要求1所述的方法,其特征在于,从病历数据中提取多个医疗术语,包括:
从病历数据获取多个记录表;
基于记录表的目标字段与医疗术语的类别的对应关系,从每个记录表的目标字段中提取对应的类别的医疗术语,以获取多个医疗术语。
5.如权利要求1所述的方法,其特征在于,根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量,包括:
基于所述图卷积模型在所述网络拓扑图中提取每一医疗术语的相关医疗术语,生成每一医疗术语的向量。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:展示所述网络拓扑图,其中,基于每一医疗术语与其他医疗术语的关系,以不同边长表示每一医疗术语与其他医疗术语的边,以及以相同颜色表示相同类别的医疗术语。
7.一种医疗术语向量表示装置,其特征在于,所述装置包括:
提取模块,配置为从病历数据中提取多个医疗术语;
生成模块,配置为确定每一医疗术语与其他医疗术语之间的关系,并根据每一医疗术语与其他医疗术语之间的关系生成网络拓扑图;
其中,所述生成模块还用于:确定每一医疗术语与其他医疗术语的关系占所述每一医疗术语的所有关系的权重;提取出权重超过阈值的每一医疗术语与其他医疗术语的关系;基于所述提取出的权重超过阈值的每一医疗术语与其他医疗术语的关系生成网络拓扑图;
确定模块,配置为根据图卷积模型和所述网络拓扑图,确定每一所述医疗术语的向量。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
CN202010382168.9A 2020-05-08 2020-05-08 医疗术语向量表示方法、装置、存储介质及电子设备 Active CN111581969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010382168.9A CN111581969B (zh) 2020-05-08 2020-05-08 医疗术语向量表示方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010382168.9A CN111581969B (zh) 2020-05-08 2020-05-08 医疗术语向量表示方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111581969A CN111581969A (zh) 2020-08-25
CN111581969B true CN111581969B (zh) 2023-03-31

Family

ID=72115351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010382168.9A Active CN111581969B (zh) 2020-05-08 2020-05-08 医疗术语向量表示方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111581969B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509640B (zh) * 2020-10-22 2022-08-19 复旦大学 基因本体项名称生成方法、装置及存储介质
CN112420192B (zh) * 2020-11-26 2023-12-15 清华大学 融合多维诊疗信息的疾病分型方法及相关设备
CN112148882B (zh) * 2020-11-27 2021-09-10 北京惠及智医科技有限公司 病历文本处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2017137801A (ru) * 2017-12-29 2019-07-01 Общество С Ограниченной Ответственностью "Интеллоджик" Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062198B2 (en) * 2016-10-31 2021-07-13 Microsoft Technology Licensing, Llc Feature vector based recommender system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2017137801A (ru) * 2017-12-29 2019-07-01 Общество С Ограниченной Ответственностью "Интеллоджик" Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法

Also Published As

Publication number Publication date
CN111581969A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN110993081B (zh) 一种医生在线推荐方法及系统
CN111581969B (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
US9165116B2 (en) Patient data mining
US8554742B2 (en) System and process for record duplication analysis
EP3567605A1 (en) Structured report data from a medical text report
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
JP7068106B2 (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN104699939A (zh) 组合知识和数据驱动的洞察的患者风险分层的方法和系统
Bahja et al. Identifying patient experience from online resources via sentiment analysis and topic modelling
CN110134951A (zh) 一种分析文本数据潜在主题短语的方法及系统
CN116383413B (zh) 基于医疗数据提取的知识图谱更新方法和系统
CN113569018A (zh) 问答对挖掘方法及装置
JP2023536773A (ja) テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20140244293A1 (en) Method and system for propagating labels to patient encounter data
CN115438040A (zh) 一种病理档案信息管理方法及系统
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN117112866A (zh) 基于图表示学习的社交网络节点迁移可视化方法及系统
US20210271637A1 (en) Creating descriptors for business analytics applications
US10180938B2 (en) Assisted free form decision definition using rules vocabulary
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
CN110335679B (zh) 一种基于多粒度图模式挖掘的生存预测方法及系统
CN115715418A (zh) 疾病风险预测方法、装置、存储介质及电子设备
JP2020017094A (ja) 分析方法、分析装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant