CN109522552A - 一种医疗信息的归一化方法、装置、介质及电子设备 - Google Patents

一种医疗信息的归一化方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN109522552A
CN109522552A CN201811331341.1A CN201811331341A CN109522552A CN 109522552 A CN109522552 A CN 109522552A CN 201811331341 A CN201811331341 A CN 201811331341A CN 109522552 A CN109522552 A CN 109522552A
Authority
CN
China
Prior art keywords
medical
text
information
library
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811331341.1A
Other languages
English (en)
Other versions
CN109522552B (zh
Inventor
王琛
季思伟
张黎
刘学梁
刘旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Xinkai Life Technology Co Ltd
Tianjin Happy Life Technology Co Ltd
Original Assignee
Tianjin Xinkai Life Technology Co Ltd
Tianjin Happy Life Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Xinkai Life Technology Co Ltd, Tianjin Happy Life Technology Co Ltd filed Critical Tianjin Xinkai Life Technology Co Ltd
Priority to CN201811331341.1A priority Critical patent/CN109522552B/zh
Publication of CN109522552A publication Critical patent/CN109522552A/zh
Application granted granted Critical
Publication of CN109522552B publication Critical patent/CN109522552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例提供了一种医疗信息的归一化方法,该方法包括:将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。本发明实施例的技术方案可以通过少量人工标注获取核心语义中的逻辑关系,并与ICD‑9标准编码手术操作名称产生映射,从而可以通过算法批量处理自然文本描述的医疗信息,减少了人工录入归一化处理的成本和错误率,大幅提高了医疗信息的可读性和可用性。

Description

一种医疗信息的归一化方法、装置、介质及电子设备
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种医疗信息的归一化方法、装置、介质及电子设备。
背景技术
随着医疗系统信息化建立和完善,越来越多的医疗数据由人工记录的方式转为电子化录入,对于病历、医嘱、护理文书、检查报告等临床信息主要由医疗人员通过自然语言的方式书写而成,信息结构较为复杂,如何对大量这些信息进行处理、分析和挖掘是医疗信息化建设的一个重要问题。医疗数据中手术信息的分析处理并进行合理归一是一个较为复杂的问题,其中涉及解剖结构、组织结构、手术方式、手术范围、手术目的、疾病名称、入路等,如何将其中有效的信息识别出来并按照ICD-9的标准值进行归一化处理,是需解决的问题,
目前的技术方案是在医生填写具体手术名称的同事要填写ICD-9标准名称,或者由病案室工作人员根据医生填写内容进行手动归一化处理;但是上述现有技术方案效率低下、错误率高,并且耗费了大量人力物力。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种医疗信息的归一化方法,进而至少在一定程度上克服现有方案需要通过人工手动进行医疗数据的归一化所引起的效率低下、错误率高以及耗费大量人力物力的一个或多个问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种医疗信息的归一化方法,包括:
将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;
将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;
基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。
在本发明的一个实施例中,上述将所获取医疗文本信息的核心语义与预设的文本库进行关联之前,方法还包括:
对医疗文本信息进行分词,获得医疗短文本信息;
将医疗短文本信息中已停用的医疗短文本以及低频医疗短文本滤除,获得过滤后的医疗短文本信息;
对过滤后的医疗短文本信息进行相关性分析,将相似度大于等于预设阈值的医疗短文本进行归并,获得医疗文本信息的核心语义。
在本发明的一个实施例中,上述将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系,包括:
预设的文本库至少包含有知识图谱库词条数据;
将医疗文本信息的核心语义与知识图谱库中的词条进行关联,建立医疗文本信息的核心语义与知识图谱库中对应的词条的第一逻辑映射关系。
在本发明的一个实施例中,上述将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系,包括:
预设的文本库至少包含有知识图谱库词条数据;
将临床版标准词的核心语义中手术操作名称的与知识图谱库中的词条进行关联,建立临床版标准词的核心语义与知识图谱库中对应的词条的第二逻辑映射关系。
在本发明的一个实施例中,上述基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化,包括:
基于预设的标注规则、第一逻辑映射关系以及第二逻辑映射关系,建立医疗文本信息的核心语义与临床版标准词的核心语义中手术操作名称的第三逻辑映射关系;
当获取到待归一化的医疗文本信息后,识别出待归一化的医疗文本信息中的有效信息;
基于第三逻辑映射关系,将有效信息编码为符合临床版标准词的核心语义中手术操作名称格式的标准词。
根据本发明实施例的第二方面,提供一种医疗信息的归一化装置,包括:
第一关联模块,用于将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;
第二关联模块,用于将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;
编码模块,用于基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。
在本发明的一个实施例中,上述装置还包括:
核心语义提取模块,用于对医疗文本信息进行分词,获得医疗短文本信息;将医疗短文本信息中已停用的医疗短文本以及低频医疗短文本滤除,获得过滤后的医疗短文本信息;对过滤后的医疗短文本信息进行相关性分析,将相似度大于等于预设阈值的医疗短文本进行归并,获得医疗文本信息的核心语义。
在本发明的一个实施例中,上述第一关联模块具体用于:
预设的文本库至少包含有知识图谱库词条数据;
将医疗文本信息的核心语义与知识图谱库中的词条进行关联,建立医疗文本信息的核心语义与知识图谱库中对应的词条的第一逻辑映射关系。
在本发明的一个实施例中,上述第二关联模块具体用于:
预设的文本库至少包含有知识图谱库词条数据;
将临床版标准词的核心语义中手术操作名称的与知识图谱库中的词条进行关联,建立临床版标准词的核心语义与知识图谱库中对应的词条的第二逻辑映射关系。
在本发明的一个实施例中,上述编码模块具体用于:
基于预设的标注规则、第一逻辑映射关系以及第二逻辑映射关系,建立医疗文本信息的核心语义与临床版标准词的核心语义中手术操作名称的第三逻辑映射关系;
当获取到待归一化的医疗文本信息后,识别出待归一化的医疗文本信息中的有效信息;
基于第三逻辑映射关系,将有效信息编码为符合临床版标准词的核心语义中手术操作名称格式的标准词。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中第一方面的医疗信息的归一化方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如上述实施例中第一方面的医疗信息的归一化方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例提供了一种医疗信息的归一化方法,该方法包括:将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。本发明实施例的技术方案可以通过少量人工标注获取核心语义中的逻辑关系,并与ICD-9标准编码手术操作名称产生映射,从而可以通过算法批量处理自然文本描述的医疗信息,减少了人工录入归一化处理的成本和错误率,大幅提高了医疗信息的可读性和可用性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明的一个实施例语义识别方法的流程图。
图2示意性示出了根据本发明的一个实施例的医疗信息的归一化装置的框图。
图3示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性示出了根据本发明的一个实施例语义识别方法的流程图。
参照图1所示,根据本发明的一个实施例的语义识别方法,包括以下步骤:
步骤S110,将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;
步骤S120,将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;
步骤S130,基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。
本发明实施例提供了一种医疗信息的归一化方法,该方法包括:将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。本发明实施例的技术方案可以通过少量人工标注获取核心语义中的逻辑关系,并与ICD-9标准编码手术操作名称产生映射,从而可以通过算法批量处理自然文本描述的医疗信息,减少了人工录入归一化处理的成本和错误率,大幅提高了医疗信息的可读性和可用性。以下对图1中所示的各个步骤的实现细节进行详细阐述:
在步骤S110中,将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系。
在本发明的一个实施例中,将所获取医疗文本信息的核心语义与预设的文本库进行关联之前,还包括:对医疗文本信息进行分词,获得医疗短文本信息;将医疗短文本信息中已停用的医疗短文本以及低频医疗短文本滤除,获得过滤后的医疗短文本信息;对过滤后的医疗短文本信息进行相关性分析,将相似度大于等于预设阈值的医疗短文本进行归并,获得医疗文本信息的核心语义。
在本发明的一个实施例中,对医疗文本信息进行分词,所使用的分词算法可以是:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法和基于统计的分词方法;其中,
基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息;
基于统计的分词方法对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
在本发明是一个实施例中,基于前述方案,通过正则匹配,将获得医疗短文本信息中没有信息含量的短文本数据去除,输出具有信息含量的医疗短文本信息,在实际应用中,由于获得的医疗文本信息的维度较高,所提取出的医疗短文本信息有许多非相关的特征词项,因此,将所提取出的医疗短文本信息与预设的停用词表进行匹配,去除掉非相关的特征词项,其中,停用词表可以进行定制,以满足实际需求;另一方案,将所提取出的医疗短文本信息中的低频词项删除,以降低特征空间的维度,便于后续处理。
在本发明的一个实施例中,采用特征相关性分析,得到过滤后医疗短文本信息的特征向量,计算各医疗短文本信息之间的相似度,并将其作为医疗短文本信息之间边的权重,若两个医疗短文本信息之间不存在相似度,则意味着它们两者之间不存在对应的边。
在本发明的一个实施例中,基于前述方案,将相关性分析后所确定出的近义词、同义词,或有相同属性的词项进行归并,提炼出核心语义。
在本发明是一个实施例中,基于前述方案,将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系,包括:预设的文本库至少包含有知识图谱库词条数据;将医疗文本信息的核心语义与知识图谱库中的词条进行关联,建立医疗文本信息的核心语义与知识图谱库中对应的词条的第一逻辑映射关系。
在步骤S120中,将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系。
在本发明是一个实施例中,将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系,包括:预设的文本库至少包含有知识图谱库词条数据;将临床版标准词的核心语义中手术操作名称的与知识图谱库中的词条进行关联,建立临床版标准词的核心语义与知识图谱库中对应的词条的第二逻辑映射关系。
在本发明的一个实施例中,基于前述方案,预设的文本库至少包含有知识图谱库和ICD-9标准编码手术操作名称库;将核心语义与知识图谱库中的词条进行关联,建立核心语义与知识图谱库中对应的词条的映射关系;将知识图谱库的词条与ICD-9标准编码手术操作名称库中的手术操作名称进行关联,建立知识图谱库中词条与ICD-9标准编码手术操作名称库中对应的手术操作名称的映射关系;通过预设的标注规则,建立核心语义与知识图谱库中的词条和ICD-9标准编码手术操作名称库中的手术名称的逻辑映射关系。
在本发明的一个实施例中,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
在本发明的一个实施例中,ICD-9标准编码手术操作名称库是一个医学操作的类目表,其目的是根据手术操作分类的原则,将医师对统一手术的不同称谓进行标准化,翻译成标准的编码,可以用于统计、数据交流等工作,而手术操作名称的各个组成成分都有可能影响到编码,因此,完整、准确的名称对于编码的准确性起到关键的作用,而现有技术中,是通过编码员将医师的语言翻译成标准编码,通过人工进行编码的方式效率低下并且在沟通出现问题的时候,编码员的编码结果并不准确,因此,本发明的一个实施例所提出的医疗信息的归一化方法能够通过少量人工标注获取核心语义中的逻辑关系,并与ICD-9临床版产生映射,从而可以通过算法批量处理自然医疗文本信息的手术名称。减少人工编码处理的成本和错误,从而将大幅提高医疗数据的可读性和可用性。
在步骤S130中,基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。
在本发明的一个实施例中,基于预设的标注规则、第一逻辑映射关系以及第二逻辑映射关系,建立医疗文本信息的核心语义与临床版标准词的核心语义中手术操作名称的第三逻辑映射关系;当获取到待归一化的医疗文本信息后,识别出待归一化的医疗文本信息中的有效信息;基于第三逻辑映射关系,将有效信息编码为符合临床版标准词的核心语义中手术操作名称格式的标准词。
在本发明的一个实施例中,获取待归一化的医疗文本信息;识别出待归一化的医疗文本信息中的有效信息;基于第三逻辑映射关系,将有效信息归一到ICD-9北京临床版的标准词。
在本发明的一个实施例中,获取医师所写的医疗文本信息,从中提取出医疗核心语义,根据已建立好的知识图谱与ICD-9北京临床版的逻辑映射关系,对医疗核心语义按照ICD-9北京临床版的标准进行编码,实现医疗文本信息自动归一到ICD-9北京临床版的标准词。
本发明实施例提供了一种医疗信息的归一化方法,该方法包括:对所获取的医疗文本信息进行结构化,获得医疗文本信息的核心语义;将核心语义与预设的文本库进行关联,建立核心语义与文本库逻辑映射关系;基于逻辑映射关系实现医疗信息的归一化。本发明实施例的技术方案可以通过少量人工标注获取核心语义中的逻辑关系,并与ICD-9标准编码手术操作名称产生映射,从而可以通过算法批量处理自然文本描述的医疗信息,减少了人工录入归一化处理的成本和错误率,大幅提高了医疗信息的可读性和可用性。
以下介绍本发明的装置实施例,可以用于执行本发明上述的医疗信息的归一化方法。
图2示意性示出了根据本发明的一个实施例的医疗信息的归一化装置的框图。
参照图2所示,根据本发明的一个实施例的医疗信息的归一化装置200,包括:第一关联模块201、第二关联模块202、编码模块203;其中,
第一关联模块201,用于将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;
第二关联模块202,用于将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;
编码模块203,用于基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。
在本发明的一个实施例中,上述装置还包括:
核心语义提取模块204,用于对医疗文本信息进行分词,获得医疗短文本信息;将医疗短文本信息中已停用的医疗短文本以及低频医疗短文本滤除,获得过滤后的医疗短文本信息;对过滤后的医疗短文本信息进行相关性分析,将相似度大于等于预设阈值的医疗短文本进行归并,获得医疗文本信息的核心语义。
在本发明的一个实施例中,上述第一关联模块201具体用于:
预设的文本库至少包含有知识图谱库词条数据;
将医疗文本信息的核心语义与知识图谱库中的词条进行关联,建立医疗文本信息的核心语义与知识图谱库中对应的词条的第一逻辑映射关系。
在本发明的一个实施例中,上述第二关联模块202具体用于:
预设的文本库至少包含有知识图谱库词条数据;
将临床版标准词的核心语义中手术操作名称的与知识图谱库中的词条进行关联,建立临床版标准词的核心语义与知识图谱库中对应的词条的第二逻辑映射关系。
在本发明的一个实施例中,上述编码模块203具体用于:
基于预设的标注规则、第一逻辑映射关系以及第二逻辑映射关系,建立医疗文本信息的核心语义与临床版标准词的核心语义中手术操作名称的第三逻辑映射关系;
当获取到待归一化的医疗文本信息后,识别出待归一化的医疗文本信息中的有效信息;
基于第三逻辑映射关系,将有效信息编码为符合临床版标准词的核心语义中手术操作名称格式的标准词。
由于本发明的示例实施例的医疗信息的归一化装置的各个功能模块与上述医疗信息的归一化方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的医疗信息的归一化方法的实施例。
下面参考图3,其示出了适于用来实现本发明实施例的电子设备的计算机系统300的结构示意图。图3示出的电子设备的计算机系统300仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中的医疗信息的归一化方法。
例如,的电子设备可以实现如图1中所示的:步骤S110,将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立医疗文本信息的核心语义与文本库的第一逻辑映射关系;步骤S120,将预设的临床版标准词的核心语义与预设的文本库进行关联,建立临床版标准词的核心语义与文本库的第二逻辑映射关系;步骤S130,基于第一逻辑映射关系和第二逻辑映射关系实现医疗信息的归一化。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (12)

1.一种医疗信息的归一化方法,其特征在于,包括:
将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立所述医疗文本信息的核心语义与所述文本库的第一逻辑映射关系;
将预设的临床版标准词的核心语义与所述预设的文本库进行关联,建立所述临床版标准词的核心语义与所述文本库的第二逻辑映射关系;
基于所述第一逻辑映射关系和所述第二逻辑映射关系实现医疗信息的归一化。
2.根据权利要求1所述的医疗信息的归一化方法,其特征在于,所述将所获取医疗文本信息的核心语义与预设的文本库进行关联之前,所述方法还包括:
对所述医疗文本信息进行分词,获得医疗短文本信息;
将所述医疗短文本信息中已停用的医疗短文本以及低频医疗短文本滤除,获得过滤后的医疗短文本信息;
对所述过滤后的医疗短文本信息进行相关性分析,将相似度大于等于预设阈值的医疗短文本进行归并,获得所述医疗文本信息的核心语义。
3.根据权利要求1所述的医疗信息的归一化方法,其特征在于,所述将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立所述医疗文本信息的核心语义与所述文本库的第一逻辑映射关系,包括:
所述预设的文本库至少包含有知识图谱库词条数据;
将所述医疗文本信息的核心语义与所述知识图谱库中的词条进行关联,建立所述医疗文本信息的核心语义与所述知识图谱库中对应的词条的第一逻辑映射关系。
4.根据权利要求1所述的医疗信息的归一化方法,其特征在于,所述将预设的临床版标准词的核心语义与所述预设的文本库进行关联,建立所述临床版标准词的核心语义与所述文本库的第二逻辑映射关系,包括:
所述预设的文本库至少包含有知识图谱库词条数据;
将所述临床版标准词的核心语义中手术操作名称的与所述知识图谱库中的词条进行关联,建立所述临床版标准词的核心语义与所述知识图谱库中对应的词条的第二逻辑映射关系。
5.根据权利要求1所述的医疗信息的归一化方法,其特征在于,所述基于所述第一逻辑映射关系和所述第二逻辑映射关系实现医疗信息的归一化,包括:
基于预设的标注规则、所述第一逻辑映射关系以及第二逻辑映射关系,建立所述医疗文本信息的核心语义与临床版标准词的核心语义中手术操作名称的第三逻辑映射关系;
当获取到待归一化的医疗文本信息后,识别出所述待归一化的医疗文本信息中的有效信息;
基于所述第三逻辑映射关系,将所述有效信息编码为符合所述临床版标准词的核心语义中手术操作名称格式的标准词。
6.一种医疗信息的归一化装置,其特征在于,包括:
第一关联模块,用于将所获取医疗文本信息的核心语义与预设的文本库进行关联,建立所述医疗文本信息的核心语义与所述文本库的第一逻辑映射关系;
第二关联模块,用于将预设的临床版标准词的核心语义与所述预设的文本库进行关联,建立所述临床版标准词的核心语义与所述文本库的第二逻辑映射关系;
编码模块,用于基于所述第一逻辑映射关系和所述第二逻辑映射关系实现医疗信息的归一化。
7.根据权利要求6所述的医疗信息的归一化装置,其特征在于,所述装置还包括:
核心语义提取模块,用于对所述医疗文本信息进行分词,获得医疗短文本信息;将所述医疗短文本信息中已停用的医疗短文本以及低频医疗短文本滤除,获得过滤后的医疗短文本信息;对所述过滤后的医疗短文本信息进行相关性分析,将相似度大于等于预设阈值的医疗短文本进行归并,获得所述医疗文本信息的核心语义。
8.根据权利要求6所述的医疗信息的归一化装置,其特征在于,所述第一关联模块具体用于:
所述预设的文本库至少包含有知识图谱库词条数据;
将所述医疗文本信息的核心语义与所述知识图谱库中的词条进行关联,建立所述医疗文本信息的核心语义与所述知识图谱库中对应的词条的第一逻辑映射关系。
9.根据权利要求6所述的医疗信息的归一化装置,其特征在于,所述第二关联模块具体用于:
所述预设的文本库至少包含有知识图谱库词条数据;
将所述临床版标准词的核心语义中手术操作名称的与所述知识图谱库中的词条进行关联,建立所述临床版标准词的核心语义与所述知识图谱库中对应的词条的第二逻辑映射关系。
10.根据权利要求6所述的医疗信息的归一化装置,其特征在于,所述编码模块具体用于:
基于预设的标注规则、所述第一逻辑映射关系以及第二逻辑映射关系,建立所述医疗文本信息的核心语义与临床版标准词的核心语义中手术操作名称的第三逻辑映射关系;
当获取到待归一化的医疗文本信息后,识别出所述待归一化的医疗文本信息中的有效信息;
基于所述第三逻辑映射关系,将所述有效信息编码为符合所述临床版标准词的核心语义中手术操作名称格式的标准词。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至5中任一项所述的医疗信息的归一化方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的医疗信息的归一化方法。
CN201811331341.1A 2018-11-09 2018-11-09 一种医疗信息的归一化方法、装置、介质及电子设备 Active CN109522552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811331341.1A CN109522552B (zh) 2018-11-09 2018-11-09 一种医疗信息的归一化方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811331341.1A CN109522552B (zh) 2018-11-09 2018-11-09 一种医疗信息的归一化方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN109522552A true CN109522552A (zh) 2019-03-26
CN109522552B CN109522552B (zh) 2023-08-29

Family

ID=65773819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811331341.1A Active CN109522552B (zh) 2018-11-09 2018-11-09 一种医疗信息的归一化方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN109522552B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705214A (zh) * 2019-08-27 2020-01-17 天津开心生活科技有限公司 一种自动编码方法及装置
CN110837494A (zh) * 2019-10-12 2020-02-25 云知声智能科技股份有限公司 一种识别病历首页未特指诊断编码错误的方法及装置
CN110909121A (zh) * 2019-10-10 2020-03-24 北京东软望海科技有限公司 用于医疗行业数据标准化的方法及系统
CN111063446A (zh) * 2019-12-17 2020-04-24 医渡云(北京)技术有限公司 用于标准化医疗文本数据的方法、装置、设备及存储介质
CN111104400A (zh) * 2019-12-24 2020-05-05 天津新开心生活科技有限公司 数据归一方法及装置、电子设备、存储介质
CN111125311A (zh) * 2019-12-24 2020-05-08 医渡云(北京)技术有限公司 检验信息归一处理的方法、装置、存储介质及电子设备
CN111599479A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种基于icd9-cm-3的手术知识图谱构建方法和装置
CN111625542A (zh) * 2020-05-25 2020-09-04 泰康保险集团股份有限公司 过敏信息数据库建立方法及装置、存储介质及电子设备
CN112509692A (zh) * 2020-12-01 2021-03-16 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112800759A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置
CN115148344A (zh) * 2022-09-06 2022-10-04 深圳市指南针医疗科技有限公司 基于蚁群算法的医技管理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN108182207A (zh) * 2017-12-15 2018-06-19 上海长江科技发展有限公司 基于分词网络的中文手术操作的智能编码方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN108182207A (zh) * 2017-12-15 2018-06-19 上海长江科技发展有限公司 基于分词网络的中文手术操作的智能编码方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705214A (zh) * 2019-08-27 2020-01-17 天津开心生活科技有限公司 一种自动编码方法及装置
CN110705214B (zh) * 2019-08-27 2023-05-02 天津开心生活科技有限公司 一种自动编码方法及装置
CN110909121A (zh) * 2019-10-10 2020-03-24 北京东软望海科技有限公司 用于医疗行业数据标准化的方法及系统
CN110837494B (zh) * 2019-10-12 2022-03-25 云知声智能科技股份有限公司 一种识别病历首页未特指诊断编码错误的方法及装置
CN110837494A (zh) * 2019-10-12 2020-02-25 云知声智能科技股份有限公司 一种识别病历首页未特指诊断编码错误的方法及装置
CN111063446A (zh) * 2019-12-17 2020-04-24 医渡云(北京)技术有限公司 用于标准化医疗文本数据的方法、装置、设备及存储介质
CN111104400A (zh) * 2019-12-24 2020-05-05 天津新开心生活科技有限公司 数据归一方法及装置、电子设备、存储介质
CN111125311A (zh) * 2019-12-24 2020-05-08 医渡云(北京)技术有限公司 检验信息归一处理的方法、装置、存储介质及电子设备
CN111599479A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种基于icd9-cm-3的手术知识图谱构建方法和装置
CN111599479B (zh) * 2020-04-02 2023-08-11 云知声智能科技股份有限公司 一种基于icd9-cm-3的手术知识图谱构建方法和装置
CN111625542A (zh) * 2020-05-25 2020-09-04 泰康保险集团股份有限公司 过敏信息数据库建立方法及装置、存储介质及电子设备
CN112509692A (zh) * 2020-12-01 2021-03-16 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112509692B (zh) * 2020-12-01 2024-05-28 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112800759B (zh) * 2021-04-14 2021-08-06 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置
CN112800759A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置
CN115148344A (zh) * 2022-09-06 2022-10-04 深圳市指南针医疗科技有限公司 基于蚁群算法的医技管理方法、装置、设备及存储介质
CN115148344B (zh) * 2022-09-06 2022-11-29 深圳市指南针医疗科技有限公司 基于蚁群算法的医技管理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109522552B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN109522552A (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN109299472B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
EP4060565A1 (en) Method and apparatus for acquiring pre-trained model
US9652719B2 (en) Authoring system for bayesian networks automatically extracted from text
CN113505244B (zh) 基于深度学习的知识图谱构建方法、系统、设备及介质
CN109522551A (zh) 实体链接方法、装置、存储介质及电子设备
US9619583B2 (en) Predictive analysis by example
CN110121705A (zh) 将语用学原理应用于与可视分析交互的系统和方法
US20140081623A1 (en) Method for processing medical reports
US20140181128A1 (en) Systems and Methods for Processing Patient Data History
CN108319605A (zh) 医学检查数据的结构化处理方法及系统
CN109885697A (zh) 构建数据模型的方法、装置、设备和介质
CN108804423A (zh) 医疗文本特征提取与自动匹配方法和系统
CN109657056B (zh) 目标样本获取方法、装置、存储介质及电子设备
CN112599213B (zh) 一种分类编码确定方法、装置、设备及存储介质
CN110275963A (zh) 用于输出信息的方法和装置
CN112784589A (zh) 一种训练样本的生成方法、装置及电子设备
Shin et al. Natural language processing for large-scale medical image analysis using deep learning
EP3407204A1 (en) Methods and systems for translating natural language requirements to a semantic modeling language statement
KR20130097475A (ko) 의료 프로세스 모델링 및 검증 방법
CN109300550B (zh) 医学数据关系挖掘方法及装置
Zhang et al. Constructing covid-19 knowledge graph from a large corpus of scientific articles
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN111091915B (zh) 医疗数据处理方法及装置、存储介质、电子设备
CN113033179A (zh) 知识获取方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant