CN113221541A - 一种数据提取方法及装置 - Google Patents

一种数据提取方法及装置 Download PDF

Info

Publication number
CN113221541A
CN113221541A CN202110776352.6A CN202110776352A CN113221541A CN 113221541 A CN113221541 A CN 113221541A CN 202110776352 A CN202110776352 A CN 202110776352A CN 113221541 A CN113221541 A CN 113221541A
Authority
CN
China
Prior art keywords
medical
medical text
data
text
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110776352.6A
Other languages
English (en)
Inventor
冯晓彬
王建民
董家鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110776352.6A priority Critical patent/CN113221541A/zh
Publication of CN113221541A publication Critical patent/CN113221541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供了一种数据提取方法及装置。该方法包括:获取医疗文本;根据所述医疗文本确定所述医疗文本对应的专病知识图谱;利用所述专病知识图谱对应的提取模型,提取所述医疗文本中的数据。该方法通过专病知识图谱对应的提取模型,提取医疗文本中的数据,使提取出的数据符合专病知识图谱中的医学逻辑,增强了数据的可研究性。

Description

一种数据提取方法及装置
技术领域
本申请涉及数据提取技术领域,尤其涉及一种数据提取方法及装置。
背景技术
随着医疗信息化的发展,越来越多的研究基于数据库展开。传统的医学数据采集方法,需要研究人员在从医疗文本中识别出医学数据后,手工录入数据库,费时费力。随着大数据与人工智能的发展,如何实现自动采集医学数据成为研究者的迫切需要。
现有技术采用自然语言模型对医疗文本进行数据提取,得到的数据缺乏医疗逻辑,降低了数据的可研究性。
发明内容
本申请实施例提供了一种数据提取方法及装置,利用医疗文本对应的专病知识图谱训练的提取模型,提取医疗文本中的数据,可以实现医疗文本数据的自动提取,同时使得提取出的数据符合专病知识图谱中的医学逻辑,增强了数据的可研究性。
第一方面,本申请实施例提供了一种数据提取方法,所述方法包括:获取医疗文本;根据所述医疗文本确定所述医疗文本对应的专病知识图谱;利用所述专病知识图谱对应的提取模型,提取所述医疗文本中的数据。
该实施方案,采用专病知识图谱对应的提取模型提取医疗文本中的数据,可以使获得数据存在一定的医学逻辑,增强数据的可研究性。
在一种可能的实施方式中,所述根据所述医疗文本确定所述医疗文本对应的专病知识图谱包括:获取所述医疗文本中的关键词及其出现频率;根据所述关键词及其出现频率,确定所述医疗文本对应的专病知识图谱。
该实施方案,可以通过医疗文本的关键词匹配出医疗文本对应的专病知识图谱,使得可以用与该医疗文本相对应的提取模型进行数据提取,可以提高数据提取的准确度。
在一种可能的实施方式中,所述提取模型通过如下步骤训练:获取与所述专病指示图谱对应的训练样本;所述训练样本包括医疗文本样本和对所述医疗文本样本的标注,所述标注根据所述专病知识图谱获得;使用所述训练样本训练所述提取模型。
该实施方式,通过专病知识图谱对应的训练样本训练提取模型,使得提取模型和专病知识图谱建立起对应关系,提取模型可以有针对性的用于提取特定专病的医疗文本。
在一种可能的实施方式中,所述数据包括所述医疗文本中的医疗实体和所述医疗实体之间的关系。
在一种可能的实施方式中, 所述方法还包括:根据所述专病知识图谱,确定所述医疗实体名称不规范和/或确定所述医疗实体缺失的关系;向用户设备发送第一信息;所述第一信息用于指示用户修改所述医疗文本,所述第一信息包括所述医疗实体和/或所述医疗实体缺失的关系。
该实施方案,通过对提取的医疗实体进行校验,确定出名称不规范的医疗实体,以及确定出医疗文本中缺失的医疗实体的关系,并提醒用户修改,可以从源头规范医疗文本中的表达形式,提高数据的准确度。
在一种实施方式中,所述关键词包括所述医疗文本中的疾病名称、治疗方式、患病位置和/或检查指标。
在一种可能的实施方式中,所述方法还包括:利用脱敏算法将所述医疗文本中的敏感词替换为预设字符。
该实施方案,使用脱敏算法处理敏感信息,可以使得医疗文本中的敏感词不被泄露,有效保护用户的隐私。
第二方面,本申请实施例还提供一种数据提取装置,所述装置包括:获取模块,用于获取医疗文本;确定模块,用于根据所述医疗文本确定所述医疗文本对应的专病知识图谱;提取模块,用于利用所述专病知识图谱对应的提取模型,提取所述医疗文本中的数据。
在一种可能的实施方式中,所述确定模块具体用于:获取所述医疗文本中的关键词及其出现频率;根据所述关键词及其出现频率,确定所述医疗文本对应的专病知识图谱。
在一种可能的实施方式中,所述提取模型通过如下步骤训练:获取与所述专病指示图谱对应的训练样本;所述训练样本包括医疗文本样本和对所述医疗文本样本的标注,所述标注根据所述专病知识图谱获得;使用所述训练样本训练所述提取模型。
在一种可能的实施方式中,所述数据包括所述医疗文本中的医疗实体和所述医疗实体之间的关系。
在一种可能的实施方式中,所述提取模块还用于:根据所述专病知识图谱,确定所述医疗实体名称不规范和/或确定所述医疗实体缺失的关系;向用户设备发送第一信息;所述第一信息用于指示用户修改所述医疗文本,所述第一信息包括所述医疗实体和/或所述医疗实体缺失的关系。
在一种可能的实施方式中,所述关键词包括所述医疗文本中的疾病名称、治疗方式、患病位置和/或检查指标。
在一种可能的实施方式中,所述提取模块还用于:利用脱敏算法将所述医疗文本中的敏感词替换为预设字符。
第三方面,本申请实施例还提供一种计算设备,所述计算设备包括存储器和处理器,所述存储器存储有计算机指令,所述处理器执行所述计算机指令,以实现前述第一方面及其可选实施方式中的方案。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机存储介质中存储有指令,当所述指令在所述计算机上运行时,使得所述计算机以实现前述第一方面及其可选实施方式中的方案。
上述提供的数据提取装置或计算设备或计算机可读存储介质,均用于执行上文所提供的方法,因此,其所能达到的有益效果可参考上文提供的对应方法中的对应方案的有益效果,此处不再赘述。
附图说明
图1是本申请实施例提供的一种提取模型的训练方法流程图;
图2是本申请实施例提供的一种数据提取方法流程图;
图3是本申请实施例提供的另一种数据提取方法流程图;
图4是本申请实施例提供的一种数据提取装置的结构示意图;
图5是本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
图1是本申请实施例提供的一种提取模型的训练方法的流程图,该方法应用于模型训练设备,该提取模型用于提取医疗文本中的数据。需要说明的是,本申请所述的医疗文本中的数据包括医疗文本中的医疗实体和医疗实体之间的关系,也就是说,提取模型获得的医疗实体之间存在一定的医学逻辑。该方法包括如下的步骤S101和步骤S102。
在步骤S101中,获取与专病指示图谱对应的训练样本。
本实施例中,训练样本包括医疗文本样本和医疗文本样本的标注,所述标注包括医疗文本样本中的医疗实体和医疗实体之间的关系,该标注可以根据专病知识图谱获得。
在步骤S102中,使用训练样本训练提取模型。
本实施例中,在训练提取模型时,可以先初始化提取模型的参数,将医疗文本样本作为提取模型的输入,获得提取模型在该参数下输出的数据(数据包括医疗实体和医疗实体之间的关系),并利用损失函数计算模型输出的数据和医疗文本样本的标注之间的误差,根据该误差采用梯度下降法更新提取模型的参数,重复这个过程,直至该误差满足预设条件,获得最终的提取模型。可选地,本申请实施例的提取模型可以采用决策树模型、随机森林模型、BP神经网络模型和深度学习模型等机器学习模型架构。
图2是本申请实施例提供的一种数据提取方法的流程图,该方法可以应用于数据提取设备中。如图2所示,该方法包括:如下的步骤S201-步骤S203。
在步骤S201中,获取医疗文本。
本实施例中,数据提取设备可以通过自身配置的采集单元从纸质医疗文本中获得医疗文本,数据提取设备还可以从用户设备中获取该医疗文本,用户设备中存储有用户上传的医疗文本。可选地,本申请实施例所述的医疗文本可以是患者的病历。
在一个示例中,采集单元可以是摄像头。数据提取设备可以通过配置的摄像头获得医疗文本。具体地,用户可以将已经写好的纸质医疗文本放到数据提取设备的摄像头采集区域中,摄像头对该纸质医疗文本进行拍照,获得一张图片;然后数据提取设备利用文字识别模型从图片识别出文字,从而获得该图片中的医疗文本。其中,文字识别模型可以通过一些图片样本及样本对应的文字标签训练获得,具体地,文字识别模型可以采用同提取模型同样的架构,即可以采用决策树模型、随机森林模型、BP神经网络模型和深度学习模型等机器学习模型中的一种,深度学习模型可以是卷积神经网络模型,本申请实施例不对文字识别模型的具体类型做限定,只要能实现识别图片中文字的功能即可。
在一个示例中,用户还可以通过用户设备配置的输入控件,将医疗文本输入用户设备中,数据提取设备可以直接从用户设备中获取医疗文本。示例性的,输入控件可以是键盘输入控件,也可以是语音输入控件,还可以是可触摸的输入控件。相应的,用户可以通过敲击键盘将医疗文本中的文字输入到用户设备。用户也可以通过语音输入控件将医疗文本语音输入到用户设备中,用户设备可以利用语音识别模型识别该医疗文本语音中的文字,从而获得该医疗文本,其中,语音识别模型同样可以是前述的机器学习模型中的任意一种。用户还可以通过可触摸输入控件将医疗文本输入用户设备中,具体地,用户设备通过显示屏幕向用户显示可触摸输入控件,用户即可在该可触摸输入控件中输入医疗文本,可以理解的,可触摸输入控件可以是可触摸的显示屏,显示屏中还可以运行可触摸的输入法。
在步骤S202中,根据医疗文本确定医疗文本对应的专病知识图谱。
本实施例中,数据提取设备可以获取医疗文本中的关键词以及每个关键词的频率,然后根据该关键词及其频率,确定出医疗文本对应的一种专病知识图谱。
在一个示例中,用户可以指定医疗文本对应的至少一个关键词,数据提取设备获得医疗文本后,还可以按照预先指定的关键词集合,遍历医疗文本中的文字,获得医疗文本中包含的至少一个关键词及其频率,然后根据频率最大的一个或多个关键词,与专病知识图谱进行比对,从而确定出该医疗文本对应的专病知识图谱。可选地,关键词可以是医疗文本中的疾病名称、患病位置、治疗方式和/或检查指标,其中,检查指标可以包括:化验检查、影像检查和病理检查等的检查结果。此外,关键词还可以包括:诱因、病因、操作方式、用药情况、症状和/或患病体征。示例性的,假设一个患者的医疗文本为患者的病历,该病历为“患者8个月前A医院腹部增强CT检查发现S2段肝占位,大小为5*6*4cm,化验肿瘤标志物检查示AFP为420.89ng/ml,排除手术禁忌后于当地医院行左半肝切除术治疗,术后病理诊断为肝细胞癌”,这段医疗文本中的关键词可以包括“肝细胞癌、S2段和左半肝切除”。
在一个示例中,可以预先将关键词集合中的一个或多个关键词,与预先获得专病知识图谱建立对应关系,数据提取设备可以根据关键词与专病知识图谱的对应关系,确定该医疗文本对应的一个专病知识图谱。示例性的,当该医疗文本中包括的关键词为患病名称“肝细胞癌”、患病位置“S2段”和治疗方式“左半肝切除”,则可以确定该医疗文本对应的专病知识图谱为“肝细胞癌知识图谱”。需要说明的是,专病知识图谱可以根据专病数据集获得,其中,专病数据集中包括该专病的医疗实体。具体地,用户可以在数据提取设备中,将专病数据集中的医疗实体,以医疗实体之间的属性或关系为边构建专病知识图谱。
在步骤S203中,利用专病知识图谱对应的提取模型,提取医疗文本中的数据。
在一个示例中,数据提取设备可以将医疗文本输入到提取模型中,获得提取模型输出的医疗文本中的数据,该数据可以包括医疗实体和医疗实体之间的关系。在一个示例中,数据提取设备在医疗文本中的数据之后,可以对该数据进行编号,并将数据及其编号存储设备的存储地址。具体地,当医疗文本为病历时,数据提取设备可以将相同患者在不同时期的病历对应的数据存储在关联的存储地址中。
其中,提取模型可以采用图1所示的方法训练获得,此处不再赘述。示例性的,以上述肝细胞癌的医疗文本为例,利用提取模型获得的数据可以如表1所示。例如,医疗文本中提取到的实体“8月”和实体“肝细胞癌”,以及这两个实体之间的关系“疾病时长”。
表1 医疗实体及医疗实体之间的关系
实体 关系 实体
8月 疾病时长 肝细胞癌
S2段 肿瘤位置
5*6*4cm 肿瘤大小 肝细胞癌
420.89ng/ml 肿瘤标志物高低 AFP
治疗 手术方式 左半肝切除
在一个示例中,将医疗文本样本输入提取模型时,可以采用脱敏算法将医疗文本中的敏感词替换为预设字符,其中,当医疗文本为患者的病历时,敏感词可以是患者的姓名、联系方式和身份证等私人信息。或者,数据提取设备可以在存储数据时,将脱敏后的医疗文本和数据关联的存储。
本申请上述实施例,使用专病知识图谱对应的样本训练的提取模型提取医疗文本中的数据,可以使得获得的数据符合专病知识图谱中的医学逻辑,增强了数据的可研究性。
此外,医务人员在书写医疗文本时的语言表达是非标准化的,表达方式多种多样,因此医疗文本中的数据具有很强的异构性,会使提取到的医疗实体不准确。因此,本申请实施例还提供另一种医疗文本数据采集方法,该方法同样由数据提取设备执行。如图3所示,该方法包括如下的步骤S301-步骤S305。
在步骤S301中,获取医疗文本。
在步骤S302中,根据医疗文本确定医疗文本对应的专病知识图谱。
在步骤S303中,利用专病知识图谱对应的提取模型,获得医疗文本中的数据。
可以理解,步骤S301-步骤 S303的具体介绍可以参阅前述图2所示方法实施例中步骤S201-步骤S203下的描述,此处不再赘述。
在步骤S304中,根据专病知识图谱校验医疗实体。
在一个示例中,数据提取设备可以将提取模型输出的医疗实体逐个与专病知识图谱中的医疗实体进行比较,一方面可以确定模型输出的医疗实体的名称是否规范,另一方面可以确定所述医疗文本中的医疗实体的关系是否有缺失。当提取模型输出的医疗实体的名称不规范、和/或医疗文本缺失医疗实体时,生成第一信息并发送给用户设备,该第一信息包括名称不规范的医疗实体和医疗实体缺失的关系,该第一信息用于指示用户修改该医疗文本。可选地,数据提取设备可以根据当前用户的医疗负荷确定是否向用户设备发送第一信息,具体地,当用户的医疗负荷满足发送条件时,再发送第一信息给用户设备,避免在用户医疗负荷较大时增加其工作量。医疗负荷可以包括:用户当天的新收病人数、手术台次、每台手术的难度、医疗文本书写数量、换药数量、门诊时段等等。在一个示例中,数据提取设备如果确认处理的病历是该患者出院时的病历时,不考虑用户(可以是医务人员)的医疗负荷,直接将第一信息发送给用户设备。
示例性的,用户通过用户设备接收到第一信息时,可以从第一信息中明确之前上传的医疗文本中存在的问题(即名称不规范的医疗实体、和医疗实体缺失的关系),用户可以通过第一信息修改医疗文本,修改名称不规范的医疗实体,以及增加医疗实体缺失关系。可以理解,当数据提取设备和用户设备为同一设备时,数据提取设备可以将第一信息通过其显示界面反馈给用户。
示例性的,当医疗文本为“患者3个月前B医院腹部增强CT检查发现肝占位,大小为3*6*5cm。排除手术禁忌后于当地医院行肝部分切除术治疗,术后病理诊断为肝细胞癌”时,提取模型处理该医疗文本获得的医疗实体可以如表2所示。表2中可以看出,提取模型提取到的数据中缺失了实体“肝”的关系“肿瘤位置”,还缺失了实体“肝细胞癌”的关系“肿瘤标志物”,同时,实体“肝细胞癌”的“手术方式”对应的实体“肝部分切除术”的名称不规范,没有给出具体的治疗方式。因此第一信息中可以包括:“肝”缺失“肿瘤位置”,“肝细胞癌”缺失“肿瘤标志物”,“肝部分切除术”的名称不规范。用户在看到这个第一信息之后,就可以补充和修改相应的医疗实体,获得修改后的第一医疗文本并通过用户设备传送给数据采集设备,或者直接将第一医疗文本用于数据采集设备的采集区域中进行采集。
表2医疗实体及医疗实体之间的关系
实体 属性或关系 实体
缺失 肿瘤位置
缺失 肿瘤标志物 肝细胞癌
肝部分切除术 手术方式 肝细胞癌
在一个示例中,数据采集设备获取到用户修改后的第一医疗文本之后,利用提取模型,获取第一医疗文本中的第一医疗实体和第一医疗实体之间的关系。在一个示例中,数据提取设备获得第一医疗文本的方法可以同前述步骤S201中获取初次医疗文本的方法,此处不再赘述。数据提取设备获得第一医疗文本后,将第一医疗文本输入提取模型,即可获得提取模型输出的第一医疗实体和第一医疗实体之间的关系。示例性的,假设用户根据第一信息收集患者的信息补全医疗文本,修改后的第一医疗文本为“患者3个月前B医院腹部增强CT检查发现S4段肝占位,大小为3*6*5cm,化验肿瘤标志物检查示AFP为320.19ng/ml,排除手术禁忌后于当地医院行肝中叶切除术治疗,术后病理诊断为肝细胞癌”。经过用户修改后,第一医疗文本中增加了实体“肝细胞癌”的“肿瘤标志物”的关联实体“AFP”,以及实体“AFP”的“肿瘤标志物高低”的实体“320.19ng/ml”;对于名称不规范的实体“肝部分切除术”,也被修改为实体“肝中叶切除术”。可以看出,修改后的病历相比修改之前,表达方式更加规范,文本中的信息更加丰富,可研究性更高。
在一个示例中数据提取设备可以通过提取模型重新提取修改后的第一医疗文本中的医疗实体。
在一个示例中,数据提取设备还可以利用第一医疗文本和第一医疗实体训练提取模型,使提取模型更加稳健和可靠,提高提取模型的准确度。
本申请上述图3所示的方法实施例,增加了医疗实体校正的环节,可以使医疗文本中提取到数据与专病知识图谱中的实体指标完全匹配,可以从源头规范医疗文本的表达方式,也进一步增强了医疗文本中数据的可研究性。
基于上述的数据提取方法实施例,本申请实施例还提供一种数据提取装置,数据提取装置可以应用于数据提取设备中,实现前述图2或前述图3的数据提取方法。
图4是本申请实施例提供的一种数据提取装置的结构示意图。如图4所示,该数据提取装置包括:获取模块101、确定模块102和提取模块103。可以理解的,图4所示的装置结构仅仅是本申请实施例对数据提取装置的结构划分的一种示例,在其他实施例中,数据提取装置还可以被划分为更多或更少的其他模块,只要能实现本申请前述图2或前述图3的数据提取方法即可。
在一种实施方式中,获取模块101用于获取医疗文本,确定模块102用于根据医疗文本确定医疗文本对应的专病知识图谱,提取模块103用于利用专病知识图谱对应的提取模型,提取医疗文本中的数据,其中,该提取模型同样可以采用前述图1所示的训练方法获得,此处不再赘述。
在一种可能的实施方式中,所述确定模块102具体用于:获取所述医疗文本中的关键词及其出现频率;根据所述关键词及其出现频率,确定所述医疗文本对应的专病知识图谱。
在一种可能的实施方式中,所述提取模型通过如下步骤训练:获取与所述专病指示图谱对应的训练样本;所述训练样本包括医疗文本样本和对所述医疗文本样本的标注,所述标注根据所述专病知识图谱获得;使用所述训练样本训练所述提取模型。
在一种可能的实施方式中,所述数据包括所述医疗文本中的医疗实体和所述医疗实体之间的关系。
在一种可能的实施方式中,所述提取模块103还用于:根据所述专病知识图谱,确定所述医疗实体名称不规范和/或确定所述医疗实体缺失的关系;向用户设备发送第一信息;所述第一信息用于指示用户修改所述医疗文本,所述第一信息包括所述医疗实体和/或所述医疗实体缺失的关系。
在一种可能的实施方式中,所述关键词包括所述医疗文本中的疾病名称、治疗方式、患病位置和/或检查指标。
在一种可能的实施方式中,所述提取模块103还用于:利用脱敏算法将所述医疗文本中的敏感词替换为预设字符。
基于上述的数据提取方法实施例,本申请实施例还提供一种数据提取设备,该数据提取设备可以是计算设备。如图5所示,该计算设备可以包括存储器和处理器,还可以包括接口和总线。该计算设备可以通过该接口获得医疗文本,以实现提取医疗本文中的数据。可以理解,存储器、处理器和接口通过数据总线连续,使得存储器、处理器和接口之间可以进行数据或指令的传输。总线可以包括第一存储器、处理器、接口之间传送信息的通路。
在一种实施例中,存储器可以是只读存储器(read only memory,ROM)、随机存取存储器(random access memory ,RAM)、硬盘和快闪存储器中一个或其任意组合。第一存储器可以存储程序,当存储器中存储的程序或指令被处理器执行时,处理器和接口用于前述图2或图3所示的数据提取方法。存储器还可以存储医疗文本和从医疗文本中提取的数据,以及训练提取模型的训练样本和专病知识图谱。接口可以是例如收发器一类的收发模块,来实现计算设备与其他设备的通信或数据传输。例如计算设备可以和用户设备通信或传输数据,接收用户设备发来的医疗文本,以及向用户设备发送第一信息,指示用户修改医疗文本。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。

Claims (10)

1.一种数据提取方法,其特征在于,所述方法包括:
获取医疗文本;
根据所述医疗文本确定所述医疗文本对应的专病知识图谱;
利用所述专病知识图谱对应的提取模型,提取所述医疗文本中的数据。
2.根据权利要求1所述的方法,所述根据所述医疗文本确定所述医疗文本对应的专病知识图谱包括:
获取所述医疗文本中的关键词及其出现频率;
根据所述关键词及其出现频率,确定所述医疗文本对应的专病知识图谱。
3.根据权利要求1或2所述的方法,其特征在于,所述提取模型通过如下步骤训练:
获取与所述专病知识图谱对应的训练样本;所述训练样本包括医疗文本样本和对所述医疗文本样本的标注,所述标注根据所述专病知识图谱获得;
使用所述训练样本训练所述提取模型。
4.根据权利要求1所述的方法,其特征在于,所述数据包括所述医疗文本中的医疗实体和所述医疗实体之间的关系。
5.根据权利要求4所述的方法,其特征在于, 所述方法还包括:
根据所述专病知识图谱,确定所述医疗实体名称不规范、和/或确定所述医疗实体缺失的关系;
向用户设备发送第一信息;所述第一信息用于指示用户修改所述医疗文本,所述第一信息包括所述医疗实体和/或所述医疗实体缺失的关系。
6.根据权利要求2所述的方法,其特征在于,所述关键词包括所述医疗文本中的疾病名称、治疗方式、患病位置和/或检查指标。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
利用脱敏算法将所述医疗文本中的敏感词替换为预设字符。
8.一种数据提取装置,其特征在于,所述装置包括:
获取模块,用于获取医疗文本;
确定模块,用于根据所述医疗文本确定所述医疗文本对应的专病知识图谱;
提取模块,用于利用所述专病知识图谱对应的提取模型,提取所述医疗文本中的数据。
9.一种计算设备,其特征在于,所述计算设备包括存储器和处理器,所述存储器存储有计算机指令,所述处理器执行所述计算机指令,以实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中存储有指令,当所述指令在所述计算机上运行时,使得所述计算机实现权利要求1-7任一项所述的方法。
CN202110776352.6A 2021-07-09 2021-07-09 一种数据提取方法及装置 Pending CN113221541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110776352.6A CN113221541A (zh) 2021-07-09 2021-07-09 一种数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110776352.6A CN113221541A (zh) 2021-07-09 2021-07-09 一种数据提取方法及装置

Publications (1)

Publication Number Publication Date
CN113221541A true CN113221541A (zh) 2021-08-06

Family

ID=77081606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110776352.6A Pending CN113221541A (zh) 2021-07-09 2021-07-09 一种数据提取方法及装置

Country Status (1)

Country Link
CN (1) CN113221541A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722213A (zh) * 2022-03-11 2022-07-08 青岛百洋智能科技股份有限公司 多病种多指南临床辅助决策支持系统的知识图谱构建及应用方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190171656A1 (en) * 2017-05-10 2019-06-06 Boe Technology Group Co., Ltd. Traditional chinese medicine knowledge graph and establishment method therefor, and computer system
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110413798A (zh) * 2019-07-24 2019-11-05 厦门快商通科技股份有限公司 一种医疗美容知识图谱自动构建方法、系统及存储介质
CN110827941A (zh) * 2019-11-06 2020-02-21 山东众阳健康科技集团有限公司 电子病历信息校正方法及系统
CN111414393A (zh) * 2020-03-26 2020-07-14 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112507138A (zh) * 2020-12-28 2021-03-16 医渡云(北京)技术有限公司 专病知识图谱构建方法及装置、介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190171656A1 (en) * 2017-05-10 2019-06-06 Boe Technology Group Co., Ltd. Traditional chinese medicine knowledge graph and establishment method therefor, and computer system
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110413798A (zh) * 2019-07-24 2019-11-05 厦门快商通科技股份有限公司 一种医疗美容知识图谱自动构建方法、系统及存储介质
CN110827941A (zh) * 2019-11-06 2020-02-21 山东众阳健康科技集团有限公司 电子病历信息校正方法及系统
CN111414393A (zh) * 2020-03-26 2020-07-14 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112507138A (zh) * 2020-12-28 2021-03-16 医渡云(北京)技术有限公司 专病知识图谱构建方法及装置、介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔博文 等: "自由文本电子病历信息抽取综述", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722213A (zh) * 2022-03-11 2022-07-08 青岛百洋智能科技股份有限公司 多病种多指南临床辅助决策支持系统的知识图谱构建及应用方法

Similar Documents

Publication Publication Date Title
US11464455B2 (en) Method and apparatus of context-based patient similarity
US20220044812A1 (en) Automated generation of structured patient data record
WO2020243732A1 (en) Systems and methods of clinical trial evaluation
CN108766561B (zh) 病症信息处理方法、装置、计算机设备和存储介质
US20150149215A1 (en) System and method to detect and visualize finding-specific suggestions and pertinent patient information in radiology workflow
EP4170670A1 (en) Medical data processing method and system
EP3596620A1 (en) Interoperable record matching process
US20210257106A1 (en) Generalized biomarker model
JP6908977B2 (ja) 医療情報処理システム、医療情報処理装置及び医療情報処理方法
CN112530550A (zh) 影像报告生成方法、装置、计算机设备和存储介质
EP2922018A1 (en) Medical information analysis program, medical information analysis device, and medical information analysis method
CN112447270A (zh) 一种用药推荐方法、装置、设备及存储介质
CN111785383A (zh) 数据处理方法及相关设备
CN113221541A (zh) 一种数据提取方法及装置
CN109102845B (zh) 医疗单据审核方法、装置、计算机设备和存储介质
CN115631823A (zh) 相似病例推荐方法及系统
CN112579790A (zh) 重症疾病知识库的构建方法、装置、存储介质及电子设备
CN114694780A (zh) 用于数据处理的方法、设备和介质
CN117493642B (zh) 相似电子病历检索方法、装置、终端及存储介质
CN113223677A (zh) 针对患者的医生匹配方法及装置
US20240177818A1 (en) Methods and systems for summarizing densely annotated medical reports
Korman Standardization in endoscopic reporting: implications for clinical practice and research
CN116737945B (zh) 一种患者emr知识图谱映射方法
US20220208376A1 (en) Clinical trial matching system using inferred biomarker status
CN117153378B (zh) 一种导诊方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination