CN109616215A - 医疗数据抽取方法、装置、存储介质及电子设备 - Google Patents
医疗数据抽取方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN109616215A CN109616215A CN201811410467.8A CN201811410467A CN109616215A CN 109616215 A CN109616215 A CN 109616215A CN 201811410467 A CN201811410467 A CN 201811410467A CN 109616215 A CN109616215 A CN 109616215A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- medical
- pick
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开涉及一种医疗数据抽取方法、医疗数据抽取装置、计算机可读存储介质及电子设备。本公开实施例提供的医疗数据抽取方法包括:建立数据抽取任务并确定文本获取条件;根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;根据所述数据抽取任务确定用于抽取数据的字段模板;使用所述字段模板从所述医疗文本中抽取数据;将抽取到的所述数据关联至对应的数据集合。本公开实施例所提供的医疗数据抽取方法可以适应各种医疗数据结构化项目的数据抽取需求,不仅可以提高了数据抽取效率,而且可以减少人工成本,降低出错率。
Description
技术领域
本公开涉及数据处理技术领域,具体涉及一种医疗数据抽取方法、医疗数据抽取装置、计算机可读存储介质及电子设备。
背景技术
在医疗数据结构化技术中,需要很多训练数据与评估数据。特别是对于处理多医院数据的企业抽取数据到平台进行集中式的训练与测试评估是个比较困难的事情。需要工程师费时费力才能把对应的数据跟对应的结构化项目关联起来,非常繁琐,且重复劳动非常多。而且不同医院的抽取条件不一样,更会导致医学人员与开发人员反复地交互才能抽取到合适的数据。
在医疗数据抽取方面主要可以采用以下两种方式:
第一种方式是由工程师线下与医学人员确定每个医院抽取的条件,抽取到数据后,工程师再把对应的数据与结构化项目进行关联。在这种方法中,工程师的参入度非常高,数据抽取过程中需要工程师与医学人员针对不同医院反复核对抽取条件。对于抽取到的医疗数据,工程师直接将其与结构化项目相关联,缺乏了医学人员进行二次确认的机制,出错率高,费时费力。另外,不同开发人员的编码习惯以及使用的工具都不一样,没有一个统一的标准,普适性较差。
第二种方式是由医学人员通过离线抽数平台抽取对应的数据,然后医学人员把对应的数据一一关联到对应的结构化项目中。在这种方法中,需要医学人员把数据一一关联到结构化项目中,不仅效率低下,而且容易出错。特别是对于资源比较紧张的医院,可能会花费很长的时间才能抽取到对应的数据。
由此可见,目前亟需一种新型的医疗数据抽取方法,以实现快速高效地抽取医疗数据。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医疗数据抽取方法、医疗数据抽取装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据抽取效率低、普适性差、出错率高等技术问题。
根据本公开的一个方面,提供一种医疗数据抽取方法,其特殊之处在于,包括:
建立数据抽取任务并确定文本获取条件;
根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;
根据所述数据抽取任务确定用于抽取数据的字段模板;
使用所述字段模板从所述医疗文本中抽取数据。
在本公开的一种示例性实施方式中,所述建立数据抽取任务并确定文本获取条件包括:
确定一个或者多个数据抽取来源;
对所述数据抽取来源建立数据抽取任务;
根据所述数据抽取任务确定与所述数据抽取来源相关联的文本获取时间;
根据所述数据抽取任务确定与所述数据抽取来源无关联的文本获取条件。
在本公开的一种示例性实施方式中,所述文本获取条件包括病人筛选条件和/或病例筛选条件。
在本公开的一种示例性实施方式中,所述根据所述数据抽取任务确定用于抽取数据的字段模板包括:
根据所述数据抽取任务确定数据纳入条件;
确定与所述数据纳入条件相对应的一个或者多个纳入字段;
将所述纳入字段整合形成用于抽取数据的字段模板。
在本公开的一种示例性实施方式中,所述根据所述数据抽取任务确定用于抽取数据的字段模板还包括:
根据所述数据抽取任务和所述数据纳入条件确定数据排除条件;
确定与所述数据排除条件相对应的一个或者多个排除字段;
将所述排除字段整合形成用于排除数据的字段模板。
在本公开的一种示例性实施方式中,所述字段模板包括字段名称和字段来源路径。
在本公开的一种示例性实施方式中,所述方法还包括:
根据所述数据抽取任务确定数据入库配置;
根据所述数据入库配置将所述数据集合导入至数据库中。
根据本公开的一个方面,提供一种医疗数据抽取装置,其特殊之处在于,包括:
任务建立模块,被配置为建立数据抽取任务并确定文本获取条件;
文本获取模块,被配置为根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;
模板确定模块,被配置为根据所述数据抽取任务确定用于抽取数据的字段模板;
字段抽取模块,被配置为使用所述字段模板从所述医疗文本中抽取字段。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的医疗数据抽取方法。
根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的医疗数据抽取方法。
本公开实施例所提供的医疗数据抽取方法通过建立数据抽取任务,并相应地设置文本获取条件以及用于抽取数据的字段模板可以形成标准化的数据抽取机制,可以适应各种医疗数据结构化项目的数据抽取需求,不仅可以提高了数据抽取效率,而且可以减少人工成本,降低出错率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开一种示例性实施方式中医疗数据抽取方法的步骤流程图。
图2示意性示出本公开另一示例性实施方式中医疗数据抽取方法的步骤流程图。
图3示意性示出本公开另一示例性实施方式中医疗数据抽取方法的步骤流程图。
图4示意性示出本公开实施例中医疗数据抽取方法的应用场景流程框图。
图5示意性示出本公开示例性实施方式中医疗数据抽取装置的组成框图。
图6示意性示出本公开示例性实施方式中一种程序产品的示意图。
图7示意性示出本公开示例性实施方式中一种电子设备的模块示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开的示例性实施方式中首先提供一种医疗数据抽取方法,主要可以用于从各种不同的医疗机构或者医学研究机构的私有云资源中快速高效地抽取大量医学文本并导入至公有云数据库中,从而可以为医疗数据结构化提供可供训练和评估使用的医疗数据。参考图1所示,本示例性实施方式提供的医疗数据抽取方法主要可以包括以下步骤:
步骤S110.建立数据抽取任务并确定文本获取条件。
根据数据抽取的需求,本步骤首先建立与该需求相对应的数据抽取任务。数据抽取任务主要可以包括设置数据抽取的来源、数据抽取的时间以及数据抽取的相关条件。其中数据抽取的来源可以是各种医疗机构,例如可以包括医院、诊所、卫生院、疗养院等等,另外数据抽取的来源也可以是各种医学研究机构,例如可以包括医学类的高等院校、研究所、实验室、检疫检验单位等等。数据抽取的时间主要指的是执行数据抽取任务的时间节点,对于不同的数据抽取来源,该时间节点可以是相同的,也可以是不同的。数据抽取的相关条件,亦即文本获取条件,主要可以是数据抽取时所使用的筛选过滤条件,用以提高数据抽取的准确性,避免过多冗余信息的干扰。对于不同的数据来源,文本获取条件可以是相同的,也可以是不同的,本示例性实施方式对此不做特殊限定。
步骤S120.根据数据抽取任务获取满足文本获取条件的医疗文本。
由步骤S110建立数据抽取任务并确定文本获取条件之后,本步骤将根据该数据抽取任务获取医疗文本,所获取到的医疗文本应当满足确定的文本获取条件。举例而言,在步骤S110建立的数据抽取任务中,可以确定一家医院和一个研究所共计两个数据来源,本步骤可以在第一时间节点从该医院中获取满足第一文本获取条件的医疗文本,另外可以在第二时间节点从该研究所中获取满足第二文本获取条件的医疗文本。其中第一时间节点与第二时间节点可以是相同的,也可以是不同的;第一文本获取条件与第二文本获取条件可以是相同的,也可以是不同的。
步骤S130.根据数据抽取任务确定用于抽取数据的字段模板。
根据步骤S110建立的数据抽取任务,本步骤将确定用于抽取数据的字段模板。其中,字段模板可以是一系列字段的集合。根据常规的数据结构化需求,可以预先设置多种常用的字段模板,如此一来,本步骤便可以根据数据抽取任务直接从多种预先设置的多种字段模板中选用一种。除此之外,本步骤也可以根据数据抽取任务重新制定用于抽取数据的字段模板,与此同时可以将该字段模板保存起来,以便在后续的数据抽取任务中也可以参考使用。
步骤S140.使用字段模板从医疗文本中抽取数据。
由步骤S130确定用于抽取数据的字段模板后,本步骤将使用这一字段模板从步骤S120获取到的医疗文本中抽取数据。举例而言,由医院获取到的医疗文本主要可以是包含各种医疗诊断数据的病历,本步骤所使用的字段模板中例如可以包括“年龄”、“地址”、“病症”等字段。那么本步骤将从所获取到的病历中抽取对应的病人的年龄、病人的联系地址、病人的病症等相关数据,例如与病症对应的数据可以包括发热、腹痛、水肿等等。
由步骤S140抽取到数据后,还可以把所抽取到的数据与对应的数据集合进行关联。其中,数据集合的分类可以是与字段模板中的各个字段有关,另外也可以是由具体的任务需求来决定。特别是针对不同的医疗数据结构化项目,所需要使用的训练数据和评估数据都将有所差异,数据关联的结果将直接影响到数据训练和评估的效果,因此准确地将抽取到的数据与各个医疗数据结构化项目进行关联是非常有必要的。
本示例性实施方式所提供的医疗数据抽取方法通过建立数据抽取任务,并相应地设置文本获取条件以及用于抽取数据的字段模板可以形成标准化的数据抽取机制,可以适应各种医疗数据结构化项目的数据抽取需求,不仅可以提高了数据抽取效率,而且可以减少人工成本,降低出错率。
在以上示例性实施方式的基础上,本公开的另一实施例提供一种医疗数据抽取方法。其中,参考图2所示,步骤S110建立数据抽取任务并确定文本获取条件主要可以包括以下步骤:
步骤S211.确定一个或者多个数据抽取来源。
本步骤首先可以根据数据抽取需求确定一个或者多个数据抽取来源。其中数据抽取来源可以是各种医疗机构,例如可以包括医院、诊所、卫生院、疗养院等等,另外数据抽取的来源也可以是各种医学研究机构,例如可以包括医学类的高等院校、研究所、实验室、检疫检验单位等等。
步骤S212.对数据抽取来源建立数据抽取任务。
由步骤S211确定数据抽取来源之后,本步骤可以对各个数据抽取来源建立相应的数据抽取任务。对于不同的数据抽取来源而言,所建立的数据抽取任务可以是相同的,也可以是不同的。例如从医院、诊所等医疗机构主要可以抽取医疗诊断相关的数据,而从高校、研究所等医学研究机构主要可以抽取医学实验相关的数据。另外,不同数据抽取来源的数据抽取任务可以是相互关联的,也可以是各自独立进行的,本示例性实施方式对此不做特殊限定。
步骤S213.根据数据抽取任务确定与数据抽取来源相关联的文本获取时间。
根据步骤S212中所建立的数据抽取任务,本步骤将确定与数据抽取来源相关联的文本获取时间,亦即执行文本获取动作的时间节点。当数据抽取来源为多个时,对每个数据抽取来源都需要确定一个与该数据抽取来源相关联的文本获取时间。由于不同数据抽取来源的资源数量和资源使用情况都有各自的特点,因此,通过设置与数据抽取来源相关联的文本获取时间可以在很大程度上提高数据抽取的效率。例如对于资源数量较少的数据抽取来源,可以尽量将其文本获取时间设置在相对靠后的节点,在不影响数据抽取任务整体进度的情况下,尽可能地抽取到更多的有用数据。又例如对于资源紧张、使用频率较高的数据抽取来源,可以尽量选择将其私有云资源空闲时间作为文本获取时间,从而减少等待时间,尽可能地提高数据抽取效率。除此之外,在其他一些实施例中,文本获取时间也可以与数据抽取来源无关联,本公开对此不做特殊限定。
步骤S214.根据数据抽取任务确定与数据抽取来源无关联的文本获取条件。
根据步骤S212中所建立的数据抽取任务,本步骤将确定与数据抽取来源无关联的文本获取条件。其中文本获取条件主要可以是数据抽取时所使用的筛选过滤条件,用以提高数据抽取的准确性,避免过多冗余信息的干扰。例如,针对不同的数据抽取需求,文本获取条件可以包括病人筛选条件和/或病例筛选条件。在本实施例中,文本获取条件是与数据抽取来源无关联的,而之所以将其与数据抽取来源剥离开来,主要是为了提高文本获取条件的普遍适用性,以便尽可能地在更广阔的来源范围内使用,提高文本获取条件的复用性。另外,在其他一些实施例中,文本获取条件也可以与数据抽取来源相关联,本公开对此不做特殊限定。
在以上示例性实施方式的基础上,本公开的另一实施例提供一种医疗数据抽取方法。其中,参考图3所示,步骤S130.根据数据抽取任务确定用于抽取数据的字段模板主要可以包括以下步骤:
步骤S331.根据数据抽取任务确定数据纳入条件。
由步骤S120获取到的医疗文本通常会包含大量的医疗数据,其中有些数据可能是数据抽取任务需要抽取的目标数据,而其他一些数据也可能是与此次数据抽取任务无关的干扰信息。因此,为了提高数据抽取的准确性,本步骤将确定与数据抽取任务相对应的数据纳入条件。只有满足数据纳入条件的数据才会被顺利抽取以纳入至数据集合中。
步骤S332.确定与数据纳入条件相对应的一个或者多个纳入字段。
由步骤S331确定数据纳入条件后,本步骤将具体确定与数据纳入条件相对应的一个或者多个纳入字段。纳入字段的数量多少与数据纳入条件相关。
步骤S333.将纳入字段整合形成用于抽取数据的字段模板。
确定纳入字段后,本步骤将把各个纳入字段整合形成一个统一的字段模板,该字段模板便是从医疗文本中抽取出目标数据的标准工具。
继续参考图3所示,在该实施例的基础上,步骤S130.根据数据抽取任务确定用于抽取数据的字段模板还可以进一步包括以下步骤:
步骤S334.根据数据抽取任务和数据纳入条件确定数据排除条件。
确定数据纳入条件之后,本步骤将根据根据数据抽取任务和数据纳入条件确定数据排除条件。该数据排除条件主要是用于从符合数据纳入条件的数据中排除一部分与数据抽取认为无关或者相悖的数据。换言之,数据纳入条件主要是用于提高抽取数据的全面性,而数据排除条件则主要用于提高抽取数据的准确性。
步骤S335.确定与数据排除条件相对应的一个或者多个排除字段。
与数据纳入条件相似的,本步骤也可以根据数据排除条件确定与之相对应的一个或者多个排除字段,排除字段的多少与数据排除条件相关。
步骤S336.将排除字段整合形成用于排除数据的字段模板。
本步骤可以将步骤S335中确定的排除字段进行整合以形成用于排除数据的字段模板。另外,本步骤中形成的字段模板可以与步骤S333中形成的字段模板做进一步整合,亦即可以利用字段模板中纳入字段和排除字段之间的逻辑运算关系达成全面且准确地抽取数据的目的。
在本实施例中,字段模板可以包括字段名称和字段来源路径,另外还可以包括各个字段的数据抽取数量等相关信息。对于字段模板的合理配置将对数据抽取的全面性和准确性起到重要的影响作用。
在以上示例性实施方式的基础上,本公开的另一实施例提供一种医疗数据抽取方法。该方法可以进一步包括:根据数据抽取任务确定数据入库配置;根据数据入库配置将数据集合导入至数据库中。
下面结合一应用场景对本公开中一种优选实施例提供的医疗数据抽取方法进行说明。参考图4所示,该方法的操作流程主要可以包括:首先建立病人病历过滤条件,然后建立字段模板,选择对应的病人病历过滤以及字段来源、文本的纳入排除条件等。然后建立任务,填写任务名称、选择字段模板、单个字段数量、以及多个医院,执行时间,计划入库配置等,然后执行。待数据抽取完成后可以执行将数据集合导入数据库的步骤。若有计划入库配置,则根据配置自动入库,若没有则需要手动确认入库,手动入库的时候可以进行数据的二次筛选与确认。若入库错误,还可以通过数据入库列表进行撤回。
需要说明的是,虽然以上示例性实施方式以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施方式中,还提供一种医疗数据抽取装置。参考图5所示,医疗数据抽取装置50主要可以包括:任务建立模块51、文本获取模块52、模板确定模块53和数据抽取模块54。其中,任务建立模块51被配置为建立数据抽取任务并确定文本获取条件;文本获取模块52被配置为根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;模板确定模块53被配置为根据所述数据抽取任务确定用于抽取数据的字段模板;数据抽取模块54被配置为使用所述字段模板从所述医疗文本中抽取数据。
上述医疗数据抽取装置的具体细节已经在对应的医疗数据抽取方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施方式中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现本公开的上述的医疗数据抽取方法。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码;该程序产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或者移动硬盘等)中或网络上;当所述程序产品在一台计算设备(可以是个人计算机、服务器、终端装置或者网络设备等)上运行时,所述程序代码用于使所述计算设备执行本公开中上述各示例性实施例中的方法步骤。
参见图6所示,根据本公开的实施方式的用于实现上述方法的程序产品60,其可以采用便携式紧凑磁盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备(例如个人计算机、服务器、终端装置或者网络设备等)上运行。然而,本公开的程序产品不限于此。在本示例性实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或者多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。
可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件、或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任意可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)等)连接到用户计算设备;或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
在本公开的示例性实施方式中,还提供一种电子设备,所述电子设备包括至少一个处理器以及至少一个用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为经由执行所述可执行指令来执行本公开中上述各示例性实施例中的方法步骤。
下面结合图7对本示例性实施方式中的电子设备700进行描述。电子设备700仅仅为一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
参见图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括处理单元710和存储单元720)的总线730、显示单元740。
其中,存储单元720存储有程序代码,所述程序代码可以被处理单元710执行,使得处理单元710执行本公开中上述各示例性实施例中的方法步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元721(RAM)和/或高速缓存存储单元722,还可以进一步包括只读存储单元723(ROM)。
存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用各种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可以与一个或者多个使得用户可以与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器760可以通过总线730与电子设备700的其他模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
上述所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中,如有可能,各实施例中所讨论的特征是可互换的。在上面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组件、材料等。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本公开的各方面。
Claims (10)
1.一种医疗数据抽取方法,其特征在于,包括:
建立数据抽取任务并确定文本获取条件;
根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;
根据所述数据抽取任务确定用于抽取数据的字段模板;
使用所述字段模板从所述医疗文本中抽取数据。
2.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述建立数据抽取任务并确定文本获取条件包括:
确定一个或者多个数据抽取来源;
对所述数据抽取来源建立数据抽取任务;
根据所述数据抽取任务确定与所述数据抽取来源相关联的文本获取时间;
根据所述数据抽取任务确定与所述数据抽取来源无关联的文本获取条件。
3.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述文本获取条件包括病人筛选条件和/或病例筛选条件。
4.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述根据所述数据抽取任务确定用于抽取数据的字段模板包括:
根据所述数据抽取任务确定数据纳入条件;
确定与所述数据纳入条件相对应的一个或者多个纳入字段;
将所述纳入字段整合形成用于抽取数据的字段模板。
5.根据权利要求4所述的医疗数据抽取方法,其特征在于,所述根据所述数据抽取任务确定用于抽取数据的字段模板还包括:
根据所述数据抽取任务和所述数据纳入条件确定数据排除条件;
确定与所述数据排除条件相对应的一个或者多个排除字段;
将所述排除字段整合形成用于排除数据的字段模板。
6.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述字段模板包括字段名称和字段来源路径。
7.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述方法还包括:
根据所述数据抽取任务确定数据入库配置;
根据所述数据入库配置将所述数据集合导入至数据库中。
8.一种医疗数据抽取装置,其特征在于,包括:
任务建立模块,被配置为建立数据抽取任务并确定文本获取条件;
文本获取模块,被配置为根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;
模板确定模块,被配置为根据所述数据抽取任务确定用于抽取数据的字段模板;
数据抽取模块,被配置为使用所述字段模板从所述医疗文本中抽取数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的医疗数据抽取方法。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的医疗数据抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811410467.8A CN109616215B (zh) | 2018-11-23 | 2018-11-23 | 医疗数据抽取方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811410467.8A CN109616215B (zh) | 2018-11-23 | 2018-11-23 | 医疗数据抽取方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109616215A true CN109616215A (zh) | 2019-04-12 |
CN109616215B CN109616215B (zh) | 2021-07-09 |
Family
ID=66005008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811410467.8A Active CN109616215B (zh) | 2018-11-23 | 2018-11-23 | 医疗数据抽取方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616215B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063447A (zh) * | 2019-12-17 | 2020-04-24 | 北京懿医云科技有限公司 | 查询和文本处理方法及装置、电子设备和存储介质 |
CN111061739A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 海量医疗数据的入库方法及装置、电子设备、存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020087357A1 (en) * | 1998-08-13 | 2002-07-04 | Singer Michael A. | Medical record forming and storing apparatus and medical record and method related to same |
CN101441686A (zh) * | 2008-11-26 | 2009-05-27 | 复旦大学附属中山医院 | 基于自然语言编写的医疗文档的信息抽提及格式转换系统 |
CN104462348A (zh) * | 2014-12-05 | 2015-03-25 | 无锡城市云计算中心有限公司 | 一种数据抽取的方法及装置 |
CN106886535A (zh) * | 2015-12-16 | 2017-06-23 | 大唐软件技术股份有限公司 | 一种适配多种数据源的数据抽取方法和装置 |
CN107610740A (zh) * | 2017-07-27 | 2018-01-19 | 康美健康云服务有限公司 | 用于医疗的语义分析方法、电子设备、存储介质以及系统 |
CN107908601A (zh) * | 2017-11-01 | 2018-04-13 | 北京颐圣智能科技有限公司 | 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法 |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN108615560A (zh) * | 2018-03-19 | 2018-10-02 | 安徽锐欧赛智能科技有限公司 | 一种基于数据挖掘的临床医疗数据分析方法 |
-
2018
- 2018-11-23 CN CN201811410467.8A patent/CN109616215B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020087357A1 (en) * | 1998-08-13 | 2002-07-04 | Singer Michael A. | Medical record forming and storing apparatus and medical record and method related to same |
CN101441686A (zh) * | 2008-11-26 | 2009-05-27 | 复旦大学附属中山医院 | 基于自然语言编写的医疗文档的信息抽提及格式转换系统 |
CN104462348A (zh) * | 2014-12-05 | 2015-03-25 | 无锡城市云计算中心有限公司 | 一种数据抽取的方法及装置 |
CN106886535A (zh) * | 2015-12-16 | 2017-06-23 | 大唐软件技术股份有限公司 | 一种适配多种数据源的数据抽取方法和装置 |
CN107610740A (zh) * | 2017-07-27 | 2018-01-19 | 康美健康云服务有限公司 | 用于医疗的语义分析方法、电子设备、存储介质以及系统 |
CN107908601A (zh) * | 2017-11-01 | 2018-04-13 | 北京颐圣智能科技有限公司 | 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法 |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN108615560A (zh) * | 2018-03-19 | 2018-10-02 | 安徽锐欧赛智能科技有限公司 | 一种基于数据挖掘的临床医疗数据分析方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063447A (zh) * | 2019-12-17 | 2020-04-24 | 北京懿医云科技有限公司 | 查询和文本处理方法及装置、电子设备和存储介质 |
CN111061739A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 海量医疗数据的入库方法及装置、电子设备、存储介质 |
CN111063447B (zh) * | 2019-12-17 | 2024-05-03 | 北京懿医云科技有限公司 | 查询和文本处理方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109616215B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | The application of medical artificial intelligence technology in rural areas of developing countries | |
AU2020260157A1 (en) | Collaborative artificial intelligence method and system | |
CN107766574A (zh) | 数据查询方法及装置、数据存储方法及装置 | |
Masic et al. | CONTRIBUTIONS TO THE HISTORYOF MEDICAL INFORMATICS | |
Barra et al. | Methods for developing mobile apps in health: an integrative review of the literature | |
US20090187425A1 (en) | PDA software robots leveraging past history in seconds with software robots | |
CN109584975A (zh) | 医疗数据标准化处理方法及装置 | |
CN110459320A (zh) | 一种基于知识图谱的辅助诊疗系统 | |
KR20130140847A (ko) | 질의-응답 시스템을 사용하는 문제 해결을 위한 의사결정-지원 애플리케이션 및 시스템 | |
Yu et al. | Electronic health records (EHRs): supporting ASCO's vision of cancer care | |
Shamsujjoha et al. | Human-centric issues in ehealth app development and usage: A preliminary assessment | |
CN109616215A (zh) | 医疗数据抽取方法、装置、存储介质及电子设备 | |
Chakraborty et al. | From machine learning to deep learning: An advances of the recent data-driven paradigm shift in medicine and healthcare | |
Thangam et al. | Relevance of Artificial Intelligence in Modern Healthcare | |
Holdsworth et al. | The impact of AI in the UK healthcare industry: A socio-technical system theory perspective. | |
Harman et al. | Standardized mapping of nursing assessments across 59 US military treatment facilities | |
Rosales-Morales et al. | Identification of UIDPs for developing medical apps | |
CN113990422A (zh) | 一种随访数据的采集方法和装置 | |
de Aguiar Barbosa et al. | A Domain-Specific Modeling Language for Specification of Clinical Scores in Mobile Health. | |
CN112446192A (zh) | 用于生成文本标注模型的方法、装置、电子设备和介质 | |
CN112700851B (zh) | 医疗基地确定方法、装置、电子设备及存储介质 | |
Deogun et al. | Conceptual development of mental health ontologies | |
CN109597847A (zh) | 医疗数据回沉方法及装置、存储介质、电子终端 | |
Silva et al. | Rule-based Clinical Decision Support System using the OpenEHR Standard | |
CN107731267A (zh) | 目标用户确定方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |