CN107545934B - 数值型指标的提取方法和装置 - Google Patents

数值型指标的提取方法和装置 Download PDF

Info

Publication number
CN107545934B
CN107545934B CN201710331517.2A CN201710331517A CN107545934B CN 107545934 B CN107545934 B CN 107545934B CN 201710331517 A CN201710331517 A CN 201710331517A CN 107545934 B CN107545934 B CN 107545934B
Authority
CN
China
Prior art keywords
index
extraction
text
medical record
queried
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710331517.2A
Other languages
English (en)
Other versions
CN107545934A (zh
Inventor
丁杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201710331517.2A priority Critical patent/CN107545934B/zh
Publication of CN107545934A publication Critical patent/CN107545934A/zh
Application granted granted Critical
Publication of CN107545934B publication Critical patent/CN107545934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种数值型指标提取方法和装置,方法包括:接收指标提取基本信息,指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;指标值类型为数值型,对应的提取规则包括指示为提取的规则类型和指示为提取数值的规则解析;确定待查询文本;根据提取规则从包含指标关键词的待查询文本中提取数值型的指标值。本申请实施例的技术方案方便医学研究人员等用户自行配置想提取的数值型指标,提高了数值型指标提取的灵活性,满足了用户的个性化数值型指标提取需求。

Description

数值型指标的提取方法和装置
技术领域
本公开涉及计算机技术领域,具体涉及一种数值型指标的提取方法和装置。
背景技术
随着社会信息化的发展,医疗服务已经进入了数字化和信息化时代。除了使用大型的数字化医疗设备,越来越多的医院开始注重整体的信息化建设与研究,以提高其服务水平与核心竞争力,各种医院管理信息系统和医疗临床信息系统正在普及。其中,病历是整个医疗信息化建设的核心,病历包含了患者的基本信息、健康信息、卫生事件摘要、医疗费用记录等等多种信息。
现有的医疗信息系统实现了将电子病历的非结构化文本进行结构化进而完成信息提取。图1是现有医疗信息系统的工作原理的示意图,参见图1,通过引入自然语言处理体系,对文本进行分词、词性标注、句法分析,最后进行信息提取,得到提取结果。这种方式仅能够对症状、部位甚至频次等信息方便地提取,但,对于那些经常进行临床研究的医生来说,需要获取的结果往往不是症状、部位甚至频次等信息,其需求是多样化的,而在使用现有医疗信息系统时往往无法得到满意的提取结果。
由此可知,现有技术指标提取方式固定,灵活性差,无法满足用户个性化的指标提取需求,例如数值型的指标提取需求。
公开内容
本公开提供了一种数值型指标的提取方法和装置,以解决或至少部分解决现有技术指标提取方式固定,灵活性差,无法满足用户数值型的指标获取需求的问题。
根据本公开的一个方面,提供了一种数值型指标的提取方法,包括:
接收指标提取基本信息,所述指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;所述指标值类型为数值型,所述对应的提取规则包括指示为提取的规则类型和指示为提取数值的规则解析;
确定待查询文本;
根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
根据本公开的另一个方面,提供了一种数值型指标的提取装置,包括:
指标信息接收模块,用于接收指标提取基本信息,所述指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;所述指标值类型为数值型,所述对应的提取规则包括指示为提取的规则类型和指示为提取数值的规则解析;
待查询文本确定模块,用于确定待查询文本;
数值指标提取模块,用于根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
本公开的有益效果是:本公开实施例的数值型指标提取技术方案,通过接收指标提取基本信息,指标提取基本信息包括指标关键词、指标值类型、提取规则;指标值类型为数值型,提取规则包括指示为提取的规则类型和指示为提取数值的规则解析,确定出待查询文本,从包含指标关键词的待查询文本中提取数值型的指标值。由于能够根据自定义的指标提取基本信息完成数值型指标的指标值提取,方便了用户根据自己的需求从相同电子病历中提取不同的数值型的指标值,提高了数值型指标提取的灵活性和个性化,优化了用户体验。
附图说明
图1是现有医疗信息系统的工作原理的示意图;
图2是本公开一个实施例的数值型指标的提取方法流程图;
图3是本公开另一个实施例的数值型指标的提取方法流程图;
图4是本公开又一个实施例的数值型指标提取服务器的硬件结构示意图;
图5是本公开再一个实施例的数值型指标的提取装置的功能框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开的设计构思在于:现有技术中,有的医生关心病人的组织学类型,以期针对性地进行病因类研究。而有的医生想知道病人第一次入院前是否有过化疗史,这样方便在取样时对这类样本进行排除,减少对研究结果的干扰。而现有的医疗信息系统指标提取方式固定,灵活性差,不能满足用户个性化数值型指标提取需求。针对这一问题,本实施例提出一种数值型指标的提取技术方案,通过接收指标提取基本信息,指标提取基本信息包括了指标关键词、指标值类型和提取规则;本公开中的指标值类型为数值型,提取规则包括指示为提取的规则类型和指示为提取数值的规则解析,确定出待查询文本,从包含指标关键词的待查询文本中提取数值型的指标值。真正实现了按照用户需求自行定义数值型指标并根据定义的数值型指标提取数值型指标值,提高了数值型指标提取的灵活性,优化了用户体验。
实施例一
参见图2,本实施例的数值型指标的提取方法包括如下步骤:
步骤S201,接收指标提取基本信息,所述指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;所述指标值类型为数值型,所述对应的提取规则包括指示为提取的规则类型和指示为提取数值的规则解析;
步骤S202,确定待查询文本;
步骤S203,根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
由图2所示可知,本实施例的数值型指标的提取方法接收指标提取基本信息,确定待查询文本,从包含指标关键词的待查询文本中提取数值作为指标值。满足了用户个性化数值型指标提取需求,解决了现有技术只能提取固定指标不支持用户自定义数值型指标提取的问题,优化了用户体验。
本申请实施例的关键在于提供了用户自定义电子病历指标功能,能够根据用户的个性化数值型指标提取需求进行指标提取,提高了数值型指标提取的灵活性。
需要说明的是,本实施例的数值型指标是指,使用数字来描述和表征的医学指标,比如,从“腹水量500ml”的描述中提取到的“腹水:500”就是一个典型的数值型指标。本实施例中数值型指标提取大致流程是接收客户端发送的指标提取基本信息后在数值型指标提取服务器上完成自定义指标的提取工作返回至客户端展示,满足用户个性化数值型指标提取需求。
一般的,指标提取基本信息包括指标关键词、指标值类型、与指标值类型对应的提取规则;这里的指标值类型为数值型,对应的提取规则包括指示为提取的规则类型和指示为提取数值的规则解析。
实际应用中,客户端可以提供交互界面供用户选择或输入指标提取基本信息。例如,客户端交互界面中显示新建指标提取界面,并在新建指标提取界面中显示:
指标名称配置项,用于配置数值型指标的名称,注:指标名称可用于后续将提取出的数值型指标值添加到电子病历表中时作为新建病历字段的名称;
指标关键词配置项,用于配置待提取的数值型指标的关键词;
提取单位配置项,用于定义提取的数值型指标的单位,在对数值型指标的提取时提取单位是必要的,提取单位例如:cm。
提取类型配置项,用于配置提取的指标的类型,本实施例中,提取类型为数值,即提取数值型指标;提取位置配置项,用于配置待提取文本对应的内容相对于关键词的方向;
排除位置配置项,用于配置排除分析文本相对于关键词的方向;
提取规则配置项,用于配置提取规则;
排除规则配置项,用于配置排除规则;
提取距离配置项,用于配置待查询文本的长度;
排除距离配置项,用于配置排除分析文本的长度;
类型以及排除关键词,排除关键词的作用是在匹配待查询文本时对包含排除关键词的待查询文本进行排除;
所属记录配置项,该配置项的内容作为电子病历表的标识,用于确定作为数值型指标值来源的电子病历表;
所属位置配置项,该配置项的内容作为病历字段的标识,用于配置作为数值型指标值来源的电子病历表的病历字段。
优选地,客户端还可以显示提取规则配置界面,在提取规则配置界面详细显示提取规则配置相关的信息;例如,显示以下信息:
规则名称配置项,用于配置规则的名称,例如,提取规则1,提取规则2等。
规则类型配置项,用于配置规则的类型。
规则描述配置项,用于对提取规则进行简单描述,方便以后重复使用时快速了解。
规则解析配置项,用于配置提取数值的正则表达式。
进一步地,客户端还可以显示排除规则配置界面,在排除规则配置界面详细显示排除规则配置相关的信息;例如,显示以下信息:
规则名称配置项,用于配置规则的名称,例如,排除规则1,排除规则4等。
规则类型配置项,用于配置规则的类型。
规则描述配置项,用于对排除规则进行简单描述,方便以后重复使用时快速了解。
规则解析配置项,用于配置排除关键词。
需要说明的是,上述数值型指标配置项只是示意性的举例,实际应用中,可以根据用户需求对上述配置项进行增减设置。
以下结合实施例对本申请的数值型指标提取的方法的实现步骤进行更详细的说明。
实施例二
实际应用中,本实施例的数值型指标提取的方法运行在数值型指标提取服务器上,数值型指标提取服务器根据接收的指标提取基本信息进行数值型指标提取。
参见图3,本实施例的数值型指标的提取方法包括如下步骤:
步骤S301,根据电子病历表的标识确定待查询的电子病历表,根据病历字段的标识在待查询的电子病历表中确定待查询的病历字段,根据待查询的病历字段确定待查询的电子病历表中每条病历记录对应的待查询文本;
本步骤中,根据接收到的指标提取基本信息中包括的电子病历表的标识和病历字段的标识来确定出待查询文本。
由于本实施例的数值型指标提取是针对电子病历表进行的,因此,这里对本实施例的电子病历表的结构进行一些说明。电子病历表是指保存了患者信息的数据表,表中通常包括多行多列,每一行称为一条记录,每一列称为一个病历字段。也就是说,每条记录中都包括多个病历字段。电子病历表中的每个记录都有一个唯一的记录标识,即,ID。根据电子病历表的不同,其包括的病历字段也不同。
电子病历表的标识是用于确定待提取数值型指标来源的电子病历表,即,在哪个电子病历表中提取数值型指标值。病历字段的标识是用于确定在电子病历表中的哪个或哪些病历字段中提取数值型指标的指标值。
另外,实际应用中,由于电子病历的填写不规范导致在提取指标时往往不能提前准确得知作为数值型指标值来源的病历字段,所以通常可以多配置几个病历字段,这样,能够提高提取到数值型指标值的概率。
本步骤中,在根据病历字段标识确定待查询的病历字段后,获取待查询的电子病历表中的每条病历记录对应的待查询的病历字段的内容,作为每条病历记录对应的待查询文本。
对于某条病历记录,如果该病历记录对应的病历字段为一个,则直接将该病历字段的内容作为该病历记录对应的待查询文本。
如果该病历记录对应的病历字段为多个,则在确定病历记录对应的待查询文本可以将多个病历字段的内容进行拼接,将拼接后的内容作为该病历记录对应的待查询文本。
可以理解,拼接发生在至少两个病历字段中有内容时,具体的拼接处理可以是,直接将每个病历字段的内容进行拼接,而不考虑病历字段之间顺序。本实施例中,通过指标提取基本信息中的病历字段标识能够缩小指标提取的查询范围,提高准确性和处理速度。如前述,每个电子病历表中往往包括多列,每一列都对应一个病历字段,如果未指定病历字段标识,则数值型指标提取服务器在进行数值型指标提取时,需要在确定出的电子病历表中每条病历记录的每个病历字段中进行查找,工作量大,不仅提取速度慢,而且还可能碰到很多干扰信息,影响数值型指标提取结果。而通过病历字段标识进行定位并确定出待查询文本,减轻了工作量,提高了提取速度,避免了干扰信息的不利影响。
当然,实际应用中,也可以不指定病历字段标识,那么数值型指标提取服务器按照默认配置进行查找和确定待查询文本,即在电子病历表中每条病历记录的所有病历字段中进行查找后确定出待查询文本。
步骤S302,从所有病历记录对应的待查询文本中选取一条病历记录对应的待查询文本。
按照前面的描述可知,对于一个待查询的电子病历表,可以根据病历字段的标识在该电子病历表中确定出多个待查询的病历字段;并且通过获取每条病历记录对应的待查询的病历字段的内容,可以得到每条病历记录对应的待查询文本。
例如,在步骤S301中得到了80条病历记录对应的80个待查询文本,从这80个病历记录对应的待查询文本中取出一个病历记录对应的待查询文本进行处理。具体获取待查询文本时,可以按照80个病历记录的顺序依次获取,或者也可以随机从80个病历记录中获取,只要保证对这80个病历记录对应的待查询文本进行遍历处理即可。
步骤S303,确定并记录指标关键词在待查询文本中的位置信息。
在步骤S302中选取了一个病历记录的待查询文本,在本步骤中,利用指标提取基本信息中的指标关键词确定并记录指标关键词在待查询文本中的位置信息。该位置信息可以包含一个起始位置和一个结束位置,也可以仅包含一个起始位置。其中,起始位置是指关键词(如,“病灶”)的第一字符(如,“病”)在待查询文本中的位置,结束位置是指关键词的最后一个字符(如,“灶”)在待查询文本中的位置。
例如,利用指标提取基本信息中的指标关键词“病灶”定位到“病灶”在一条病历记录对应的待查询文本“张三子宫直肠窝处直径约6cm硬病灶消毒麻醉”中出现的位置。
步骤S304,根据排除位置和排除距离从待查询文本中确定排除分析文本。
本实施例中,指标提取基本信息还包括:排除规则,排除规则包括:指示为排除的规则类型和指示为排除关键词的规则解析。在确定待查询文本之后,以指标关键词在所述待查询文本中的位置为起始位置,在排除位置指示的方向上,将排除距离指示的长度对应的待查询文本中的内容作为排除分析文本。
这里的排除位置指示的方向可以是:前,后,或前后。当排除位置指示的方向为前后时,以指标关键词在待查询文本中的位置为起始位置,在前后方向上确定出的内容作为排除分析文本。排除距离是用来获取的排除分析文本的长度,这里的长度是字符长度。如排除距离1,代表以关键词在待查询文本中的位置为起始位置,将与该关键词相距1个字符长度的内容作为排除分析文本。需要指出的是,指标关键词本身是有长度的,如果排除位置指示的方向为“前”,排除距离为1个字符,则可以以指标关键词的第一个字符开始向前取1个字符的内容为排除分析文本;如果排除位置指示的方向为“后”,排除距离为1个字符,则可以以指标关键词的最后一个字符开始向后取1个字符的内容为排除分析文本。
例如,根据排除位置(如,前后)和排除距离(如,4个字符长度)从待查询文本“张三子宫直肠窝处直径约6cm硬病灶消毒麻醉”中得到排除分析文本“6cm硬病灶消毒麻醉”。
根据排除位置和排除距离得到排除分析文本后执行步骤S305;
步骤S305,判断排除分析文本是否包含排除关键词。是则,将该待查询文本排除,返回执行步骤S302。否则,执行步骤S306。
本步骤中,比较步骤S304得到的排除分析文本(如“6cm硬病灶消毒麻醉”)是否包含排除关键词(排除关键词如,“未见”)。例如,判断“6cm硬病灶消毒麻醉”是否包含“未见”,经过判断可知,“6cm硬病灶消毒麻醉”未包含“未见”,即可确定出排除分析文本不包含排除关键词。
实际应用中,如果一条病历记录对应的待查询文本按照排除距离和排除位置得到的排除分析文本包含排除关键词,则排除这条病历记录,无需执行后续数值型指标提取的步骤。这是因为,如果排除分析文本包含排除关键词明这条病历记录中不存在相应的数值型指标的指标值。例如,如果步骤S304中排除分析文本“未见病灶”包含了排除关键词“未见”则表明这条病历记录对应的待查询文本中是不能提取到数值的,由此,通过使用排除规则可以进一步提高指标提取速度。
如果排除分析文本不包含排除关键词,则执行返回执行步骤S302,确定出下一个病历记录对应的待查询文本。
步骤S306,根据提取位置和提取距离从待查询文本中确定待提取文本。
本步骤中,先确定并记录指标关键词在待查询文本中的位置信息;然后,以指标关键词在待查询文本中的位置为起始位置,在提取位置指示的方向上,将提取距离指示的长度对应的待查询文本中的内容作为待提取文本。待提取文本的获取方式和上述排除分析文本的获取方式原理相同,此处不再赘述。
例如,以指标关键词在待查询文本中的位置为起始位置,根据提取位置指示的“前”方向上,将提取距离指示的长度(9个字符长度)在待查询文本“盆腹腔内大于1cm左右种植病灶”中确定出待提取文本“大于1cm左右种植”。
步骤S307,按照提取规则从待提取文本中获取数值作为指标值。
本步骤是按照包括指示为提取的规则类型和指示为提取数值的规则解析的提取规则从步骤S306得到待提取文本中提取数值,得到指标值。
这里的提取规则,也是包括在指标提取基本信息中的。提取规则中记录了提取数值的规则解析。例如,提取规则配置项中配置有提取数值的正则表达式:\d+,根据接收到的指标提取基本信息的提取规则中的正则表达式“\d+”查找待提取文本中的数值,得到数值型指标的指标值。
例如,按照提取规则从待提取文本“大于1cm左右种植”中提取得到数值1,即指标值。
执行完步骤S307后,返回执行步骤S302确定出下一个病历记录对应的待查询文本。当查找了所有病历记录对应的待查询文本后,流程结束。
本实施例的数值型指标提取方法在根据接收到的指标提取基本信息,进行数值型指标提取后可以在电子病历表的标识指示的电子病历表中增加一个病历字段,例如病历字段名为“canyubingzao”,将从对应病历记录中提取出的数值型指标“残余病灶”的指标值分别添加到该病历字段中。实施例三
与前述方法相对应,如图4所示,为本申请数值型指标提取服务器的一种硬件结构图,除了图4所示的处理器和存储器之外,根据该数值型指标提取服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图4中,存储器:存储机器可执行指令代码。
处理器:与存储器通信,读取和执行存储器中存储的所述指令代码,实现本申请上述示例公开的数值型指标的提取操作。
这里,存储器可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
请参考图5,本申请还提供了一种数值型指标的提取装置50,包括:
指标信息接收模块501,接收指标提取基本信息,所述指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;所述指标值类型为数值型,所述对应的提取规则包括指示为提取的规则类型和指示为提取数值的规则解析;
待查询文本确定模块502,确定待查询文本;
数值指标提取模块503,根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
所述指标提取基本信息还包括电子病历表的标识和病历字段的标识;
所述待查询文本确定模块502,具体用于根据所述电子病历表的标识确定待查询的电子病历表,根据所述病历字段的标识在所述待查询的电子病历表中确定待查询的病历字段,获取所述待查询的电子病历表中的每条病历记录对应的所述待查询的病历字段的内容,作为所述病历记录对应的待查询文本。
所述指标提取基本信息还包括:提取位置和提取距离;
数值指标提取模块503,具体用于确定并记录所述指标关键词在所述待查询文本中的位置信息;以所述指标关键词在所述待查询文本中的位置为起始位置,在所述提取位置指示的方向上,将所述提取距离指示的长度对应的所述待查询文本中的内容作为待提取文本;从所述待提取文本中提取出数值,作为指标值。
所述指标提取基本信息还包括:排除规则,所述排除规则包括:指示为排除的规则类型和指示为排除关键词的规则解析;
该装置还包括:
排除模块,用于在确定待查询文本之后,确定所述待查询文本是否包含所述排除关键词;若包含,则排除所述待查询文本;若不包含,则通知数值指标提取模块根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
所述指标提取基本信息还包括:排除位置和排除距离;
所述排除模块,具体用于确定并记录所述指标关键词在所述待查询文本中的位置信息,以所述指标关键词在所述待查询文本中的位置为起始位置,在所述排除位置指示的方向上,将所述排除距离指示的长度对应的所述待查询文本中的内容作为排除分析文本,确定所述排除分析文本是否包含所述排除关键词。
综上所述,本公开实施例的数值型指标提取技术方案,方便用户根据个性化数值型提取需求从相同电子病历中提取不同的数值型指标,提高了数值型指标提取的灵活性和个性化,优化了用户体验。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本公开的具体实施方式,在本公开的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本公开的目的,本公开的保护范围以权利要求的保护范围为准。

Claims (10)

1.一种数值型指标的提取方法,其特征在于,所述方法包括:
接收提取时用户输入的指标提取基本信息,所述指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;所述指标值类型为数值型,所述对应的提取规则包括提取规则的类型和用于提取数值的规则解析;所述指标提取基本信息还包括:电子病历表的标识和病历字段的标识;其中,在新建指标提取界面上输入所述指标关键词、所述指标值类型、所述电子病历表的标识和病历字段的标识,在提取规则配置界面上输入所述指标值类型对应的提取规则;
根据所述电子病历表的标识和病历字段的标识,确定所述电子病历表中每一条病历记录对应的待查询文本;
根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
2.根据权利要求1所述的数值型指标的提取方法,其特征在于,所述根据所述电子病历表的标识和病历字段的标识,确定所述电子病历表中每一条病历记录对应的待查询文本,包括:
根据所述电子病历表的标识确定待查询的电子病历表;
根据所述病历字段的标识在所述待查询的电子病历表中确定待查询的病历字段;
获取所述待查询的电子病历表中的每条病历记录对应的所述待查询的病历字段的内容,作为所述病历记录对应的待查询文本。
3.根据权利要求2所述的数值型指标的提取方法,其特征在于,所述指标提取基本信息还包括:提取位置和提取距离,在所述新建指标提取界面上输入所述提取位置和所述提取距离;
根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值,包括:
确定并记录所述指标关键词在所述待查询文本中的位置信息;
以所述指标关键词在所述待查询文本中的位置为起始位置,在所述提取位置指示的方向上,将所述提取距离指示的长度对应的所述待查询文本中的内容作为待提取文本;
从所述待提取文本中提取出数值,作为指标值。
4.根据权利要求2所述的数值型指标的提取方法,其特征在于,所述指标提取基本信息还包括:排除规则,在排除规则配置界面上输入所述排除规则,所述排除规则包括:排除规则的类型和用于定义排除关键词的规则解析;
所述确定所述电子病历表中每一条病历记录对应的待查询文本之后,该方法还包括:
确定所述待查询文本是否包含所述排除关键词;
若包含,则排除所述待查询文本;
若不包含,则根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
5.根据权利要求4所述的数值型指标的提取方法,其特征在于,所述指标提取基本信息还包括:排除位置和排除距离,在所述新建指标提取界面上输入所述排除位置和所述排除距离;
所述确定所述待查询文本是否包含所述排除关键词,包括:
确定并记录所述指标关键词在所述待查询文本中的位置信息;
以所述指标关键词在所述待查询文本中的位置为起始位置,在所述排除位置指示的方向上,将所述排除距离指示的长度对应的所述待查询文本中的内容作为排除分析文本;
确定所述排除分析文本是否包含所述排除关键词。
6.一种数值型指标的提取装置,其特征在于,所述装置包括:
指标信息接收模块,用于接收提取时用户输入的指标提取基本信息,所述指标提取基本信息包括指标关键词、指标值类型以及与指标值类型对应的提取规则;所述指标值类型为数值型,所述对应的提取规则包括提取规则的类型和用于提取数值的规则解析;所述指标提取基本信息还包括:电子病历表的标识和病历字段的标识;其中,在新建指标提取界面上输入所述指标关键词、所述指标值类型、所述电子病历表的标识和病历字段的标识,在提取规则配置界面上输入所述指标值类型对应的提取规则;
待查询文本确定模块,用于根据所述电子病历表的标识和病历字段的标识,确定所述电子病历表中每一条病历记录对应的待查询文本;
数值指标提取模块,用于根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
7.根据权利要求6所述的数值型指标的提取装置,其特征在于:
所述待查询文本确定模块,具体用于根据所述电子病历表的标识确定待查询的电子病历表,根据所述病历字段的标识在所述待查询的电子病历表中确定待查询的病历字段,获取所述待查询的电子病历表中的每条病历记录对应的所述待查询的病历字段的内容,作为所述病历记录对应的待查询文本。
8.根据权利要求6所述的数值型指标的提取装置,其特征在于,
所述指标提取基本信息还包括:提取位置和提取距离,在所述新建指标提取界面上输入所述提取位置和所述提取距离;
数值指标提取模块,具体用于确定并记录所述指标关键词在所述待查询文本中的位置信息;以所述指标关键词在所述待查询文本中的位置为起始位置,在所述提取位置指示的方向上,将所述提取距离指示的长度对应的所述待查询文本中的内容作为待提取文本;从所述待提取文本中提取出数值,作为指标值。
9.根据权利要求6所述的数值型指标的提取装置,其特征在于,
所述指标提取基本信息还包括:排除规则,在排除规则配置界面上输入所述排除规则,所述排除规则包括:排除规则的类型和用于定义排除关键词的规则解析;
该装置还包括:
排除模块,用于在确定待查询文本之后,确定所述待查询文本是否包含所述排除关键词;若包含,则排除所述待查询文本;若不包含,则通知数值指标提取模块根据所述提取规则从包含所述指标关键词的所述待查询文本中提取数值型的指标值。
10.根据权利要求9所述的数值型指标的提取装置,其特征在于,所述指标提取基本信息还包括:排除位置和排除距离,在所述新建指标提取界面上输入所述排除位置和所述排除距离;
所述排除模块,具体用于确定并记录所述指标关键词在所述待查询文本中的位置信息,以所述指标关键词在所述待查询文本中的位置为起始位置,在所述排除位置指示的方向上,将所述排除距离指示的长度对应的所述待查询文本中的内容作为排除分析文本,确定所述排除分析文本是否包含所述排除关键词。
CN201710331517.2A 2017-05-11 2017-05-11 数值型指标的提取方法和装置 Active CN107545934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710331517.2A CN107545934B (zh) 2017-05-11 2017-05-11 数值型指标的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710331517.2A CN107545934B (zh) 2017-05-11 2017-05-11 数值型指标的提取方法和装置

Publications (2)

Publication Number Publication Date
CN107545934A CN107545934A (zh) 2018-01-05
CN107545934B true CN107545934B (zh) 2021-04-27

Family

ID=60966892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710331517.2A Active CN107545934B (zh) 2017-05-11 2017-05-11 数值型指标的提取方法和装置

Country Status (1)

Country Link
CN (1) CN107545934B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036576B (zh) * 2018-07-23 2019-09-06 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质
CN109830272B (zh) * 2019-01-07 2022-08-30 平安科技(深圳)有限公司 数据标准化方法、装置、计算机设备及存储介质
CN109885658B (zh) * 2019-02-19 2021-10-26 安徽省泰岳祥升软件有限公司 指标数据提取方法、装置和计算机设备
CN110472037A (zh) * 2019-08-21 2019-11-19 北京大学第三医院(北京大学第三临床医学院) 一种医学文献的指标和数值的提取方法及系统
CN114021563A (zh) * 2021-11-19 2022-02-08 浙江太美医疗科技股份有限公司 医疗信息中数据的抽取方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488123A (zh) * 2008-01-16 2009-07-22 鸿富锦精密工业(深圳)有限公司 文本解析系统及方法
CN104820697A (zh) * 2015-04-28 2015-08-05 迈德高武汉生物医学信息科技有限公司 一种医疗数据挖掘方法及系统
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN105095653A (zh) * 2015-07-13 2015-11-25 湖南互动传媒有限公司 医疗大数据应用基础服务系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488123A (zh) * 2008-01-16 2009-07-22 鸿富锦精密工业(深圳)有限公司 文本解析系统及方法
CN104820697A (zh) * 2015-04-28 2015-08-05 迈德高武汉生物医学信息科技有限公司 一种医疗数据挖掘方法及系统
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN105095653A (zh) * 2015-07-13 2015-11-25 湖南互动传媒有限公司 医疗大数据应用基础服务系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于规则库的电子病历信息抽取研究;苏韶生;《2014中华医院信息网络大会论文集》;20140522;1-4 *
苏韶生.基于规则库的电子病历信息抽取研究.《2014中华医院信息网络大会论文集》.2014,1-4. *
非结构化电子病历信息的抽取;倪晓华;《中国数字医学》;20161215(第12期);89-91 *

Also Published As

Publication number Publication date
CN107545934A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107545934B (zh) 数值型指标的提取方法和装置
CN107545023B (zh) 文本型指标的提取方法和装置
CN110134796B (zh) 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
US10452768B2 (en) Managing source annotation metadata
CN111863170A (zh) 一种电子病历信息的生成方法、装置及系统
US8868556B2 (en) Method and device for tagging a document
CN106095738B (zh) 推荐表单片段
CA2853627C (en) Automatic creation of clinical study reports
CN109830285B (zh) 一种医学影像文件处理方法和装置
CN106156111B (zh) 专利文件检索方法、装置和系统
US9535892B1 (en) Method and system for generating unique content based on business entity information received from a user
CN110134970B (zh) 标题纠错方法和装置
JP5075653B2 (ja) データベース管理方法、データベース管理装置、データベース管理プログラム、及び、データベースシステム
CN109815390B (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN111985241A (zh) 医学信息查询方法、装置、电子设备及介质
CN109299238B (zh) 一种数据查询方法和装置
Lin et al. An exploratory study using an openEHR 2-level modeling approach to represent common data elements
Janaswamy et al. Semantic interoperability and data mapping in EHR systems
US9075799B1 (en) Methods and apparatus for query formulation
EP3901875A1 (en) Topic modelling of short medical inquiries
CN112151187B (zh) 信息查询方法、装置、计算机设备和存储介质
CN111223533B (zh) 一种医疗数据检索方法及系统
CN116737879A (zh) 知识库查询方法、装置、电子设备及存储介质
JP7125322B2 (ja) 属性抽出装置および属性抽出方法
CN116343980A (zh) 一种基于智慧医疗复诊随访数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant