CN107545023B - 文本型指标的提取方法和装置 - Google Patents

文本型指标的提取方法和装置 Download PDF

Info

Publication number
CN107545023B
CN107545023B CN201710331178.8A CN201710331178A CN107545023B CN 107545023 B CN107545023 B CN 107545023B CN 201710331178 A CN201710331178 A CN 201710331178A CN 107545023 B CN107545023 B CN 107545023B
Authority
CN
China
Prior art keywords
index
text
medical record
index key
key value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710331178.8A
Other languages
English (en)
Other versions
CN107545023A (zh
Inventor
丁杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201710331178.8A priority Critical patent/CN107545023B/zh
Publication of CN107545023A publication Critical patent/CN107545023A/zh
Application granted granted Critical
Publication of CN107545023B publication Critical patent/CN107545023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种文本型指标的提取方法和装置,方法包括:接收指标提取基本信息,指标提取基本信息包括指标键值对,指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;指标值的类型为文本型;确定待查询文本;根据指标关键词对待查询文本进行分词;若分词结果与指标键值对匹配,则从匹配的指标键值对中提取指标值。本申请实施例的技术方案方便医学研究人员等用户自行配置想要提取的医学指标,满足了用户的文本型指标提取需求,优化了用户体验。

Description

文本型指标的提取方法和装置
技术领域
本公开涉及计算机技术领域,具体涉及一种文本型指标提取方法和装置。
背景技术
随着社会信息化的发展,医疗服务已经进入了数字化和信息化时代。除了使用大型的数字化医疗设备,越来越多的医院开始注重整体的信息化建设与研究,以提高其服务水平与核心竞争力,各种医院管理信息系统和医疗临床信息系统正在普及。其中,病历是整个医疗信息化建设的核心,病历包含了患者的基本信息、健康信息、卫生事件摘要、医疗费用记录等等多种信息。
现有的医疗信息系统实现了将电子病历的非结构化文本进行结构化进而完成信息提取。图1是现有医疗信息系统的工作原理的示意图,参见图1,通过引入自然语言处理体系,对文本进行分词、词性标注、句法分析,最后进行信息提取,得到提取结果。这种方式仅能够对症状、部位甚至频次等信息方便地提取,但,对于那些经常进行临床研究的医生来说,现有技术往往无法提供用户满意的指标提取结果。
由此可知,现有技术电子病历指标提取方式固定,灵活性差,无法满足用户个性化的指标获取需求,例如文本型的指标提取需求。
发明内容
本公开提供了一种文本型指标的提取方法和装置,以解决或至少部分解决现有技术指标提取固定,灵活性差,无法满足用户个性化文本型指标提取需求的问题。
根据本公开的一个方面,提供了一种文本型指标的提取方法,包括:
接收指标提取基本信息,所述指标提取基本信息包括指标键值对,所述指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;所述指标值的类型为文本型;
确定待查询文本;
根据所述指标关键词对所述待查询文本进行分词;
若分词结果与所述指标键值对匹配,则从匹配的指标键值对中提取指标值。
根据本公开的另一个方面,提供了一种文本型指标的提取装置,包括:
信息接收模块,用于接收指标提取基本信息,所述指标提取基本信息包括指标键值对,所述指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;所述指标值的类型为文本型;
待查询文本确定模块,用于确定待查询文本;
分词模块,用于根据所述指标关键词对所述待查询文本进行分词;
文本指标提取模块,用于若分词结果与所述指标键值对匹配,则从匹配的指标键值对中提取指标值。
本公开的有益效果是:本公开实施例的文本型指标提取技术方案,通过接收指标提取基本信息,指标提取基本信息包括指标键值对,指标键值对包括指标关键词以及与指标关键词对应的预设的指标值,然后确定待查询文本,根据指标关键词对待查询文本进行分词,将分词结果和指标键值对匹配,若分词结果与所述指标键值对匹配,则从匹配的指标键值对中提取指标值。由于能够根据自定义的指标键值对完成文本型指标值的提取,从而方便根据用户个性化需求从相同电子病历中提取用户满意的文本型指标值,进而方便后续利用提取的指标值为临床研究与决策提供服务,提高了文本型指标提取的灵活性和个性化,优化了用户体验。
附图说明
图1是现有医疗信息系统的工作原理的示意图;
图2是本公开一个实施例的文本型指标的提取方法的流程图;
图3是本公开另一个实施例的文本型指标的提取方法的流程图;
图4是本公开一个文本型指标提取服务器的硬件结构示意图;
图5是图4中文本型指标的提取装置的功能框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开的设计构思在于:现有技术中,有的医生关心病人的组织学类型,以期针对性地进行病因类研究。而有的医生需要想知道病人第一次入院前是否有过化疗史,方便在研究取样时对这类样本进行排除,减少对研究结果的干扰。但是医生在使用现有医疗信息系统时由于现有医疗信息系统指标提取固定,灵活性差,不能满足医生等用户的个性化指标提取需求。针对这一问题,本实施例提出一种文本型指标提取技术方案。通过接收指标提取基本信息,指标提取基本信息包括用户定义的指标键值对,指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;确定待查询文本,根据指标关键词对待查询文本进行分词,并根据分词结果与指标键值对的匹配情况,从匹配的指标键值对中提取指标值。由于能够根据用户自定义的文本型指标的关键词和对应的预设的指标值进行文本型指标提取,真正实现了按照用户需求提取文本型指标的有益效果,优化了用户体验。
实施例一
参见图2,本实施例的文本型指标提取方法包括如下步骤:
步骤S201,接收指标提取基本信息,所述指标提取基本信息包括指标键值对,所述指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;所述指标值的类型为文本型;
步骤S202,确定待查询文本;
步骤S203,根据所述指标关键词对所述待查询文本进行分词;
步骤S204,若分词结果与所述指标键值对匹配,则从匹配的指标键值对中提取指标值。
由图2所示可知,本实施例的文本型指标的提取方法,通过接收指标提取基本信息,然后确定待查询文本,根据指标关键词对待查询文本进行分词,将分词结果和指标键值对进行比较确定匹配的指标键值对,并提取出预设的文本型指标值,满足了用户的个性化文本型的指标提取需求,解决了现有技术指标提取方式固定,灵活性差的问题,优化了用户体验。
为了保证根据用户的个性化需求进行文本型指标提取,本实施例从客户端接收指标提取基本信息后再进行指标提取工作。一般的,指标提取基本信息包括:指标键值对,指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;本实施例中指标值的类型为文本型。文本型指标是指,使用文字来描述和表征的医学指标,比如从“[喉]高分化鳞状细胞癌”的描述中提取到的“分化程度:高分化”就是一个文本型指标。
实际应用中,为了获得用户的个性化指标提取需求信息,客户端可以提供交互界面供用户选择或输入指标提取基本信息。例如,客户端交互界面中显示:
指标名称配置项,用于配置文本型指标的名称;这里的指标名称配置项的内容可用于后续将文本型指标值添加到电子病历表时作为文本型指标的病历字段名称。
所属记录配置项,该配置项的内容作为电子病历表的标识,用于配置作为文本型指标来源的电子病历表;
所属位置配置项,该配置项的内容作为病历字段的标识,用于配置作为文本型指标来源的病历字段;该配置项为可选配置项。
关键词配置项,用于配置文本型指标的指标关键词;这里的指标关键词配置项中每个指标关键词都可以包括多个元素,例如,一个指标关键词为{浆液性、瘤},包含了两个元素:浆液性和瘤。另一个指标关键词为{卵黄囊瘤}包含一个元素。
指标值配置项,用于配置每一个指标关键词对应的预设指标值。例如,指标关键词{浆液性、瘤}对应的指标值为:浆液性囊腺瘤。这里的浆液性囊腺瘤即是用户根据自己的需求想要提取的文本型指标值。
通过在关键词配置项配置指标关键词并在指标值配置项对应配置每个指标关键词的文本型的指标值,从而得到指标关键词以及指标关键词对应的指标值,即,得到指标键值对。需要说明的是,上述配置项只是示意性的举例,实际应用中,还可以根据需求对上述配置项进行增减。
以下对本实施例的文本型指标的提取实现步骤进行更详细的说明。
实施例二
如图3所示,本实施例的文本型指标的提取方法包括如下步骤:
步骤S301,根据电子病历表的标识确定待查询的电子病历表,根据病历字段的标识在待查询的电子病历表中确定待查询的病历字段,根据待查询的病历字段确定待查询的电子病历表中每条病历记录对应的待查询文本;
本步骤中,根据接收到的指标提取基本信息中包括的电子病历表的标识和病历字段的标识来确定出待查询文本。
由于本实施例的文本型指标提取是针对电子病历表进行的,因此,这里对本实施例的电子病历表的结构进行一些说明。电子病历表是指保存了患者信息的数据表,表中通常包括多行多列,每一行称为一条记录,每一列称为一个病历字段。也就是说,每条记录中都包括多个病历字段。电子病历表中的每个记录都有一个唯一的记录标识,即,ID。根据电子病历表的内容不同,其包括的病历字段也不同。
电子病历表的标识是用于确定待提取文本型指标来源的电子病历表,即,在哪个电子病历表中提取文本型指标值。病历字段的标识是用于确定在电子病历表中的哪个或哪些病历字段中提取文本型指标的指标值。
实践中,可以按照实际需求通过客户端配置电子病历表的标识以及病历字段标识,对此不作限制。
另外,实际应用中,由于电子病历的填写不规范导致在提取文本型指标时往往不能提前准确得知作为文本型指标值来源的病历字段,所以通常可以多配置几个病历字段,这样,能够提高提取到文本型指标值的概率。
本步骤中,在根据病历字段标识确定待查询的病历字段后,获取待查询的电子病历表中的每条病历记录对应的待查询的病历字段的内容,作为每条病历记录对应的待查询文本。
对于某条病历记录,如果该病历记录对应的病历字段为一个,则直接将该病历字段的内容作为该病历记录对应的待查询文本。
如果该病历记录对应的病历字段为多个,则在确定病历记录对应的待查询文本可以将多个病历字段的内容进行拼接,将拼接后的内容作为该病历记录对应的待查询文本。
可以理解,拼接发生在至少两个病历字段中有内容时,具体的拼接处理可以是,直接将每个病历字段的内容进行拼接,而不考虑病历字段之间顺序。本实施例中,通过指标提取基本信息中的病历字段标识能够缩小指标提取的查询范围,提高准确性和处理速度。如前述,每个电子病历表中往往包括多列,每一列都对应一个病历字段,如果未指定病历字段标识,则文本型指标提取服务器在进行文本型指标提取时,需要在确定出的电子病历表中每条病历记录的每个病历字段中进行查找,工作量大,不仅提取速度慢,而且还可能碰到很多干扰信息,影响指标提取结果。而通过病历字段标识进行定位并确定出待查询文本,减轻了工作量,提高了提取速度,避免了干扰信息的不利影响。
当然,实际应用中,也可以不指定病历字段标识,那么文本型指标提取服务器按照默认配置进行查找,即在电子病历表中每条病历记录的所有病历字段中进行查找后确定出待查询文本。
步骤S302,从所有病历记录对应的待查询文本中选取一条病历记录对应的待查询文本。
例如,在步骤S301中,得到了40条病历记录对应的40个待查询文本,那么在本步骤中从这40条病历记录对应的40个待查询文本取出一个病历记录对应的待查询文本如“浆液性乳头状癌”进行处理。优选地,本实施例中按照病历记录的顺序,依次取出每条病历记录对应的待查询文本。
步骤S303,根据指标关键词对待查询文本进行分词;
本步骤中,根据接收的指标提取基本信息中的指标关键词对待查询文本进行分词处理。
实际应用中可以根据接收到的指标提取基本信息中的指标关键词的所有元素构建医学词典库,而后利用医学词典库对待查询文本进行分词。在根据指标关键词构建医学词典库,将指标关键词的数据类型设置为list类型,以支持每个指标关键词都能包括多个元素。可以理解,一条指标键值对中的指标关键词包含的元素越多,该指标关键词list里的成员就越多。根据每个指标关键词包含的元素数目不同,则每个指标键值对中指标关键词的长度也不同。通过采取map封装指标键值对,并利用指标关键词对分词结果进行匹配,大大提高运行效率,并且代码更简洁,节省了开发时间,方便维护。
本实施例中,构建医学词典库是由于:虽然现有的很多分词工具都带有分词词库,但这类分词词库中的关键词词语覆盖不全(因为不能自定义),即便是专业的医学词典库也存在这一问题。毕竟,医院等医疗机构的电子病历目前都是人工输入的,每个医疗人员用词习惯与专业的标准名词可能有差异,这种差异会直接影响文本型指标提取的准确率。所以,本实施例需要一个能够基于用户自定义关键词构建的医学词典库。另外,根据用户自定义的指标关键词生成医学词典库后,后续对待查询文本的分词只根据医学词典库中的指标关键词进行。比如对于待查询文本“患有囊腺癌”,假设本实施例构建的医学词典库中配置有指标关键词“腺癌”,则根据该医学词典库对“患有囊腺癌”这段待查询文本的分词结果是:“患、有、囊、腺癌”,避免了现有分词词库中使用“囊腺”这一关键词进行分词时将该待查询文本分为“患有、囊腺、癌”,进而无法提取得到用户想要的组织学类型“腺癌”指标。即,干扰了文本型指标的匹配和提取工作。可知如果分词词库构建不合理,会直接影响文本型指标提取的准确性。相应的,这需要用户对专业医学词汇进行一定程度的了解,以免影响分词效果。本实施例中根据接收到的指标提取基本信息中的指标关键词构建医学词典库能够大大减少干扰,保证指标提取的准确性。
在得到医学词典库后,根据医学词典库的指标关键词对待查询文本进行分词。具体的,本实施例在利用医学词典库中的指标关键词对待查询文本进行分词时,是利用医学词典库中的所有指标关键词中的元素进行分词的,例如,接收到的指标提取基本信息包括五个指标键值对,分别为:第一个指标键值对:指标关键词{浆液性、瘤}→浆液性囊腺瘤;第二个指标键值对:指标关键词{浆液性、癌}→浆液性囊腺癌;第三个指标键值对:指标关键词{粘液性、瘤}→粘液性囊腺瘤;第四个指标键值对:指标关键词{粘液性、癌}→粘液性囊腺癌;第五个指标键值对:指标关键词{卵黄囊瘤}→卵黄囊瘤。这里的“→”表示对应。得到这些指标键值对后,取出指标关键词具体是取出指标关键词包含的元素构建医学词典库,对于各指标关键词中重复的元素,构建医学词典库时,只取一个,例如,指标关键词{浆液性、瘤}和指标关键词{浆液性、癌}中都包括元素浆液性,则在构建医学词典库时,只取一个浆液性。然后利用构建医学词典库对待查询文本进行分词,
如,根据关键词:{浆液性、癌},对一个待查询文本:“浆液性乳头状癌”进行分词,得到分词结果{浆液性、乳、头、状、癌}然后执行步骤S304。
另外,需要说明的是,上述以构建医学词典库为例说明了如何保存指标关键词并后续用于分词,在本发明的其他实施例中可以采用其它数据结构,不限于词典,只要能够实现把指标关键词单独保存起来并用于分词的功能即可。
步骤S304,判断分词结果是否与指标键值对匹配;是则,执行步骤S305,否则,返回执行步骤S302。
这里指标键值对是从接收到的指标提取基本信息中获取的,指标键值对包括指标关键词以及与指标关键词对应的预设的指标值。
接上例,在本步骤中判断分词结果{浆液性、乳、头、状、癌}与每个指标键值对的指标关键词进行匹配,可选地,一种判断方式是检测分词结果中是否包含指标键值对中的指标关键词,若包含,则确定分词结果与指标键值对匹配;否则,不匹配。这里,为了保证文本型指标提取的准确性,当一个指标键值对的指标关键词包含多个元素时,只有分词结果包含了指标关键词的全部元素才确定分词结果匹配了一个指标键值对。
例如,将分词结果{浆液性、乳、头、状、癌}与一个指标键值对的指标关键词{浆液性、癌}进行匹配,经过判断可以确定分词结果{浆液性、乳、头、状、癌}中包含了指标关键词{浆液性、癌}的全部元素,则确定匹配成功,而后执行步骤S305。
在其他实施例中,如果分词结果与各个指标键值对的指标关键词均不匹配,则返回执行步骤S302获取下一个病历记录对应的待查询文本。
步骤S305,判断匹配的指标键值对是否为多个;是则,执行步骤S306。否则,执行步骤S307。
这里的多个是指两个以上。实际应用中,每个用户的需求可能不同,对应的接收到的指标提取基本信息包括的指标键值对可能不止一个,每个指标键值对中的指标关键词也可能包括不止一个元素。例如,用户需求的指标关键词需要多个元素限定。并且,各指标关键词包含的元素可能重合。那么,在根据接收到的指标提取基本信息进行文本型指标提取时,就会发生分词结果与多个指标键值对匹配的情况。
例如,指标提取基本信息中的一个指标键值对的指标关键词包含三个元素,分别为“交界”、“浆液性”和“瘤”。另一个指标键值对的指标关键词包含两个元素,分别为“浆液性”和“瘤”。则对于一个分词结果{交界、性、浆液性、乳、头、状、瘤}与上述两个指标键值对进行匹配后,发现该分词结果与两个指标键值对均匹配。那么对于分词结果{交界、性、浆液性、乳、头、状、瘤}而言,其匹配的指标键值对就是两个。
实际应用中,这一步骤不是必须的,执行这一步骤的目的是为了提高指标提取的准确性,使得提取的文本型指标更满足用户需求。
步骤S306,比较匹配的多个指标键值对的指标关键词的长度,选择长度最长的指标关键词所属的指标键值对;然后执行步骤S307;
例如,对于预设的指标值“浆液性乳头状囊腺癌”和“交界性浆液性囊腺癌”,当一个分词结果能够匹配到一个指标键值对中的指标值“交界性浆液性囊腺癌”时那么该分词结果也一定能匹配到另一个指标键值对中的指标值“浆液性囊腺癌”,这时就很难准确提取出交界性浆液性囊腺癌这一指标值。
为了避免这种情况。本实施例中提出比较匹配的多个指标键值对的指标关键词的长度,选择长度最长的指标关键词所属的指标键值对,并从选择的指标键值对提取出指标值。
接上例,一个分词结果匹配的一个指标键值对的指标关键词包含的元素是{浆液性,癌},可知指标关键词的长度是2。另一个一个指标键值对的指标关键词包含的元素为{交界性,浆液性,癌},可知指标关键词的长度是3,按照步骤S306选择长度最长的指标关键词所属的指标键值对,是选择指标关键词{交界性,浆液性,癌}所属的指标键值对,并从指标键值对提取得到预设的指标值,如提取得到文本型指标“交界性浆液性囊腺癌”。
步骤S307,从指标键值对中提取预设的指标值。
这里的指标键值对可以是步骤S305中分词结果匹配的一个指标键值对,或者是步骤S306中从匹配的多个指标键值对中选择的一个指标键值对。
由于每个指标键值对中都包括了指标关键词,以及对应的预设的指标值,指标值的类型为文本型,因而在步骤S307中可以从指标键值对中提取出满足用户需求的文本型指标的指标值。
上述步骤是以一条病历记录对应的待查询文本的处理过程为例进行的说明,当根据电子病历的标识确定出的电子病历表中包括多个病历记录对应的待查询文本时,针对多个病历记录对应的待查询文本执行上述步骤S302至步骤S307,直至所有的病历记录对应的待查询文本遍历完成后,结束流程。
根据本实施例的文本型指标的提取方法在提取得到文本型指标后。本实施例可以在电子病历表标识指示的电子病历表中增加一个病历字段,如病历字段名为zuzhixueleixing,将对应病历记录中提取出的文本型指标的指标值分别添加到这一病历字段中。
实施例三
与前述方法相对应,如图4所示,为本申请文本型指标提取服务器的一种硬件结构图,除了图4所示的处理器以及存储器之外,根据该文本型指标提取服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图4中,存储器:存储机器指令代码。
处理器:与存储器通信,读取和执行存储器中存储的所述指令代码,实现本申请上述示例公开的文本型指标的提取操作。
这里,存储器可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
请参考图5,本申请还提供一种文本型指标的提取装置50,可包括:
信息接收模块501,用于接收指标提取基本信息,所述指标提取基本信息包括指标键值对,所述指标键值对包括指标关键词以及与指标关键词对应的预设的指标值;所述指标值的类型为文本型;
待查询文本确定模块502,用于确定待查询文本;
分词模块503,用于根据所述指标关键词对所述待查询文本进行分词;
文本指标提取模块504,用于若分词结果与所述指标键值对匹配,则从匹配的指标键值对中提取指标值。
所述指标提取基本信息包括至少一个指标键值对;
所述指标键值对中的指标关键词包括至少一个元素;
所述分词模块,具体用于根据所述指标提取基本信息中包括的所有指标关键词的元素对所述待查询文本进行分词。
所述文本指标提取模块504包括键值对选择子模块,用于若所述分词结果与多个指标键值对匹配,则比较所述匹配的多个指标键值对的指标关键词的长度,选择长度最长的指标关键词所属的指标键值对,从选择的指标键值对中提取指标值;所述指标关键词的长度为包含的所述元素的个数。
所述文本指标提取模块504,具体用于检测分词结果中是否包含所述指标键值对中的指标关键词,若包含,则确定分词结果与所述指标键值对匹配;否则,不匹配;将匹配的指标键值对中的预设的指标值提取出来。
所述指标提取基本信息还包括:电子病历表的标识和病历字段的标识;
所述待查询文本确定模块502,具体用于根据所述电子病历表的标识确定待查询的电子病历表;根据所述病历字段的标识在所述待查询的电子病历表中确定待查询的病历字段;获取所述待查询的电子病历表中的每条病历记录对应的所述待查询的病历字段的内容,作为所述病历记录对应的待查询文本。
综上所述,本公开实施例的文本型指标提取技术方案,方便用户根据自己的个性化需求从相同电子病历中提取不同的文本型指标信息,提高了文本型指标提取的灵活性和个性化,优化了用户体验。并且根据指标关键词构建医学词典库,利用医学词典库对待查询文本进行分词,减少了可能的噪音干扰。另外,通过map封装得到指标键值对减少了指标提取时不必要的循环遍历,提升了运行效率。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本公开的具体实施方式,在本公开的上述教导下,本领域技术人员可以在上述例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述实施只是更好的解释本公开的目的,本公开的保护范围以权利要求的保护范围为准。

Claims (10)

1.一种文本型指标的提取方法,其特征在于,所述方法包括:
接收指标提取基本信息,所述指标提取基本信息包括至少一个指标键值对,所述指标键值对为自定义设置,所述指标键值对包括指标关键词以及与指标关键词对应的预设的指标值,所述指标关键词包括至少两个元素;所述指标值的类型为文本型;确定待查询文本;
根据所述指标关键词包括的所有元素对所述待查询文本进行分词;
若分词结果与所述指标键值对包括的所有元素均匹配,则从匹配的指标键值对中提取指标值。
2.根据权利要求1所述的文本型指标的提取方法,其特征在于,
所述根据所述指标关键词包括的所有元素对所述待查询文本进行分词,包括:
根据所述指标提取基本信息中包括的所有指标关键词的元素对所述待查询文本进行分词。
3.根据权利要求2所述的文本型指标的提取方法,其特征在于,若所述分词结果与多个指标键值对匹配,该方法还包括:
比较所述匹配的多个指标键值对的指标关键词的长度,选择长度最长的指标关键词所属的指标键值对,从选择的指标键值对中提取指标值;
所述指标关键词的长度为包含的所述元素的个数。
4.根据权利要求3所述的文本型指标的提取方法,其特征在于,若分词结果与所述指标键值对匹配,则从匹配的指标键值对中提取指标值,包括:
检测分词结果中是否包含所述指标键值对中的指标关键词的全部元素,若包含,则确定分词结果与所述指标键值对匹配;否则,不匹配;
将匹配的指标键值对中的预设的指标值提取出来。
5.根据权利要求1所述的文本型指标的提取方法,其特征在于,所述指标提取基本信息还包括:电子病历表的标识和病历字段的标识;
所述确定待查询文本包括:
根据所述电子病历表的标识确定待查询的电子病历表;
根据所述病历字段的标识在所述待查询的电子病历表中确定待查询的病历字段;
获取所述待查询的电子病历表中的每条病历记录对应的所述待查询的病历字段的内容,作为所述病历记录对应的待查询文本。
6.一种文本型指标的提取装置,其特征在于,所述装置包括:
信息接收模块,用于接收指标提取基本信息,所述指标提取基本信息包括至少一个指标键值对,所述指标键值对为自定义设置,所述指标键值对包括指标关键词以及与指标关键词对应的预设的指标值,所述指标关键词包括至少两个元素;所述指标值的类型为文本型;
待查询文本确定模块,用于确定待查询文本;
分词模块,用于根据所述指标关键词包括的所有元素对所述待查询文本进行分词;
文本指标提取模块,用于若分词结果与所述指标键值对包括的所有元素匹配,则从匹配的指标键值对中提取指标值。
7.根据权利要求6所述的文本型指标的提取装置,其特征在于,
所述分词模块,具体用于根据所述指标提取基本信息中包括的所有指标关键词的元素对所述待查询文本进行分词。
8.根据权利要求7所述的文本型指标的提取装置,其特征在于,
所述文本指标提取模块包括键值对选择子模块,用于若所述分词结果与多个指标键值对匹配,则比较所述匹配的多个指标键值对的指标关键词的长度,选择长度最长的指标关键词所属的指标键值对,从选择的指标键值对中提取指标值;所述指标关键词的长度为包含的所述元素的个数。
9.根据权利要求8所述的文本型指标的提取装置,其特征在于,所述文本指标提取模块,具体用于检测分词结果中是否包含所述指标键值对中的指标关键词的全部元素,若包含,则确定分词结果与所述指标键值对匹配;否则,不匹配;将匹配的指标键值对中的预设的指标值提取出来。
10.根据权利要求6所述的文本型指标的提取装置,其特征在于,所述指标提取基本信息还包括:电子病历表的标识和病历字段的标识;
所述待查询文本确定模块,具体用于根据所述电子病历表的标识确定待查询的电子病历表;根据所述病历字段的标识在所述待查询的电子病历表中确定待查询的病历字段;获取所述待查询的电子病历表中的每条病历记录对应的所述待查询的病历字段的内容,作为所述病历记录对应的待查询文本。
CN201710331178.8A 2017-05-11 2017-05-11 文本型指标的提取方法和装置 Active CN107545023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710331178.8A CN107545023B (zh) 2017-05-11 2017-05-11 文本型指标的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710331178.8A CN107545023B (zh) 2017-05-11 2017-05-11 文本型指标的提取方法和装置

Publications (2)

Publication Number Publication Date
CN107545023A CN107545023A (zh) 2018-01-05
CN107545023B true CN107545023B (zh) 2020-03-06

Family

ID=60966907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710331178.8A Active CN107545023B (zh) 2017-05-11 2017-05-11 文本型指标的提取方法和装置

Country Status (1)

Country Link
CN (1) CN107545023B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192255B (zh) * 2018-07-03 2022-01-28 北京左医科技有限公司 病历结构化方法
CN109885658B (zh) * 2019-02-19 2021-10-26 安徽省泰岳祥升软件有限公司 指标数据提取方法、装置和计算机设备
CN109933644B (zh) * 2019-03-22 2021-03-09 中国农业银行股份有限公司 一种字符串匹配方法及装置
CN109977422A (zh) * 2019-04-18 2019-07-05 中国石油大学(华东) 一种基于分词技术的病历关键信息提取模型
CN111681724A (zh) * 2020-05-07 2020-09-18 浙江大学医学院附属第四医院(浙江省义乌医院、浙江大学医学院附属第四医院医共体) 一种电子病历关键实体标准化识别方法及识别系统
CN112700826B (zh) * 2020-12-30 2024-07-19 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法
CN103678262A (zh) * 2013-12-27 2014-03-26 中西亚通医疗信息科技(北京)有限公司 一种文本处理方法和文本处理装置
CN104050393A (zh) * 2014-07-10 2014-09-17 首都医科大学附属北京佑安医院 一种病程记录的自检系统及自检方法
CN104598642A (zh) * 2015-02-13 2015-05-06 杜雨阳 一种标准疾病名称查找方法和系统
CN105956119A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 专利撰写辅助系统及其方法
CN105956359A (zh) * 2016-04-15 2016-09-21 陈杰 一种用于异构系统的药品项目名称对照转译方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法
CN103678262A (zh) * 2013-12-27 2014-03-26 中西亚通医疗信息科技(北京)有限公司 一种文本处理方法和文本处理装置
CN104050393A (zh) * 2014-07-10 2014-09-17 首都医科大学附属北京佑安医院 一种病程记录的自检系统及自检方法
CN104598642A (zh) * 2015-02-13 2015-05-06 杜雨阳 一种标准疾病名称查找方法和系统
CN105956359A (zh) * 2016-04-15 2016-09-21 陈杰 一种用于异构系统的药品项目名称对照转译方法
CN105956119A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 专利撰写辅助系统及其方法

Also Published As

Publication number Publication date
CN107545023A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107545023B (zh) 文本型指标的提取方法和装置
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
List et al. Sequence comparison in computational historical linguistics
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN107545934B (zh) 数值型指标的提取方法和装置
CN111401066A (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
US9535892B1 (en) Method and system for generating unique content based on business entity information received from a user
GB2569952A (en) Method and system for identifying key terms in digital document
CN111985241A (zh) 医学信息查询方法、装置、电子设备及介质
US11080615B2 (en) Generating chains of entity mentions
CN116737879A (zh) 知识库查询方法、装置、电子设备及存储介质
CN110609910A (zh) 医学知识图谱构建方法及装置、存储介质和电子设备
US20230186351A1 (en) Transformer Based Search Engine with Controlled Recall for Romanized Multilingual Corpus
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN117787290A (zh) 基于知识图谱的绘图提示方法和装置
CN111062193B (zh) 医疗数据标注方法及装置、存储介质、电子设备
CN111859042A (zh) 一种检索方法、装置及电子设备
AU2022201117B2 (en) Frameworks and methodologies for enabling searching and/or categorisation of digitised information, including clinical report data
US9684691B1 (en) System and method to facilitate the association of structured content in a structured document with unstructured content in an unstructured document
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN111143374A (zh) 一种数据辅助识别的方法、系统、计算设备及存储介质
CN118503454B (zh) 一种数据查询方法、设备、存储介质及计算机程序产品
CN109710656A (zh) 近似查询方法及装置
Suarez et al. Bioinformatics software for genomic: a systematic review on github

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant