CN101441686B

CN101441686B - 基于自然语言编写的医疗文档的信息抽提及格式转换系统

Info

Publication number: CN101441686B
Application number: CN2008102034026A
Authority: CN
Inventors: 樊嘉; 李亦学; 吴伟忠; 刘雷; 张玮德; 孙惠川; 李作峰
Original assignee: SHANGHAI CENTER FOR BIOINFORMATION TECHNOLOGY; Zhongshan Hospital Fudan University
Current assignee: SHANGHAI CENTER FOR BIOINFORMATION TECHNOLOGY; Zhongshan Hospital Fudan University
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2011-01-12
Anticipated expiration: 2028-11-26
Also published as: CN101441686A

Abstract

本发明提供了一种将自然语言书写的医疗文档自动进行格式化和统一化的装置包括：基于国内医院所使用的电子病历系统的以自然语言编写的医疗文档；以疾病类型为分类的中文医疗标准词词库；基于自然语言分析的数据抽提系统，用于将自然语言编写的文档转化为标准的格式化文档；按病种分类的用于临床科研的数据库；用于将格式化文档自动转化为统一格式的标准化文档的文档转换系统；用于保护患者以及相关治疗医生的隐私信息的权限系统。本发明实现了医疗信息管理的自动化，方便医生快速得查找到某种疾病的有关信息，节省了大量时间，使得医生有更多精力投入到对疾病的研究。

Description

基于自然语言编写的医疗文档的信息抽提及格式转换系统

技术领域

本发明涉及一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，用于将临床电子病史转化为格式化、标准化文档，使其中的有效信息能够应用于临床科研工作；同时可根据国际通行标准使其转化为统一的、规范格式的文档以应用于国内外的医学科研交流工作，属于信息抽提及格式转换技术领域。

背景技术

随着计算机及互联网技术的发展，目前国内大部分医院都已经实现了电子化信息管理，其中最为重要的部分之一就是临床病史的电子化和部分的结构化，获取患者电子医疗文档的检索方式的准确率和效率已经有了很大的提高。

但是这些仅仅是基于人工填写的结构化数据，例如住院号、疾病ICD—10编号等等。目前许多医院的电子病历中的很多内容，如手术记录、入院病史、病理报告等尚未达到完全结构化。这些内容中所包含的患者信息往往对于临床医生及临床科研工作者进行病例筛选、临床教学以及临床科研的数据分析有非常重要的意义。例如在很多回顾性研究中需要分析一些条件类似的病例资料(如某一时间段内行肝癌根治切除术的伴有高血压同时处于乙肝病毒大量复制期的病理类型为肝细胞肝癌的小肝癌患者)。在目前条件下获取这些资料需要阅读大量的原始病史，然后通过手工录入相关的表格或统计软件，如果在数据统计过程中出现不可预测的亚组则需再一次从原始病例中摘录。另外，目前很多临床科研机构所应用的数据库中的数据几乎也都是依靠手工录入的方式。手工摘录是二次录入过程，准确性不能得到很好的保证，另外这种摘录方式也需要花费大量的时间，临床医疗工作必然会受到其影响。因此有必要开发基于自然语言处理的信息抽提系统以协助临床科研工作者完成此项工作，提高工作效率和信息抽提的准确率。现有的数据挖掘技术可以解决这一问题，但由于对程序编写及维护的要求非常高，因此很难得到广泛应用。

其次，随着各医疗科研单位之间的合作日益密切以及政策的逐步开放，各单位之间的资料交流也越来越频繁。但是由于目前各医院所采用的信息系统多不相同，因此在进行交流的时侯需要花费一定的时间将其统一化之后才能使用；另外，由于需要对患者和医生的隐私进行保护，也需要花费时间将病史中的这部分内容隐去，这些都给交流工作带来很大不便。因此，也有必要开发一种可以将不同医疗信息系统数据统一化并可同时进行隐私保护的方法。

再次，由于表单化电子病史也是目前正在成为一种电子病史的发展趋势，可以提供一些检查检验或治疗建议的功能能在一定程度上减少诊疗过程中一些可以避免的错误，而且可以根据表单中的节点对病史的内容进行部分的格式化。但表单化病史在填写的过程中需要根据各节点选择或填写相应的内容，填写所需要的时间较传统电子病史长，而且由于节点的设计相对较为局限，输出的打印文档的格式也会相应受到影响，上述缺点在应用于临床时都会带来不便。因此也有必要提供一种可以同时解决传统电子病史和表单化病史应用时所带来的局限性。

发明内容

本发明的目的是提供一种将自然语言书写的医疗文档自动进行格式化和统一化的装置。

为了达到上述目的，本发明的技术方案是提供了一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，包括：

基于国内医院所使用的电子病历系统的以自然语言编写的医疗文档；

以疾病类型为分类的中文医疗标准词词库；

基于自然语言分析的数据抽提系统，用于将自然语言编写的文档转化为标准的格式化文档；

按病种分类的用于临床科研的数据库；

用于将格式化文档自动转化为统一格式的标准化文档的文档转换系统；

用于保护患者以及相关治疗医生的隐私信息的权限系统；

用于将格式化文档填入标单化电子病史的自动填写系统。

本发明可对电子病史中各部分文档进行转换，如入院记录、手术记录、出院小结等，也可以是单独的检查或者化验单如CT检查单、病理报告等。进行转化后的数据都将以完全格式化的形式保存在统一的数据库内，可以随时通过配套的查询界面进行单一条件或多条件的查询和输出，为临床科研数据的采集提供了一种简便快速的方法。

其次，由于不同医院以及不同医生的书写习惯存在不同，对于相同疾病治疗的着重点也存在一定的差异，难免会遗漏掉一些比较重要的信息。因此，本发明根据目前各病种的科研进展情况对于各种疾病的治疗热点都进行了相关的定义，确定了各种疾病的关键词，建立中文医疗关键词词库，根据词库中的关键词对文档中的关键信息进行抽提，并在抽提后与原始文档进行对照，标注未抽提出的关键词，经修改确认后进入数据库。这一过程在对数据库格式标准化的同时也可以在一定程度上对医生在医疗文档的书写上进行规范。另外，上述中文医疗标准词词库可根据国内外的科研进展增加词汇。

再次，为了满足各医疗科研单位之间的交流，以及今后可能会出现的各医疗机构间的信息交流平台，本发明还提供了规范化文档输出功能。在对一份完整的医疗文档进行格式化并进入数据库以后可以选择输出一份标准化文档，该文档为符合国际上较为通用的符合HL-7的CDA文档。由于文档内容来源于内容经过确认的格式化的数据库而非自然语言编写的医疗文档，因此该CDA文档的内容完全符合中文标准词词库，通过该词库与其他语言相关词库的关联，输出的CDA可以为各种语言，使其不仅可以满足国内交流的需要，也可以在一定程度上进行国际交流。

由于相关法律以及政策的规定，患者及相关医生的隐私需要保护，在进行数据交流的时候也不能不考虑这一点。本发明关于隐私保护采用了权限管理的方法，只有在获得了足够的权限之后才能够在相应的数据库中得到患者和相关医生的隐私信息，在无法获得此级别权限时相关的隐私信息将自动隐去，为文档交流时的数据安全提供保证。

最后，为了同时解决传统电子病史和表淡化病史应用时所带来的不便，本发明也提供了可以自动填写表淡化病史的功能，可以根据设计好的表单从数据库中提取相关的内容对表单中的对应节点进行自动填写。这样可以使用传统的电子病史对患者的信息进行录入，不必要改变医生原有的习惯，而且输出的病史仍可保留原有的个性化，同时自动填写的表单化病史的提示功能可以及时的给医生提供相关的建议，方便医生的工作。

本发明的优点是：本发明运用数据抽提系统及文档转换系统，实现了医疗信息管理的自动化，方便医生快速得查找到某种疾病的有关信息，节省了大量时间，使得医生有更多精力投入到对疾病的研究。

附图说明

图1为适用于本发明的计算机处理系统的框架图；

图2为本发明的整体工作流程图；

图3为自然语言编写的医疗文档通过自然语言处理和关键词抽提进入数据库的流程；

图4为数据库的结构；

图5为从数据库中输出不同语言编写的符合HL—7的CDA文档的过程。

具体实施方式

以下结合实施例来具体说明本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，但等价形式的改动或修改同样落于本申请所述权利要求书所限定的范围。

本发明提供的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，包括：

以疾病类型为分类的中文医疗标准词词库；

按病种分类的用于临床科研的数据库；

用于保护患者以及相关治疗医生的隐私信息的权限系统。

表单化病史填写工具，从数据库中提取相关的内容对表单中的对应节点进行自动填写。

进一步，所述标准词词库根据临床科研的进展增加并与其他语言的医疗标准词关联。

所述文档转换系统根据标准词代码转换输出文档的语言。

所述数据抽提系统包括：

文档确认装置，用于确定所提取数据的文档在电子病史中的位置；

数据抽提装置，用于从电子病史中抽提出所需要的信息；

数据整合装置，用于将所抽提出的各个独立的字段按照固定的字段顺序排练成规范格式的表格；

自动保存装置，将原始电子文档及格式化文档自动保存至数据库中相应的位置。

所述数据抽提装置从以自然语言编写的医疗文档中抽取应用于临创科研的有意义的信息。

所述医疗文档包括入院病史、首次病程录、病程记录、手术和治疗记录、影像学检查的文本及图像资料、实验室检查资料、病理检查资料、出院小结中的至少一个文档。

所述中文医疗标准词词库包括疾病治疗及临床科研关注的热点词中文医疗标准词词库以及热点词对应的医疗信息的中文医疗标准词词库。

在所述热点词中的有关疾病的热点词均按照疾病类型分类。

所述文档转化系统包括：

文档自动转化工具，用于将科研数据库中的格式化文档自动转化为统一格式的标准化文档；

语言转化工具，用于将数据库中的标准词与中文医疗标准词词库中的词汇关联，并通过中文医疗标准词词库与其他语言的医疗标准词代码以及该代码与这种语言的关联将输出文档自动转转化为这种语言；

所述表单自动填写工具可根据表单中的节点从数据库中提取相关字段的内容进行填写。

所述输出文档为病史格式中的一个或多个部分。

本发明提供的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统还包括至少一个接口用来访问用作数据源的已正式提交的电子病史。所述接口是可配置的数据接口。所述数据抽提与格式转换系统在独立的计算机终端或在国际互联网上运行。所述数据库通过独立计算机访问或通过国际互联网访问。

上述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统可在具有硬件的计算机平台实现，所述硬件为诸如一个或多个中央处理单元(CPU)，随机存取存储器(RAM)以及输入/输出(I/O)接口。计算机平台还包括操作系统以及微指令代码。此处所述的各种过程与功能可以是微指令代码的一部分或者是程序的一部分(或者其组合)，其经由操作系统的执行。此外，可以通过网络将符合该结构体系的其他计算机终端与该计算机平台相连，也可以将其他外围设备与计算机平台相连接，诸如附加的数据存储设备以及打印设备。

图1是计算机处理系统的框架图，依照本发明的实例可以在其上运行。该系统包括至少一个中央处理器(CPU)110，它通过系统总线101和其他部件可操作得耦合。随机访问存储器(RAM)111，只读存储器(ROM)112，I/O接口113，网络接口114和外部存储器115都与系统总线101可操作得耦合。各种外围设备，例如显示设备、盘式存储设备(如磁盘或光盘存储设备)、键盘和鼠标，可以通过I/O接口113或网络接口114与系统总线101可操作得耦合。

计算机系统可以是独立系统或通过网络接口114与网络相连。网络接口114可以是硬布线接口。网络接口114可以包括适于向另一设备传送信息或从另一设备传出信息的任意设备，如异步收发器(UART)、并行数字接口、软件接口或已知或后来开发的软件和硬件的任意组合。网络接口可以连接到不同类型的网络包括局域网(LAN)、广域网(WAN)、内联网、虚拟专用网(VPN)和因特网。

外部存储器115可以拥有处理器110所管理的数据库管理系统(DBMS)来实现，并驻留在像硬盘这样的存储器上。但是，应该意识到外部存储器115可以实现在一个或多个附加计算机系统上。例如，外部存储器115可以包括驻留在一个单独的计算机系统上的数据仓库系统中。

如图2所示，将自然语言编写的医疗电子文档201导入到基于自然语言分析的信息抽提系统211中，系统会自动抽提出临床医疗以及临床科研最关心的信息、如相关疾病的既往史、合并症、术前(或治疗前)的相关检查信息、手术记录(或治疗记录)、影像学检查信息、病程记录、实验室检验信息、病例报告、人口统计学信息等，并保存在相应的数据库221中。

每份完整的数据库记录来源于病史中的多个部分，已经结构化的数据，如住院号、性别、年龄、疾病ICD-10编码等也可进入数据库221。由于原始病史中包含患者最完整的信息，进行抽提后可能会出现部分信息的丢失，因此针对每份病史在数据库中都保存一份备份文件。另外一些无法实现格式化的信息，如超声影像资料、X光、CT、MRI、核素检查图像等将保存在原始病史中。

已经进入数据库221的格式化的患者资料必须能够保证临床科研工作的方便，因此数据库221提供可以保证满足各种疾病的各种条件的查询，如需要筛选一批疾病进展相似的患者进行临床回顾性分析241，则可以在查询功能231中根据这些条件查找出这部分病人的相关资料进行统计分析；又如确定甲种胎儿球蛋白(AFP)对于原发性肝癌诊断的标准242则可以根据其条件在查询功能231中随机选择一批患者的诊断和AFP两个字段并进行统计，得出相对可明确诊断的指标标准值。

如果需要进行多中心的合作，需进行资料共享，所应用的文档格式通常需要统一。因此，本发明还提供了从已经格式化的数据库中导出统一格式的文档235的功能，为保证今后可能会出现的国际交流的方便，因此该导出文档的统一格式为符合HL-7的CDA文档，并可根据需要选择导出中文标准文档或英文标准文档245。该文档还可以进入今后可能会出现的各医疗机构共同应用的医疗信息交互系统255中。应该理解的是，以上说明并非将导出文档的格式局限于单纯符合HL—7的CDA文档，该格式可根据国际通行的医疗文档的标准格式进行修改。

由于相关政策和法规的限制，在很多临床试验以及临床信息交流中需对患者及相关治疗医生的个人信息进行保密，因此本发明在此也提供了严格的权限系统。只有在获得相应的权限后(如该患者的主治医师)才可以在查询或导出文档中看到这些隐私信息，在无法获得这些权限时，系统将自动将这些隐私信息隐去。最简单的例子，如心血管科的医生需要研究肾病对高血压的影响而查询肾病患者的资料，则只能得到查询的相关资料而无法得到患者及相关治疗医生的隐私信息。

如果需要应用表单化电子病史的功能，本发明提供了表单自动填写功能，可根据表单化电子病史中的节点239从数据库221中提取相应字段中的内容，进行填写，之后便可应用表单化病史所提供的检查或治疗建议249的功能。

图3说明了整个信息抽提系统工作的流程。将以自然语言编写的医疗文档301写入或导入到信息抽提系统中，系统会分析文档中部分已经格式化的信息(如诊断)，并以此为依据筛选出相应的中文医疗标准词词库311，根据词库311中的疾病相关的关键词对文档进行分词321，之后对关键词的语句进行必要的语法分析331。如患者的诊断为“原发性肝癌”，则信息抽提系统会进入肝癌的标准词词库对文档进行分析，如在分析过程中遇到“手术记录”，即进入肝癌手术信息的标准词词库。文档经分析后关键词对应的信息将被抽提341并与原始文档展示在同一界面中。抽提后的格式化文档将与原始文档进行校对351，并将抽提未成功的关键词以高亮标记。如在对上述原发性肝癌患者的手术记录进行抽提后发现手术记录中未记录肿瘤大小的信息，则格式化文档中“肿瘤大小”的字段会标记为高亮。在对原始文档或格式化文档进行相应修改并确认361后，所抽提出的格式化的信息将按照固定的顺序排列并组合为规范格式的数据表进入数据库371。需要说明的是，用于将自然语言编写的电子病史文档进行分词的中文医疗标准词词库完全依据临床治疗重点以及目前国内外临床科研热点确定，词库按疾病分类，各种疾病所属的的中文标准词词库中的词汇可根据相关疾病的治疗重点的转移以及临床科研工作的进展进行扩充。另外，该中文医疗标准词词库可以与其他种类语言的医疗标准词词库代码相关联，并可以此为依据转化为其他语言的医疗标准词。

图4为格式化文档的数据库结构。鉴于患者可能会出现因多种疾病多次住院的情况，因此将患者的基本信息401作为一个独立单元保存。由于各种疾病的治疗以及临床关注要点不同，将所有疾病的信息保存在统一的数据表中会造成大量的资源浪费，因此对于不同的疾病将保存在不同的数据表中411、412、413，疾病数据表根据关键字段(如身份证号码)与患者基本信息进行关联，各疾病数据表间可根据需要进行相互关联，该数据表可根据需要增加或者减少。例如某患者同时患有肝癌和冠心病并因此而住院治疗，则在数据库中可以在肝癌和冠心病的两个数据表中都可以找到该患者的资料；如患者因为原发性肝癌两次入院治疗，则可在肝癌的数据表中找到两份患者的治疗记录。由于很多疾病在研究过程中需要长时间跟踪患者的治疗情况或疾病进展情况，因此数据库提供了相应的随访信息421表格以记录这些信息，该表格与患者的相关疾病关联。在之前所述的查询过程即可根据这些表格以及之间的关联进行各种类型的查询。例如需要计算某中特征的肝癌患者的5年生存率，则可在肝癌的数据表中找到相对应的患者，并在随访表中找到相应的随访信息后进行统计分析。

由于各单位间进行学术交流所使用的文档以及今后可能会出现的医疗文档交互系统都要求文档格式的统一，本发明还提供了标准文档转化的功能，如图5所示。可以直接依据数据库501中的格式化数据直接转化为标准的中文CDA文档511，该文档可以直接进入医疗文档交互系统551。此外，本发明还提供了语言转换的功能，数据库501中所有的中文医疗标准词都与中文标准词词库515关联，中文医疗标准词词库可与其他语言对应的标准词代码525关联，如SNOMED—CT代码，输出的CDA文档则为以SNOMED—CT代码编写的文档535，该文档根据SNOMED-CT代码对应的英文医疗标准词词库即可将文档自动转化为以英文医疗标准词编写的CDA文档545，该文档可以很方便的应用于国际医疗科研交流工作或进入医疗文档交互系统。

需要说明的是，如果患者始终在同一家医院住院治疗，或者国内出现了医疗文档交互系统而患者又在进入文档交互系统的医院进行治疗，则该系统在相关政策和法规的允许下可为患者本人即时生成一份完备的治疗档案。

同样的，文档交流过程中仍然涉及到患者及医生隐私权的问题。因此，文档输出仍然服从于数据库的权限设置。

Claims

1.一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，包括：

以疾病类型为分类的中文医疗标准词词库；

按病种分类的用于临床科研的数据库；

用于将格式化文档填入表单化电子病史的自动填写系统，自动填写系统根据表单中的节点从用于临床科研的数据库中提取相关字段的内容进行填写；

用于保护患者以及相关治疗医生的隐私信息的权限系统，其中，数据抽提系统包括文档确认装置、数据抽提装置、数据整合装置及自动保存装置：

数据抽提装置，用于从电子病史中抽提出所需要的信息；

自动保存装置，用于将原始电子文档及格式化文档自动保存至用于临床科研的数据库中相应的位置；

文档转换系统包括文档自动转化工具及语言转化工具：

文档自动转化工具，用于将用于临床科研的数据库中的格式化文档自动转化为统一格式的标准化文档；

语言转化工具，用于将用于临床科研的数据库中的标准词与中文医疗标准词词库中的词汇关联，并通过中文医疗标准词词库与其他语言的医疗标准

词代码以及该代码与其他语言的关联将输出文档自动转化为其他语言。

2.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述医疗文档包括入院病史、首次病程录、病程记录、手术和治疗记录、影像学检查的文本及图像资料、实验室检查资料、病理检查资料、出院小结中的至少一个文档。

3.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述中文医疗标准词词库包括疾病治疗及临床科研关注的热点词中文医疗标准词词库以及热点词对应的医疗信息的中文医疗标准词词库。

4.如权利要求3所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，在所述热点词中的有关疾病的热点词均按照疾病类型分类。

5.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所有与其他语言的医疗标准词代码关联的中文医疗标准词可根据与其关联的代码转化为该相关语言的医疗标准词。

6.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述中文医疗标准词词库根据临床科研的进展增加并与其他语言的医疗标准词关联。

7.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述数据抽提装置从以自然语言编写的医疗文档中抽取应用于临创科研的有意义的信息。

8.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述数据抽提系统以任意间隔、以周期间隔或以在线模式运行。

9.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述文档转换系统根据医疗标准词代码转换输出文档的语言。

10.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述输出文档为病史格式中的一个或多个部分。

11.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述文档转换系统以任意间隔、以周期间隔或以在线模式运行。

12.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述数据抽提系统与文档转换系统在独立的计算机终端或在国际互联网上运行。

13.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述用于临床科研的数据库通过独立计算机访问或通过国际互联网访问。

14.如权利要求1所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，还包括至少一个用于访问已正式提交的电子病史的接口。

15.如权利要求14所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述接口为可配置的数据接口。

16.如权利要求15所述的一种基于自然语言编写的医疗文档的信息抽提及格式转换系统，其特征在于，所述接口的配置随医院的改变而改变。