CN110674244A

CN110674244A - 一种医疗文本的结构化处理方法及装置

Info

Publication number: CN110674244A
Application number: CN201910770440.8A
Authority: CN
Inventors: 杜梦玲; 魏娟; 李红杰; 刘水清
Original assignee: Nanjing Yiyi Yunda Data Technology Co Ltd; Nanjing Medical Duyun Medical Technology Co Ltd
Current assignee: Nanjing Yiyi Yunda Data Technology Co Ltd; Nanjing Medical Duyun Medical Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2020-01-10
Anticipated expiration: 2039-08-20
Also published as: CN110674244B

Abstract

本发明公开了一种医疗文本的结构化处理方法及装置，包括：利用预设的提取策略，从医疗文本中提取出目标文本章节；针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据；对所述特征数据进行结构化处理，以获得相应的目标数据；利用预设的提取策略从医疗文本中提取出目标文本章节，使得目标文本章节匹配关键词或者关键词的等价词汇，进而针对目标文本章节进行语义分析和结构化处理；避免了其他自然文本章节中的干扰词汇以及干扰词汇对应的数据信息，对于语义分析过程的影响；提高了对于医疗文本结构化处理的准确率。

Description

一种医疗文本的结构化处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种医疗文本的结构化处理方法及装置。

背景技术

目前结合人工智能的大数据分析技术，已经开始应用在各个传统领域，其中包括医疗领域。从目前的实际情况来看，可以认为大数据分析技术在医疗领域有着非常重大的应用价值，能够在显著的提升临床医疗和医学研究的效率。

大数据分析的基础，是需要采集海量的且满足特定格式要求的数据，以作为分析的对象。而医疗领域中数据的特点通常是，大量有价值的数据是以医疗文本的形式记录保存，如病历、处方、化验单据等。这些医疗文本无法直接用来进行数据分析，必须经过相应的语义分析和结构化处理。并且由于医疗文本数量巨大，所以这一处理过程无法依靠人工，必须通过智能化的分析技术和算法实现。

但是，通常医疗文本中关键词的相似度高、重复次数多、非常容易混淆，识别难度相对较大。通常的语义分析方法很难准确的对医疗文本进行语义处理，效果有待提高。

发明内容

本发明提供一种医疗文本的结构化处理方法及装置，首先从医疗文本中提取出目标文本章节，进而针对目标文本章节进行语义分析和结构化处理，由此提高了对于医疗文本结构化处理的准确率。

第一方面，本发明提供了一种医疗文本的结构化处理方法，包括：

利用预设的提取策略，从医疗文本中提取出目标文本章节；

针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据；

对所述特征数据进行结构化处理，以获得相应的目标数据。

优选地，在所述利用预设的提取策略，从医疗文本中提取出目标文本章节之前，还包括：

确定章节划分规则；并根据预设的关键词确定章节识别规则；

根据所述章节划分规则和所述章节识别规则确定所述提取策略。

优选地，所述从医疗文本中提取出目标文本章节包括：

利用所述章节划分规则，将所述医疗文本划分为至少一个自然文本章节；

利用所述章节识别规则对所述自然文本章节进行关键词识别，将与所述章节识别规则对应的关键词匹配的自然文本章节，确定为所述目标文本章节。

优选地，所述针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据包括：

针对所述目标文本章节进行语义分析，以确定所述关键词对应的数据信息；

将所述关键词对应的数据信息确定为所述特征数据。

优选地，所述对所述特征数据进行结构化处理，以获得相应的目标数据包括：

将所述关键词与所述特征信息进行结构化表示，以作为所述目标数据。

优选地，所述利用预设的提取策略，从医疗文本中提取出目标文本章节包括：

利用多个预设的提取策略，从医疗文本中提取出各个提取策略对应的目标文本章节。

第二方面，本发明提供了一种医疗文本的结构化处理装置，包括：

章节提取模块，用于利用预设的提取策略，从医疗文本中提取出目标文本章节；

语义分析模块，用于针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据；

结构化模块，用于对所述特征数据进行结构化处理，以获得相应的目标数据。

优选地，所述章节提取模块包括：

策略单元，用于确定章节划分规则；并根据预设的关键词确定章节识别规则；根据所述章节划分规则和所述章节识别规则确定所述提取策略；

提取单元，用于利用预设的提取策略，从医疗文本中提取出目标文本章节。

第三方面，本发明提供了一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如第一方面中任一所述的方法。

第四方面，本发明提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

本发明提供了一种医疗文本的结构化处理方法及装置，利用预设的提取策略从医疗文本中提取出目标文本章节，使得目标文本章节匹配关键词或者关键词的等价词汇，进而针对目标文本章节进行语义分析和结构化处理；避免了其他自然文本章节中的干扰词汇以及干扰词汇对应的数据信息，对于语义分析过程的影响；提高了对于医疗文本结构化处理的准确率。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种医疗文本的结构化处理方法的流程示意图；

图2为本发明一实施例提供的另一种医疗文本的结构化处理方法的流程示意图；

图3为本发明一实施例提供的另一种医疗文本的结构化处理方法的流程示意图；

图4为本发明一实施例提供的一种医疗文本的结构化处理装置的结构示意图；

图5为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通过前述已知，为满足医疗领域中大数据分析的需求，必须对海量的医疗文本进行批量化的语义分析和结构化处理。并且由于医疗文本数量巨大，所以这一处理过程无法依靠人工，必须通过智能化的分析技术和算法实现。但是医疗文本中关键词的相似度高、重复次数多、非常容易混淆，识别难度相对较大，所以一般的语义分析方法很难在本领域中满足准确率的需求。

例如，假设有一段医疗文本具体内容如下：

“患者于2016-2-20因左肾癌于当地医院行左肾切除术，术后无并发症。2016-2-25来我院就诊，查胸部CT：双肺多发结节影，腹部CT示：左肾癌术后改变，肝脏左叶占位病变。2016-3-2患者为进一步治疗我院泌尿科门诊就诊，自述自行肾癌手术以来,出现间断血尿，伴腰酸隐痛。现为求治疗收入医院，患者无明显咳嗽,无咳血及痰中带血，无发热盗汗,无胸痛,无明显胸闷憋气。精神可,睡眠可,饮食可,尿便无异常,体重较前无明显减轻”

可见在这一医疗文本中，有“左肾切除术”、“左肾癌术”、“肾癌手术”等关键词，内容相似、含义相近并且多次重复。为语义分析带来了极大的难度。并且类似的情况在医疗领域极为常见。

按照现有的语义分析技术，如果想从上述的医疗文本中提取出“肾癌手术”的日期，那么要分析的正确关键词应该是“左肾切除术”，正确的结果应该是该关键词对应的日期“2016-2-20”。但分析过程中“左肾癌术”和“肾癌手术”的词汇很容易产生干扰。于是分析结果可能会得到“2016-2-20”、“2016-2-25”、“2016-3-2”三个日期，而无法直接确定正确的日期。可见其准确性不符合要求。

本发明提供的一种医疗文本的结构化处理方法及装置，目的即在于解决类似的技术问题，能够准确的对医疗文本进行语义分析进而结构化处理，得到可用于数据分析的结构化数据。

参见图1所示，为本发明提供的医疗文本的结构化处理方法的具体实施例。本实施例中，所述方法具体包括以下步骤：

步骤101、利用预设的提取策略，从医疗文本中提取出目标文本章节。

由于直接分析完整的医疗文本难度高，准确率低，所以本实施例中首先利用提取策略从所述医疗文本中提取出与待分析的目标相关的一部分文本，即所述目标文本章节，以便进行后续分析。所以避免了其他部分相似词汇产生的干扰。

本实施例中，可以在所述利用预设的提取策略，从医疗文本中提取出目标文本章节之前，预设所述提取策略。所述提取策略的具体预设方式，可以是确定章节划分规则；并根据预设的关键词确定章节识别规则；根据所述章节划分规则和所述章节识别规则确定所述提取策略。

所述章节划分规则，可以用来将完整的医疗文本划分为一个或多个自然文本章节。具体可以是利用特定的计算逻辑，通过基于医疗文本中的标点符号实现划分。例如，将医疗文本中相邻的两个句号之间的文本内容，划分成为一个自然文本章节。

所述章节识别规则，可以基于预设的关键词，对自然文本章节进行关键词识别。判断自然文本章节中的文本内容是否能够与关键词相匹配。进而将与所述章节识别规则对应的关键词匹配的自然文本章节，确定为所述目标文本章节。所述章节识别规则具体可以是正则表达式，或实体。在其他情况下，也可选择能够实现相同或类似功能的其他计算逻辑，在此不做限定。所述关键词和计算逻辑可以根据需求进行设定。

通常情况下，一份医疗文本经过划分后，能够得到多个自然文本章节。然后可判断各个自然文本章节中的文本内容是否与关键词相匹配。再将与关键词匹配的一个或者多个自然文本章节，确定为所述目标文本章节。在特殊情况下，也可能一份医疗文本中只包括一个自然文本章节。这种情况亦可以同理的利用章节识别规则进行判断，在此不重复叙述。

步骤102、针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据。

可以认为，所述目标文本章节中即包括了所述的关键词，或所述关键词的等价词汇。并且可以认为，所述目标文本章节即是后续的语义分析和结构化处理的对象。

那么进而应该认为，所述关键词对应的数据信息亦同样包括在所述目标文本章节当中。所以本步骤中将针对所述目标文本章节进行语义分析，以确定所述关键词对应的数据信息；将所述关键词对应的数据信息确定为所述特征数据。

并且，由于所述目标文本章节中只包括关键词或者关键词的等价词汇，已经过滤掉了其他自然文本章节中的干扰词汇。所以此处提取得到的特征数据能够更准确的对应关键词。避免了干扰词汇以及干扰词汇对应的数据信息对于语义分析过程的影响。

步骤103、对所述特征数据进行结构化处理，以获得相应的目标数据。

在确定了特征数据之后，即可对特征数据进行结构化处理，获得目标数据。使目标数据的格式满足后续的大数据分析的格式要求，所述目标数据即可以直接的应用到大数据分析当中。

通过以上技术方案可知，本实施例存在的有益效果是：利用预设的提取策略从医疗文本中提取出目标文本章节，使得目标文本章节匹配关键词或者关键词的等价词汇，进而针对目标文本章节进行语义分析和结构化处理；避免了其他自然文本章节中的干扰词汇以及干扰词汇对应的数据信息对于语义分析过程的影响；提高了对于医疗文本结构化处理的准确率。

图1所示仅为本发明所述方法的基础实施例，在其基础上进行一定的优化和拓展，还能够得到所述方法的其他优选实施例。

如图2所示，为本发明所述医疗文本的结构化处理方法的另一个具体实施例。本实施例在前述实施例的基础上，结合具体应用场景进行进一步的叙述。本实施例中的应用场景，同样结合上述的医疗文本。并且假定本实施例中所述方法的目的，是从上述的医疗文本中确定“左肾手术”的日期，并对其进行结构化处理。则本实施例中，所述方法具体包括以下步骤：

步骤201、利用所述章节划分规则，将所述医疗文本划分为至少一个自然文本章节。

本实施例中，章节划分规则具体为，将医疗文本中相邻的两个句号之间的文本内容，划分成为一个自然文本章节。则针对上述的医疗文本进行划分，可得到如下若干个自然文本章节。

章节1：患者于2016-2-20因左肾癌于当地医院行左肾切除术，术后无并发症。

章节2：2016-2-25来我院就诊，查胸部CT：双肺多发结节影，腹部CT示：左肾癌术后改变，肝脏左叶占位病变。

章节3：2016-3-2患者为进一步治疗我院泌尿科门诊就诊，自述自行肾癌手术以来,出现间断血尿，伴腰酸隐痛。

章节4：现为求治疗收入医院，患者无明显咳嗽,无咳血及痰中带血，无发热盗汗,无胸痛,无明显胸闷憋气。

章节5：精神可,睡眠可,饮食可,尿便无异常,体重较前无明显减轻。

步骤202、利用所述章节识别规则对所述自然文本章节进行关键词识别，将与所述章节识别规则对应的关键词匹配的自然文本章节，确定为所述目标文本章节。

本实施例中根据实际情况，设定关键词为“左肾切除术”。或者在其他情况下也可将关键词设定为等价词汇“左肾手术”。从而排除了“左肾癌术”、“肾癌手术”等容易造成干扰和混淆的干扰词汇。根据关键词对所述自然文本章节进行关键词识别，能够确定与所述关键词匹配的自然文本章节为“章节1”。即将“章节1”确定为目标文本章节。

步骤203、针对所述目标文本章节进行语义分析，以确定所述关键词对应的数据信息；将所述关键词对应的数据信息确定为所述特征数据。

本实施例中目的在于确定“左肾手术”的日期，所以通过语义分析期望确定的数据信息内容应当是表示“日期”的字段。由此对目标文本章节进行分析，可相应的确定数据信息“2016-2-20”。本实施例中认为，所述关键词对应的数据信息包括在所述目标文本章节当中。所以认为目标文本章节中表示日期的字段“2016-2-20”正是关键词“左肾切除术”发生的日期，也就是“左肾手术”的日期。

步骤204、将所述关键词与所述特征信息进行结构化表示，以作为所述目标数据。

进而对所述关键词与所述特征信息进行结构化表示，将其转换成满足后续的大数据分析要求的格式。例如，将关键词和特征信息按照特定格式对应的填写到特定的数据表格内，以作为目标数据。本实施例中所述目标数据的格式参见下表：

事件	日期
		左肾切除术	2016-2-20

至此，本实施例结合具体的应用场景实现了对于医疗文本的结构化处理。当然应该认为，上述场景仅仅为示例性场景，并不对本发明提供的方法构成限定。本发明提供的方法可延申的应用在其他相同原理的医疗文本结构化处理过程当中。

如图3所示，为本发明所述医疗文本的结构化处理方法的另一个具体实施例。本实施例中，所述方法具体包括以下步骤：

步骤301、利用多个预设的提取策略，从医疗文本中提取出各个提取策略对应的目标文本章节。

步骤302、针对各所述目标文本章节进行语义分析，以确定各目标文本章节中的特征数据。

步骤303、对各所述特征数据进行结构化处理，以获得相应的目标数据。

在图2所示的应用场景下，针对一份医疗文本只设定了一个关键词，并且相应的只得到了一份目标数据。而在本实施例中，可以利用多个预设的提取策略，分别对同一份医疗文本进行相应的一系列处理，进而得到各自相应的目标数据。可以理解的是，上述利用各提取策略进行相应处理的过程可以是同步进行，也可以是按一定的先后顺序进行。

例如，假设有医疗文本如下：

“患者于2018年3月5日服用药物A。后于2018年6月24日开始服用药物B。经2个疗程的药物治疗后症状有所好转，于2018年10月11日转为服用药物C。”

针对上述的医疗文本，如果希望确定“服用药物A”的日期，并对其进行结构化处理。则同理于图2所示的具体实施例，能够得到如下的目标数据：

事件	日期
		服用药物A	2018-3-5

具体过程不重复叙述。

而本实施例中如果需要同时确定“服用药物A”的日期、“服用药物B”的日期和“服用药物C”的日期，则可分别设定对应的提取策略，分别进行相应的目标文本章节提取，得到目标文本章节1、目标文本章节2和目标文本章节3。进而对各个目标文本章节语义分析和结构化处理。最终整合得到目标数据如下：

事件	日期
		服用药物A	2018-3-5
服用药物B	2018-6-24
		服用药物C	2018-10-11

当然，本实施例中给出的是按照同样的结构化处理方式，将三个特征数据整合到同一个数据表格中的情况。在另一些情况下也可分别对其进行不同的结构化处理，在此不做限定。

至此，本实施例结合具体场景实现了对于医疗文本的多重结构化处理。

如图4所示，为本发明所述医疗文本的结构化处理装置的一个具体实施例。本实施例所述装置，即用于执行图1～3所述方法的实体装置。其技术方案本质上与上述实施例一致，上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括：

章节提取模块401，用于利用预设的提取策略，从医疗文本中提取出目标文本章节。

优选地，所述章节提取模块401包括：

策略单元，用于确定章节划分规则；并根据预设的关键词确定章节识别规则；根据所述章节划分规则和所述章节识别规则确定所述提取策略。

语义分析模块402，用于针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据。

结构化模块403，用于对所述特征数据进行结构化处理，以获得相应的目标数据。

图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry StandardArchitecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成医疗文本的结构化处理装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任一实施例中提供的医疗文本的结构化处理方法。

上述如本发明图4所示实施例提供的医疗文本的结构化处理装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本发明任一实施例中提供的医疗文本的结构化处理方法，并具体用于执行如图1～图3所示的方法。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种医疗文本的结构化处理方法，其特征在于，包括：

利用预设的提取策略，从医疗文本中提取出目标文本章节；

对所述特征数据进行结构化处理，以获得相应的目标数据。

2.根据权利要求1所述方法，其特征在于，在所述利用预设的提取策略，从医疗文本中提取出目标文本章节之前，还包括：

根据所述章节划分规则和所述章节识别规则，确定所述提取策略。

3.根据权利要求2所述方法，其特征在于，所述从医疗文本中提取出目标文本章节包括：

4.根据权利要求2所述方法，其特征在于，所述针对所述目标文本章节进行语义分析，以确定所述目标文本章节中的特征数据包括：

将所述关键词对应的数据信息确定为所述特征数据。

5.根据权利要求4所述方法，其特征在于，所述对所述特征数据进行结构化处理，以获得相应的目标数据包括：

6.根据权利要求1～5任意一项所述方法，其特征在于，所述利用预设的提取策略，从医疗文本中提取出目标文本章节包括：

7.一种医疗文本的结构化处理装置，其特征在于，包括：

8.根据权利要求7所述装置，其特征在于，所述章节提取模块包括：

9.一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如权利要求1至6中任一所述的方法。

10.一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至6中任一所述的方法。