CN111091883B

CN111091883B - 一种医疗文本处理方法、装置、存储介质及设备

Info

Publication number: CN111091883B
Application number: CN201911294498.6A
Authority: CN
Inventors: 丁牟华; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-07-04
Anticipated expiration: 2039-12-16
Also published as: CN111091883A

Abstract

本申请实施例公开了一种医疗文本处理方法、装置、存储介质及设备，具体地，获取待处理医疗文本，根据实体类别从待处理医疗文本中提取各个实体。然后，按照各个实体在待处理医疗文本中的出现顺序对各个实体进行排序，得到实体的排序结果。再根据实体的排序结果以及实体类别对实体进行组合获得实体组合，该实体组合中可以包括待处理医疗文本中的多个关键词，从而获得待处理医疗文本的结构化数据。即，通过本申请实施例提供的方法，可以对待处理医疗文本中的信息进行有效抽取，并进行结构化表示，以便于后续对结构化数据进行分析。

Description

一种医疗文本处理方法、装置、存储介质及设备

技术领域

本申请涉及信息处理技术领域，具体涉及一种医疗文本处理方法、装置、存储介质及设备。

背景技术

随着自然语言处理技术的不断发展和应用，信息提取作为自然语言处理领域重要部分，是指从非结构化的文本数据中提取有价值的内容，并形成结构化信息，以便利用结构化信息进行业务分析。

在医疗领域，同样会产生大量的医疗数据，而病历数据作为其中重要组成部分，具有重要的应用价值。由于病历数据的多样性和不确定性等特点，导致传统的信息提取方法无法有效地从病历数据中提取有价值的信息并进行结构化处理，影响对病历数据的分析。

发明内容

有鉴于此，本申请实施例提供一种医疗文本处理方法、装置、存储介质及设备，以实现更为有效地从病历数据中提取信息。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请实施例提供的一种医疗文本处理方法，该方法可以包括：

获取待处理医疗文本；

根据实体类别从所述待处理医疗文本中提取各个实体；所述实体为所述待处理医疗文本中的关键词；

按照各个所述实体在所述待处理医疗文本中的出现顺序对各个所述实体进行排序，得到所述实体的排序结果；

根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，从而获得所述待处理医疗文本的结构化数据。

在一种可能的实现方式中，所述根据实体类别从所述待处理医疗文本中提取各个实体，包括：

根据词典所包括的实体类别从所述待处理医疗文本中提取第一实体；和/或，

根据正则表达式从所述待处理医疗文本中提取第二实体，所述正则表达式与实体类别相对应。

在一种可能的实现方式中，所述根据各个所述实体在所述待处理医疗文本中的出现顺序对各个所述实体进行排序，得到所述实体的排序结果，包括：

获取各个所述实体在所述待处理医疗文本中的偏移量；

根据所述实体在所述待处理医疗文本中的偏移量对各个所述实体进行排序，得到所述实体的排序结果。

在一种可能的实现方式中，所述根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，包括：

当所述实体的实体类别为目标实体类别时，将该实体与位于该实体之后的相邻实体进行组合，直至位于该实体之后的实体为分隔符或预设实体，生成一组实体组合；该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别不同。

在一种可能的实现方式中，所述方法还包括：

当实体的实体类别为发生时间时，确定位于该实体之后的实体所生成的实体组合，并将该实体添加至所述实体组合；

当实体的实体类别为持续时间或加重时间时，确定位于该实体之前的实体所生成的各个实体组合，直至位于该实体之前的实体为分隔符，将该实体添加至所述实体组合。

在一种可能的实现方式中，当该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别相同时，所述将该实体与位于该实体之后的相邻实体进行组合，包括：

当多个连续实体所对应的实体类别均为部位时，获取第一目标实体，所述第一目标实体为与所述多个连续实体中偏移量最大的实体相邻的且实体类别为症状的实体；

将所述第一目标实体分别与所述多个连续实体中的各个实体进行组合，获得实体组合；

当多个连续实体所对应的实体类别均为症状时，获取第二目标实体，所述第二目标实体为与所述多个连续实体中偏移量最小的实体相邻的且实体类别为身体部位的实体；

将所述第二目标实体分别与所述多个连续实体中各个实体进行组合，获得实体组合。

在一种可能的实现方式中，所述方法还包括：

针对任一实体组合，将所述实体组合中实体类别为发生时间的实体或实体类别为持续时间的实体确定为第三目标实体；

将所述第三目标实体的实体类别确定为时间线，并添加至所述实体组合。

在一种可能的实现方式中，所述方法还包括：

获取所述实体组合对应的实体组合类别；

确定各个所述实体组合类别所对应的字段；

根据待处理医疗文本所对应的目标本体图谱以及各个所述实体组合对应的实体组合类别、所述实体组合类别对应的字段，建立实体图谱；所述目标本体图谱包括各个字段，每个所述字段对应各个实体组合类别，所述实体组合类别包括各个实体类别。

在本申请实施例第二方面，提供了一种医疗文本处理装置，所述装置可以包括：

第一获取单元，获取待处理医疗文本；

提取单元，用于根据实体类别从所述待处理医疗文本中提取各个实体；所述实体为所述待处理医疗文本中的关键词；

排序单元，用于按照各个所述实体在所述待处理医疗文本中的出现顺序对各个所述实体进行排序，得到所述实体的排序结果；

组合单元，用于根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，从而获得所述待处理医疗文本的结构化数据。

在本申请实施例第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行第一方面所述的医疗文本处理的方法。

在本申请实施例第四方面，提供了一种实现医疗文本处理设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现第一方面所述的医疗文本处理的方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例首先获取待处理医疗文本，根据实体类别从待处理医疗文本中提取各个实体。然后，按照各个实体在待处理医疗文本中的出现顺序对各个实体进行排序，得到实体的排序结果。再根据实体的排序结果以及实体类别对实体进行组合获得实体组合，该实体组合中可以包括待处理医疗文本中的多个关键词，从而获得待处理医疗文本的结构化数据。即，通过本申请实施例提供的方法，可以对待处理医疗文本中的信息进行有效抽取，并进行结构化表示，以便于后续对结构化数据进行分析。

附图说明

图1为本申请实施例提供的一种医疗文本处理方法的流程图；

图2为本申请实施例提供的一种生成实体图谱的流程图；

图3为本申请实施例提供的一种本体图谱示例图；

图4为本申请实施例提供的一种实体图谱示例图；

图5为本申请实施例提供的一种医疗文本处理装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请实施例所提供的处理方法，先对本申请实施例所涉及的背景技术进行说明。

随着医疗领域的不断发展，其产生越来越多的医疗数据，其中医疗病历数据作为重要组成部分，具有重要的应用和挖掘价值。由于不同领域信息的表示形式往往不同，传统的信息抽取方法无法从病历数据中抽取出有价值的信息并进行结构化处理，影响对医疗数据的有效分析。

基于此，本申请实施例提供了一种医疗文本处理方法，具体地，首先获取待处理医疗文本，并根据实体类别从该待处理医疗文本中抽取各个实体，即，进行关键词的提取。然后，根据各个实体在待处理医疗文本中出现的顺序对各个实体进行排序，获得实体的排序结果。再根据实体的排序结果以及实体类别对实体进行组合，生成实体组合，从而实现医疗信息的提取以及结构化处理，获得待处理医疗文本的结构化数据。

为便于理解本申请所提供的技术方案，下面将结合附图对本申请实施例提供的医疗文本处理方法进行说明。

参见图1，该图为本申请实施例提供的一种医疗文本处理方法的流程图，该方法可以包括：

S101：获取待处理医疗文本。

S102：根据实体类别从待处理医疗文本中提取各个实体。

在本实施例中，首先获取待处理医疗文本，该待处理医疗文本可以包括患者的各种医疗信息，如身份信息、患病信息以及手术信息等。具体地，该待处理医疗文本可以为各种医疗文本，例如，入院记录文本、出院记录文本等。

在获取到待处理医疗文本后，根据实体类别从待处理医疗文本中提取各个实体。其中，实体为待处理医疗文本中的关键词，实体类别是指该关键词的类别。例如，待处理医疗文本为“一个月前咳嗽咳痰，胸部疼痛持续1周，加重2天，无发热”，则实体可以包括“一个月前”，其对应的实体类别为“发生时间”；实体“咳嗽”，对应的实体类别为“症状”；实体“咳痰”，对应的实体类别为“症状”；实体为“胸部”，对应的实体类别为“部位”；实体为“疼痛”，对应的实体类别为“症状”；实体为“1周”，对应的实体类别为“持续时间”；实体为“2周”，对应的实体类别为“加重时间”；实体为“无”，对应的实体类别为“否定词”；实体为“发热”，对应的实体类别为“症状”。

可以理解的是，待处理医疗文本中不仅包括医学词语，例如症状名称、疾病名称、手术名称等专业词汇，还可以包括部位说明、分隔符等确定性且非数值型的实体，即第一实体；以及包括关于数值的描述，例如发生时间、持续时间、年龄等不确定性的实体，即第二实体。通常情况下，对于一份完整的医疗文本而言，是同时包括第一实体和第二实体，以通过第一实体和第二实体对患者信息进行完整的说明。因此，在根据实体类别从待处理医疗文本中提取实体时，可以同时提取对于上述两种不同类型的实体。

由于第一实体和第二实体为不同种类型的实体，为保证每种实体都可以被提取，本实施例提供了一种实体提取方法，具体地，对于确定性和非数值型的实体即第一实体，可以根据词典所包括的实体类别从待处理医疗文本中提取第一实体，其中，词典可以根据实际需求进行构建。具体地，可以利用传统的自然语言处理方法以及医疗词典进行提取。在提取时，可以先利用自然语言处理方法对待处理医疗文本进行分词处理，然后先根据医疗词典所包括的实体类别提取医学词汇，再根据其它的词典所包括的实体类别从剩余的分词中提取其他非数值型的实体，例如提取分隔符类别对应的实体“,”、否定词类别对应的实体“无”等。例如，待处理医疗文本为“一个月前咳嗽咳痰，胸部疼痛持续1周，加重2天，无发热”，则提取的结果如表1所示。

表1第一实体提取结果

实体名称

咳嗽

咳痰

，

胸部

疼痛

，

实体类别

症状

分隔符

部位

症状

分隔符

实体名称

，

无

发热

实体类别

分隔符

否定词

症状

对于不确定性和数值型的实体即第二实体，则可以利用正则表达式从待处理医疗文本中提取，该正则表达式与实体类别一一对应。该正则表达式可以由人工进行信息收集后生成，具体地可以先确定出现第二实体时对应的关键词，根据第二实体前后经常出现的关键词生成正则表达式。例如，对于实体类别为“持续时间”的实体，通常具有“持续”、“时间单位”、“数值”等关键词与其相邻，则可以根据上述关键词生成实体类别为“持续时间”的正则表达式。同理，也可以生成实体类别为“加重时间”的正则表达式等。例如，待处理医疗文本为““一个月前咳嗽咳痰，胸部疼痛持续1周，加重2天，无发热”，则利用正则表达式提取的结果如表2所示。

表2第二实体提取结果

实体名称	一个月前	1周	2天
				实体类别	发生时间	持续时间	加重时间

S103：根据各个实体在待处理医疗文本中的出现顺序对各个实体进行排序，得到实体的排序结果。

可以理解的是，待处理医疗文本中各个实体的出现是有先后顺序的，为保证在后续构建实体组合时，得到的实体组合所表示的信息准确，还需根据各个实体在待处理医疗文本中的出现顺序对各个实体进行排序，得到实体的排序结果，以便对排序后的实体进行组合。

在具体实现时，在从待处理医疗文本提取各个实体时，还可以同时提取每个实体在待处理医疗文本中的偏移量，以根据实体在待处理医疗文本中的偏移量对各个实体进行排序，得到实体的排序结果。其中，实体在待处理医疗文本中的偏移量是指待处理医疗文本中第一个字与该实体中首个字的间距。例如，待处理医疗文本为“一个月前咳嗽咳痰”，第一个字为“一”，实体为“咳嗽”，则从“一”到“咳”的间距为4，则实体“咳嗽”对应的偏移量为4。在具体实现时，可以根据待处理文本中每个字对应的存储地址确定实体的偏移量，具体为，获取待处理文本中的第一个字对应的存储地址以及实体中首个字对应的存储地址，将两个存储地址的差值确定为该实体的偏移量。

例如，待处理医疗文本为“一个月前咳嗽咳痰，胸部疼痛持续1周，加重2天，无发热”，则第一实体的提取结果如表3所示，第二实体的提取结果如表4所示。

表3第一实体提取结果

表4第二实体提取结果

实体	一个月前	1周	2天
				实体类别	发生时间	持续时间	加重时间
偏移量	0	15	20

在提取到第一实体、第二实体、偏移量以及实体类别后，按照偏移量对各个实体进行排序，得到实体的排序结果，参见表5所示。

表5实体的排序结果

S104：根据实体的排序结果以及实体类别，对实体进行组合获得实体组合，从而获得待处理医疗文本的结构化数据。

在对提取的实体进行排序后，可以根据实体的排序结果以及实体类别对实体进行组合，获得实体组合，从而获得结构化数据。也就是，在对所提取的实体进行排序后，根据实体类别将多个独立的实体组合成一组实体组合，该实体组合中的各个实体之间存在一定的关联性，可以代表一条有价值的信息。

在具体实现时，可以利用下述方式获得实体组合，具体为：

当实体的实体类别为目标实体类别时，将该实体与位于该实体之后的相邻实体进行组合，直至位于该实体之后的实体为分隔符或预设实体，生成一组实体组合。即，遍历排序后的实体，如果所获取的实体对应的实体类别为目标实体类别，则将该实体与位于该实体之后的相邻实体进行组合，直至位于该实体之后的相邻实体为预设的表示组合结束的实体。其中，该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别不相同。其中，目标实体类别是指除数值型实体对应的实体类别之外的实体类别，预设实体可以根据实际应用场景进行设定，其可以包括实体类别为症状的实体、实体类别为手术的实体或者实体类别为疾病的实体。

为便于理解，例如待处理医疗文本为“咳嗽咳痰，胸部疼痛”，按顺序依次遍历“咳嗽”、“咳痰”、“,”、“胸部”、“疼痛”，当遍历“咳嗽”时，先将其加入缓存队列，向后遍历“咳痰”，由于“咳嗽”和“咳痰”对应的实体类别均为症状，不对二者进行组合，进行缓存；再向后遍历“,”，则得到两个实体组合[咳嗽]和[咳痰]；再向后遍历“胸部”加入缓存队列，再遍历“疼痛”，二者对应的实体类别不同，分别为身体部位和症状，则将二者进行组合，得到实体组合[胸部疼痛]。

可以理解的是，当待处理医疗文本中仅包括目标实体类别对应的实体时，可以通过上述方式获得实体组合。当待处理医疗文本中还包括发生时间对应的实体、持续时间对应的实体或加重时间对应的实体时，可以基于上述获得的实体组合再次进行组合，以获得更加完整的实体组合。

具体为，当所遍历的实体对应的实体类别为发生时间时，确定位于该实体之后的实体所生成的实体组合，并将该实体添加至实体组合。可以理解的是，通常情况下医护人员在整理患者病历时，通常包括患者发病的时间，即发生时间，并在在发生时间之后记录患者所患疾病的信息。例如“一个月前开始头疼”、“一周之前咳嗽”等等。因此，当遍历的实体类别为发生时间时，需要向后进行组合，从而构建出更加完整的实体组合。例如，待处理医疗文本为“一个月前咳嗽咳痰、胸部疼痛”，当遍历“一个月前”时，将其进行缓存，并获取位于“一个月前”之后的各个实体所生成的组合，分别为[咳嗽]、[咳痰]、[胸部疼痛]，则将“一个月前”加入各个实体组合中，得到更新后的实体组合为[一个月前咳嗽]、[一个月前咳痰]、[一个月前胸部疼痛]。

当实体的实体类别为持续时间或加重时间时，确定位于该实体之前的实体所生成的各个实体组合，直至位于该实体之前的实体为分隔符，将该实体添加至实体组合。可以理解的是，通常情况下医护人员在整理患者病历时，在记录患病时长或加重时长时，通常为疾病在前，持续时长或加重时长在后。例如“咳嗽2周”、“发烧2天、加重1天”等等。因此，当遍历的实体类别为持续时间或加重时间时，需要向在前的实体组合进行追加，从而构建出完整的实体组合。

例如，待处理医疗文本为“一个月前咳嗽咳痰，胸部疼痛持续1周，加重2天”，当遍历“1周”时，将其进行缓存，并获取位于“1周”之前的各个实体所生成的组合，分别为[一个月前咳嗽]、[一个月前咳痰]、[一个月前胸部疼痛]，由于[一个月前咳嗽]、[一个月前咳痰]与实体“1周”之间存在分隔符，则仅将“1周”加入实体组合中[一个月前胸部疼痛]，得到更新后的实体组合为[一个月前胸部疼痛1周]。同理，在遍历“2天”时，则仅将“2天”加入实体组合中[一个月前胸部疼痛1周]中，得到更新后的实体组合为[一个月前胸部疼痛1周2天]。

为便于更直观地待处理文本为“一个月前咳嗽咳痰，胸部疼痛持续1周，加重2天”所对应的实体组合，参见表6。

表6实体组合

通过表6可知，每个实体组合对应有实体组合类别，即表征该实体组合的属性，具体地，实体组合类别可以包括症状描述、手术描述、诊断描述、检查描述等。

需要说明的是，在一些应用场景下，待处理医疗文本中会出现多个部位并列，例如“头部、胸部疼痛”，其中，头部和胸部为并列关系；或者出现多个症状并列，例如“眼部疼痛、肿胀”，其中，疼痛和肿胀为并列关系。为了更合理地提取存在并列关系的实体组合，将针对上述两种情况提供了对应的组合方式。

一、部位并列

当多个连续实体所对应的实体类别均为部位时，获取第一目标实体，该第一目标实体为与多个连续实体中偏移量最大的实体相邻的且实体类别为症状的实体；将第一目标实体分别与多个连续实体中的各个实体进行组合，获得实体组合。即，对于多个身体部位并列的情况，将后文出现的实体类别为症状的实体分别与前述出现的多个连续的实体分别进行组合。例如“头部、胸部疼痛”，“头部”和“胸部”为多个连续的实体，其中，“胸部”为多个连续实体中偏移量最大的实体，与“胸部”相邻的且实体类别为症状的实体为“疼痛”，则第一目标实体为“疼痛”，则将“疼痛”分别与“头部”、“胸部”组合，获得实体组合[头部疼痛]、[胸部疼痛]。

可以理解的是，在实际应用时，可以确定出多个第一目标实体，对于确定出的每个第一目标实体分别与多个连续实体中的各个实体进行组合，获得实体组合。

二、症状并列

当多个连续实体所对应的实体类别均为症状时，获取第二目标实体，其中，第二目标实体为与多个连续实体中偏移量最小的实体相邻的且实体类别为部位的实体；将第二目标实体分别与多个连续实体中各个实体进行组合，获得实体组合。即，对于多个症状并列的情况，获取第一个症状前出现的实体类别为身体部位的实体，再与后续并列出现的整体分别进行组合。例如“眼部疼痛、肿胀”，“疼痛”和“肿胀”为多个连续的实体，其中，“疼痛”为多个连续实体中偏移量最小的实体，与“疼痛”相邻的且实体类别为部位的实体为“眼部”，则第二目标实体为“眼部”，则将“眼部”分别与“疼痛”、“肿胀”组合，获得实体组合[眼部疼痛]、[眼部肿胀]。

可以理解的是，在实际应用时，可以确定出多个第二目标实体，对于确定出的每个第二目标实体分别与多个连续实体中的各个实体进行组合，获得实体组合。

需要说明的是，当待处理医疗文本中同时出现部位并列和症状并列时，在利用上述两种方式生成实体组合时，会出现重合的实体组合。为避免提取的信息重复，则可以删除重复实体组合。例如“眼部、胸部疼痛、肿胀”，则在确定第一目标实体时，可以确定出两个第一目标实体分别为“疼痛”和“肿胀”，则可以生成实体组合为[眼部疼痛]、[胸部疼痛]、[眼部肿胀]、[胸部肿胀]；则确定第二目标实体时，可以确定出两个第二目标实体分别为“眼部”和“胸部”，则可以生成实体组合为[眼部疼痛]、[眼部肿胀]、[胸部疼痛]和[胸部肿胀]。通过上述两种方式组合获得重复的实体组合，可以将重复的删除。为便于更直观地理解本实施例，参见表7所示的实体组合结果。

表7实体组合

基于上述实施例可知，获取待处理医疗文本，根据实体类别从待处理医疗文本中提取各个实体。然后，按照各个实体在待处理医疗文本中的出现顺序对各个实体进行排序，得到实体的排序结果。再根据实体的排序结果以及实体类别对实体进行组合获得实体组合，该实体组合中可以包括待处理医疗文本中的多个关键词，从而获得待处理医疗文本的结构化数据。即，通过本申请实施例提供的方法，可以对待处理医疗文本中的信息进行有效抽取，并进行结构化表示，以便于后续对结构化数据进行分析。

可以理解的是，医疗文本的描述通常与时间因素存在密切的关联性，这种时间关联性在后续的数据业务分析中具有很重要的价值，因此，为体现各个实体组合的时间关联性，还可以增加实体类别为时间线的实体，从而为实体组合增加时间信息，便于用户更直观地获取该实体组合的时间信息。具体为，针对任一实体组合，将实体组合中实体类别为发生时间的实体或实体类别为持续时间的实体确定为第三目标实体；将第三目标实体的实体类别确定为时间线，并添加至该实体组合。

即，遍历每个实体组合，当该实体组合中包括实体类别为发生时间的实体时，将该实体确定为第三目标实体，将该第三目标实体的实体类别确定为时间线添加至该实体组合中；如果该实体组合中未包括实体类别为发生时间的实体时，将该实体组合中存在的实体类别为持续时间的实体确定为第三目标实体，将该第三目标实体的实体类别确定为时间线添加至该实体组合中。例如，待处理医疗文本为“咳嗽2个月，1个月前出现气短，胸部疼痛，2天前发热”，其对应的实体组合结果参加表8。

表8实体组合

可以理解的是，通常情况下医疗文本具有一定的段落层次性，比如入院记录文本可以包括主诉、现病史、既往史等字段，每个字段下可以抽取到的实体组合类别有症状描述、手术描述和诊断描述等，不同的实体组合类别又包含不同的实体类别，例如部位、症状、发生时间、手术名称、疾病名称等。为更加直观地表示抽取到的实体信息，可以根据本体图谱进行结构化表示，生成实体图谱。

参见图2，该图为本申请实施例提供的一种生成实体图谱方法的流程图，该方法可以包括：

S201：获取实体组合对应的实体组合类别。

对于通过上述方法实施例生成的各个实体组合，获取每个实体组合对应的实体组合类别。其中，实体组合类别可以包括症状描述、手术描述、诊断描述、检查描述等，实体组合类别具体所包括的类别可以根据实际应用情况进行设置，本实施例在此不做限定。

在具体实现时，可以根据实体组合中实体对应的实体类别确定该实体组合类别。例如，实体组合为[一周前头部疼痛]，其对应的实体类别为发生时间、部位和症状，确定该实体组合是针对症状信息的描述，则该实体组合为症状描述；实体组合为[一年前阑尾切除]，其对应的实体类别为发生时间和手术名称，确定该实体组合是针对手术信息的描述，则该实体组合为手术描述。

S202：确定各个实体组合类别所对应的字段。

可以理解的是，由于每个字段均可以包括一种或多种实体组合类别，因此，当确定每个实体组合对应的实体组合类别后，还需确定每个实体组合类别对应的字段，以便将该实体组合类别对应的实体组合添加至该实体组合类别对应的字段下。

在具体实现时，可以先确定实体组合中实体所对应的字段，然后将实体所对应的字段确定为该实体组合类别对应的字段。其中，确定实体所对应的字段可以为获取该实体所属段落，将该段落所对应的主题确定该实体的字段。例如，实体1位于现病史段落，该段落的主题为“现病史”，则该实体1对应的字段为现病史；实体2位于个人史段落，该段落的主题为“个人史”，则实体2对应的字段为个人史。需要说明的是，同一实体组合中的各个实体应属于同一字段。

S203：根据待处理医疗文本所对应的目标本体图谱以及各个实体组合对应的实体组合类别、实体组合类别对应的字段，建立实体图谱。

本实施例中，当确定出每个实体组合对应的实体类别以及该实体类别对应的字段时，根据上述信息以及目标本体图谱构建实体图谱。其中，目标本体图谱包括各个字段，每个字段对应各个实体组合类别，实体组合类别包括各个实体类别，如图3所示本体图谱示意图。

需要说明的是，在实际应用中，不同类型的医疗文本对应的本体图谱是不相同的，如出院记录文本不包括主诉字段，则对应的本体图谱中不包含主诉节点。因此，在构建实体图谱时，可以根据待处理医疗文本的文本类型确定目标本体图谱。其中，待处理医疗文本的文本类型可以包括入院记录、出院记录等。例如，待处理医疗文本的文本类型为入院记录，则对应的实体图谱如图4所示。

基于上述描述可知，可以使用图结构表示所提取的各个实体组合，从而使得提取的信息更加直观、清晰，便于后续业务分析处理。

基于上述方法实施例，本申请实施例还提供了一种医疗文本处理装置，参见图5，该装置可以包括：

第一获取单元501，获取待处理医疗文本；

提取单元502，用于根据实体类别从所述待处理医疗文本中提取各个实体；所述实体为所述待处理医疗文本中的关键词；

排序单元503，用于按照各个所述实体在所述待处理医疗文本中的出现顺序对各个所述实体进行排序，得到所述实体的排序结果；

组合单元504，用于根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，从而获得待处理医疗文本的结构化数据。

在一种可能的实现方式中，所述提起单元，包括：

第一提取子单元，用于根据词典所包括的实体类别从所述待处理医疗文本中提取第一实体；和/或，

第二提取子单元，用于根据正则表达式从所述待处理医疗文本中提取第二实体，所述正则表达式与实体类别相对应。

在一种可能的实现方式中，所述排序单元，包括：

获取子单元，用于获取各个所述实体在所述待处理医疗文本中的偏移量；

排序子单元，用于根据所述实体在所述待处理医疗文本中的偏移量对各个所述实体进行排序，得到所述实体的排序结果。

在一种可能的实现方式中，所述组合单元，包括：

第一组合单元，用于当所述实体的实体类别为目标实体类别时，将该实体与位于该实体之后的相邻实体进行组合，直至位于该实体之后的实体为分隔符或预设实体，生成一组实体组合；该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别不同。

在一种可能的实现方式中，所述装置还包括：

第二组合单元，用于当实体的实体类别为发生时间时，确定位于该实体之后的实体所生成的实体组合，并将该实体添加至所述实体组合；

第三组合单元，用于当实体的实体类别为持续时间或加重时间时，确定位于该实体之前的实体所生成的各个实体组合，直至位于该实体之前的实体为分隔符，将该实体添加至所述实体组合。

在一种可能的实现方式中，当该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别相同时，所述第一组合单元，具体用于当多个连续实体所对应的实体类别均为部位时，获取第一目标实体，所述第一目标实体为与所述多个连续实体中偏移量最大的实体相邻的且实体类别为症状的实体；将所述第一目标实体分别与所述多个连续实体中的各个实体进行组合，获得实体组合；

当多个连续实体所对应的实体类别均为症状时，获取第二目标实体，所述第二目标实体为与所述多个连续实体中偏移量最小的实体相邻的且实体类别为身体部位的实体；将所述第二目标实体分别与所述多个连续实体中各个实体进行组合，获得实体组合。

在一种可能的实现方式中，所述装置还包括：

第一确定单元，用于针对任一实体组合，将所述实体组合中实体类别为发生时间的实体或实体类别为持续时间的实体确定为第三目标实体；

第二确定单元，用于将所述第三目标实体的实体类别确定为时间线，并添加至所述实体组合。

在一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取所述实体组合对应的实体组合类别；

第三确定单元，用于确定各个所述实体组合类别所对应的字段；

建立单元，用于根据待处理医疗文本所对应的目标本体图谱以及各个所述实体组合对应的实体组合类别、所述实体组合类别对应的字段，建立实体图谱；所述目标本体图谱包括各个字段，每个所述字段对应各个实体组合类别，所述实体组合类别包括各个实体类别。

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例，本实施例在此不再赘述。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的医疗文本处理的方法。

本申请实施例提供了一种实现医疗文本处理设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如所述的医疗文本处理的方法。

基于上述说明可知，获取待处理医疗文本，根据实体类别从待处理医疗文本中提取各个实体。然后，按照各个实体在待处理医疗文本中的出现顺序对各个实体进行排序，得到实体的排序结果。再根据实体的排序结果以及实体类别对实体进行组合获得实体组合，该实体组合中可以包括待处理医疗文本中的多个关键词，从而获得待处理医疗文本的结构化数据。即，通过本申请实施例提供的方法，可以对待处理医疗文本中的信息进行有效抽取，并进行结构化表示，以便于后续对结构化数据进行分析。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种医疗文本处理的方法，其特征在于，所述方法包括：

获取待处理医疗文本；

根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，从而获得所述待处理医疗文本的结构化数据；

所述根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，包括：

当所述实体的实体类别为目标实体类别时，将该实体与位于该实体之后的相邻实体进行组合，直至位于该实体之后的实体为分隔符或预设实体，生成一组实体组合；该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别不同；

所述目标实体类别指除数值型实体对应的实体类别之外的实体类别；

当该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别相同时，所述将该实体与位于该实体之后的相邻实体进行组合，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据实体类别从所述待处理医疗文本中提取各个实体，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据各个所述实体在所述待处理医疗文本中的出现顺序对各个所述实体进行排序，得到所述实体的排序结果，包括：

获取各个所述实体在所述待处理医疗文本中的偏移量；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述实体组合对应的实体组合类别；

确定各个所述实体组合类别所对应的字段；

7.一种医疗文本处理装置，其特征在于，所述装置包括：

第一获取单元，获取待处理医疗文本；

组合单元，用于根据所述实体的排序结果以及所述实体类别，对所述实体进行组合获得实体组合，从而获得所述待处理医疗文本的结构化数据；

所述组合单元，包括：

第一组合单元，用于当所述实体的实体类别为目标实体类别时，将该实体与位于该实体之后的相邻实体进行组合，直至位于该实体之后的实体为分隔符或预设实体，生成一组实体组合；该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别不同；

当该实体对应的实体类别与位于该实体之后的相邻实体对应的实体类别相同时，所述第一组合单元，具体用于当多个连续实体所对应的实体类别均为部位时，获取第一目标实体，所述第一目标实体为与所述多个连续实体中偏移量最大的实体相邻的且实体类别为症状的实体；将所述第一目标实体分别与所述多个连续实体中的各个实体进行组合，获得实体组合；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-6任一项所述的医疗文本处理的方法。

9.一种实现医疗文本处理设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6任一项所述的医疗文本处理的方法。