CN115985506A

CN115985506A - 一种信息提取方法及装置、存储介质、计算机设备

Info

Publication number: CN115985506A
Application number: CN202211446603.5A
Authority: CN
Inventors: 黄平; 黄明星; 毛小伟; 蒋佳佳; 沈鹏
Original assignee: Beijing Absolute Health Ltd
Current assignee: Beijing Absolute Health Ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-04-18

Abstract

本申请公开了一种信息提取方法及装置、存储介质、计算机设备，该方法包括：获取任一待提取对象对应的至少一个病历文件，并将所述病历文件输入至预设分类模型中，得到每个所述病历文件对应的目标属性标签；基于每个所述病历文件对应的目标属性标签，确定目标提取结构，并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取，得到目标结构化信息；基于所述目标结构化信息，提取所述任一待提取对象对应的目标信息。本申请可以智能化、简单化地从患者的病历文件中提取出目标信息，大大提升了目标信息提取的效率，同时准确率也较高。

Description

一种信息提取方法及装置、存储介质、计算机设备

技术领域

本申请涉及信息处理技术领域，尤其是涉及到一种信息提取方法及装置、存储介质、计算机设备。

背景技术

医疗技术的发展离不开不断积累的患者信息。例如，在医药进入临床试验阶段进行患者招募时，通常需要获取患者的病史、手术史、用药史等患者信息，以判断患者是否符合招募条件。可以说，有效的患者信息对于医疗技术发展具有不可替代的作用。

现有技术中，在从患者提供的病历文件中获取需要的患者信息时，通常由专业团队从患者提交的大量病历文件中获取有效线索，排除一些无效的线索，例如提交无效材料、年龄不符的等。之后由初审人员对有效线索进行初筛，初筛成功后再由复审人员进行复筛，复审人员在复筛过程中通过查看患者的医学材料，提取患者的用药史和手术史等患者信息，从而判断患者是否符合招募条件。然而这种方法效率低下，同时准确率也难以保证。

发明内容

有鉴于此，本申请提供了一种信息提取方法及装置、存储介质、计算机设备，可以智能化、简单化地从患者的病历文件中提取出目标信息，大大提升了目标信息提取的效率，同时准确率也较高。

根据本申请的一个方面，提供了一种信息提取方法，包括：

获取任一待提取对象对应的至少一个病历文件，并将所述病历文件输入至预设分类模型中，得到每个所述病历文件对应的目标属性标签；

基于每个所述病历文件对应的目标属性标签，确定目标提取结构，并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取，得到目标结构化信息；

基于所述目标结构化信息，提取所述任一待提取对象对应的目标信息。

根据本申请的另一方面，提供了一种信息提取装置，包括：

病历文件获取模块，用于获取任一待提取对象对应的至少一个病历文件，并将所述病历文件输入至预设分类模型中，得到每个所述病历文件对应的目标属性标签；

结构化信息提取模块，用于基于每个所述病历文件对应的目标属性标签，确定目标提取结构，并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取，得到目标结构化信息；

信息提取模块，用于基于所述目标结构化信息，提取所述任一待提取对象对应的目标信息。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述信息提取方法。

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述信息提取方法。

借由上述技术方案，本申请提供的一种信息提取方法及装置、存储介质、计算机设备，在对目标信息进行提取之前，首先可以获取想要提取信息的待提取对象的一个或者多个病历文件，其中，每个病历文件中记录的信息都是以电子版文字的方式记录的，也即病历文件中包括可以直接被读取的文字信息。接着，可以将病历文件输入到预设分类模型中，通过预设分类模型对每个病历文件进行识别，得到每个病历文件对应的目标属性标签。当确定了每个病历文件对应的目标属性标签之后，可以进一步确定该目标属性标签对应的目标提取结构。针对不同的目标属性标签，其对应的目标提取结构也是各不相同的。之后，可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取，从而得到目标结构化信息。得到每个病历文件对应的目标结构化信息之后，可以从该待提取对象对应的各个目标结构化信息中确定该待提取对象对应的目标信息。本申请实施例可以智能化、简单化地从患者的病历文件中提取出目标信息，大大提升了目标信息提取的效率，同时准确率也较高。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种信息提取方法的流程示意图；

图2示出了本申请实施例提供的另一种信息提取方法的流程示意图；

图3示出了本申请实施例提供的一种信息提取装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种信息提取方法，如图1所示，该方法包括：

步骤101，获取任一待提取对象对应的至少一个病历文件，并将所述病历文件输入至预设分类模型中，得到每个所述病历文件对应的目标属性标签；

本申请实施例提供的信息提取方法，可以应用于客户端一侧，也可以应用于服务器一侧。在对目标信息进行提取之前，首先可以获取想要提取信息的待提取对象的一个或者多个病历文件，其中，每个病历文件中记录的信息都是以电子版文字的方式记录的，也即病历文件中包括可以直接被读取的文字信息，待提取对象可以是患者本人。接着，可以将病历文件输入到预设分类模型中，通过预设分类模型对每个病历文件进行识别，得到每个病历文件对应的目标属性标签。在这里，目标属性标签可以是“出院记录”、“入院记录”、“ct报告”、“病理报告”、“其它”等。通常来说，每个病历文件对应着患者纸质病历本上一页的信息，而每一页信息实际上对应的是同一种类型，这样经过预设分类模型的分类即可准确确定该病历文件对应的目标属性标签。但是当某个病历文件包含病历本上至少两页上的信息时，此时通过预设分类模型的分类后，输出的目标属性标签可以是“其它”。

步骤102，基于每个所述病历文件对应的目标属性标签，确定目标提取结构，并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取，得到目标结构化信息；

在该实施例中，当确定了每个病历文件对应的目标属性标签之后，可以进一步确定该目标属性标签对应的目标提取结构。针对不同的目标属性标签，其对应的目标提取结构也是各不相同的。例如，当目标属性标签是“病理报告”时，目标提取结构可以是“病理诊断+临床诊断+免疫组化+肉眼所见+患者基础信息”等；当目标属性标签是“入院记录”时，目标提取结构可以是“患者基础信息+入院日期+主诉+现病史+既往史+家族史+诊断”等。之后，可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取，从而得到目标结构化信息。

例如，当目标属性标签是“入院记录”，对应的目标提取结构是“患者基础信息+入院日期+主诉+现病史+既往史+家族史+诊断”时，此时可以将“入院记录”对应的病历文件按照“患者基础信息+入院日期+主诉+现病史+既往史+家族史+诊断”的结构进行信息提取，最终得到目标结构化信息，目标结构化信息的输出形式具体可以是“患者基础信息：张三；入院日期：2020.11.02；主诉：腰部疼痛；现病史：腰部疼痛已满两年；既往史：无；家族史：无；诊断：初步诊断为腰脱”。

步骤103，基于所述目标结构化信息，提取所述任一待提取对象对应的目标信息。

在该实施例中，得到每个病历文件对应的目标结构化信息之后，可以从该待提取对象对应的各个目标结构化信息中确定该待提取对象对应的目标信息。例如，患者A对应有三个病历文件，分别为病历文件1、病历文件2以及病历文件3，其中可以从病历文件1中提取出目标结构化信息a，从病历文件2中提取出目标结构化信息b，从病历文件3中提取出目标结构化信息c。最后，可以从目标结构化信息a、目标结构化信息b以及目标结构化信息c中共同确定患者A对应的目标信息。

通过应用本实施例的技术方案，在对目标信息进行提取之前，首先可以获取想要提取信息的待提取对象的一个或者多个病历文件，其中，每个病历文件中记录的信息都是以电子版文字的方式记录的，也即病历文件中包括可以直接被读取的文字信息。接着，可以将病历文件输入到预设分类模型中，通过预设分类模型对每个病历文件进行识别，得到每个病历文件对应的目标属性标签。当确定了每个病历文件对应的目标属性标签之后，可以进一步确定该目标属性标签对应的目标提取结构。针对不同的目标属性标签，其对应的目标提取结构也是各不相同的。之后，可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取，从而得到目标结构化信息。得到每个病历文件对应的目标结构化信息之后，可以从该待提取对象对应的各个目标结构化信息中确定该待提取对象对应的目标信息。本申请实施例可以智能化、简单化地从患者的病历文件中提取出目标信息，大大提升了目标信息提取的效率，同时准确率也较高。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种信息提取方法，如图2所示，该方法包括：

步骤201，确定至少一个预设属性标签，并从不同的信息需求方获取每个所述预设属性标签对应的需求结构字段；

在该实施例中，首先可以确定多个预设属性标签，预设属性标签可以是“出院记录”、“入院记录”、“ct报告”、“病理报告”等。接着，可以确定每个预设属性标签对应的信息需求方，例如，针对“出院记录”这一预设属性标签的信息需求方，可以是“A医药研发公司”、“B医药研发部门”；针对“ct报告”这一预设属性标签的信息需求方，可以是“A医药研发公司”、“C医药研究部门”、“D医药公司”。此外，每个信息需求方针对同一预设属性标签，实际上需求结构字段也是不同的，其中，需求结构字段可以用于指示信息需求方所需的目标信息，例如，针对“ct报告”这一预设属性标签，信息需求方1可能想要其中的“a、b、c”项目标信息，而信息需求方2可能想要其中的“a、b、e、f”项目标信息，因此，不同的信息需求方针对同一预设属性标签的需求结构字段可以是不同的。

步骤202，构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系；

在该实施例中，由于针对同一预设属性标签，不同的信息需求方对应的需求结构字段可能存在不同，因此可以构建每个预设属性标签、信息需求方以及需求结构字段之间的映射关系。这样后续可以直接根据预设属性标签、信息需求方确定出对应的需求结构字段，简单方便、针对性更强。例如，针对预设属性标签α，对应有7家信息需求方，本次仅有3家信息需求方需要获取目标信息，那么仅从映射关系中确定这3家信息需求方的需求结构字段，从而可以有针对性性地确定每家信息需求方对应的需求结构字段。此外，由于映射关系中存储有不同的信息需求方对应的需求结构字段，这样后续在进行目标结构化信息提取时，提取得到的目标结构化信息直接与信息需求方吻合，当信息需求方想要查看目标结构化信息时，无需再对目标结构化信息进行筛选、处理等，有利于提升信息需求方的目标结构化信息利用效率和利用体验。

步骤203，通过预设文字识别方法对所述任一待提取对象提交的至少一个病历图片进行文字识别，得到所述任一待提取对象对应的至少一个病历文件；

在该实施例中，待提取对象可以自己在指定页面提交自己的病历图片。例如针对医药临床试验患者招募场景，开展医药临床试验患者招募的医药公司可以在指定网站开通患者报名窗口，患者可以通过该患者报名窗口上传自己的病历图片。在提交病历图片时，可以要求患者将纸质病历的每一页拍照作为单独的一个病历图片，当检测到患者上传的病历图片中包含两页或者多页的病历内容时，可以输出错误提示。之后，可以利用预设文字识别方法对每个病历图片进行文字识别，最终每个病历图片都可以对应得到一个病历文件。其中，预设文字识别方法可以是OCR(Optical Character Recognition，光学字符识别)方法，通过OCR方法对病历图片进行文字识别，简单方便、准确度高。

步骤204，获取任一待提取对象对应的至少一个病历文件，并将所述病历文件输入至预设分类模型中，得到每个所述病历文件对应的目标属性标签；

在该实施例中，在对目标信息进行提取之前，首先可以获取想要提取信息的待提取对象的一个或者多个病历文件，其中，每个病历文件中记录的信息都是以电子版文字的方式记录的，也即病历文件中包括可以直接被读取的文字信息。接着，可以将病历文件输入到预设分类模型中，通过预设分类模型对每个病历文件进行识别，得到每个病历文件对应的目标属性标签。

步骤205，确定目标信息需求方，并基于每个所述病历文件对应的目标属性标签以及所述目标信息需求方，从所述映射关系中确定所述目标属性标签对应的目标需求结构字段，并基于所述目标需求结构字段确定所述目标提取结构；

在该实施例中，确定每个病历文件对应的目标属性标签之后，可以进一步确定本次的目标信息需求方，之后，从多个映射关系中找出包含目标信息需求方、目标属性标签的映射关系，并从该映射关系中确定目标需求结构字段。接着，可以直接将目标需求结构字段作为目标提取结构，也可以在目标需求结构字段的基础上增添一些新的要求作为目标提取结构，在此不作要求。

步骤206，依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取，得到目标结构化信息；

在该实施例中，之后，可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取，从而得到目标结构化信息。

步骤207，确定所述目标信息对应的至少一个待提取信息库，所述待提取信息库中包括多个预设提取标签；

在该实施例中，在从待提取对象的目标结构化信息中进行目标信息的提取时，目标信息也可以包括多角度的，例如，目标信息可以是“手术史”、“疾病史”等，其中，每个角度的目标信息可以对应有一个待提取信息库，例如，针对“手术史”这一角度的目标信息，对应的待提取信息库可以是“肿瘤手术、心脏手术、骨折手术、眼睛手术、剖腹产手术”等；针对“疾病史”这一角度的目标信息，对应的待提取信息库可以是“肝病、胃病、手足病、皮肤病、脑部疾病、心脏病”等。上述“肿瘤手术”、“心脏手术”、“骨折手术”、“眼睛手术”、“剖腹产手术”可以是“手术史”这一角度对应的待提取信息库中的预设提取标签；“肝病”、“胃病”、“手足病”、“皮肤病”、“脑补疾病”、“心脏病”可以是“疾病史”这一角度对应的待提取信息库中的预设提取标签。

步骤208，将所述目标结构化信息与每个所述待提取信息库中包含的预设提取标签进行匹配，得到所述任一待提取对象对应的目标信息。

在该实施例中，可以将目标结构化信息依次和每个待提取信息库中包含的预设提取标签进行匹配，最后即可得到该待提取对象对应的全部目标信息。

在本申请实施例中，可选地，步骤202之后，所述方法还包括：基于所述映射关系中包含的任一需求结构字段，通过语义分析模型确定所述任一需求结构字段与预设字段数据库中每个预设字段之间的语义相似值；将所述语义相似值大于预设阈值的所述预设字段作为所述任一需求结构字段对应的扩充字段，并记录在所述映射关系中。

在该实施例中，在每个映射关系中，每个预设属性标签对应的每个信息需求方下的需求结构字段可以包括一个或者多个，为了能够提升后续目标结构化信息提取的准确性，可以进一步找到每个需求结构字段对应的扩充字段，其中，扩充字段与需求结构字段之间的语义相似值要大于预设阈值。具体地，可以利用语义分析模型，确定任意一个需求结构字段对应的语义，并将预设字段数据库中的每个预设字段对应的语义分别与该需求结构字段对应的语义之间计算语义相似值，将语义相似值大于预设阈值的预设字段均作为上述需求结构字段对应的扩充字段，并将这些扩充字段记录于对应的映射关系中。在这里，预设字段数据库中可以包含有多个预设字段，这些预设字段具体可以是由医护人员录入的，或者是从各个医院获取的，由于针对同一个需求结构字段，不同医院等可以对应有多种不同的说法，所以可以将需求结构字段利用扩充字段进行扩充。例如需求结构字段是“诊疗经过”，那么扩充字段可以是“住院经过”、“主要治疗经过”等。本申请实施例将扩充字段添加在映射关系中，可以提升后续目标结构化信息的提取的准确性，能够有效避免目标结构化信息的提取过程中的漏提情况。

在本申请实施例中，可选地，步骤206包括：

步骤206-1，基于所述目标提取结构中的每个所述目标需求结构字段，从所述目标属性标签对应的所述病历文件中提取每个所述目标需求结构字段对应的第一信息；

在该实施例中，在提取目标结构化信息时，首先可以根据目标提取结构中的每个目标需求结构字段，从与目标提取结构对应的目标属性标签下的病历文件中，提取与每个目标需求结构字段对应的第一信息。也即，第一信息是根据目标需求结构字段提取的。

步骤206-2，从所述映射关系中确定每个所述目标需求结构字段对应的扩充字段，从所述目标属性标签对应的所述病历文件中提取每个所述扩充字段对应的第二信息；

在该实施例中，此外，还可以根据每个目标需求结构字段对应的扩充字段，进一步从与目标提取结构对应的目标属性标签下的病历文件中，提取与每个扩充字段对应的第二信息。也即，第二信息是根据扩充字段提取的。

步骤206-3，对每个所述目标需求结构字段对应的所述第一信息以及所述第二信息进行聚合处理，得到所述目标需求结构字段对应的目标信息，并基于所述目标需求结构字段以及所述目标信息，生成所述目标结构化信息。

在该实施例中，确定与每个目标需求结构字段对应的第一信息和第二信息之后，可以进一步对第一信息和第二信息进行聚合处理，最终得到该目标需求结构字段对应的目标信息。将每个目标需求结构字段与对应的目标信息结合在一起，即可得到一组目标结构化信息。后续，可以根据同一用户对应的多组目标结构化信息，共同确定出该待提取对象的目标信息。

在本申请实施例中，可选地，步骤204中所述“将所述病历文件输入至预设分类模型中”之前，所述方法还包括：获取病例样本，对每个所述病例样本进行分词，得到与每个所述病历样本对应的拼接向量组合；将所述拼接向量组合输入至初始分类模型中，输出预测分类结果；基于每个所述病历样本对应的真实分类结果以及所述预测分类结果，计算所述初始分类模型对应的模型损失值；当所述模型损失值大于预设损失阈值时，调整所述初始分类模型对应的模型参数，并将每个所述病例样本对应的所述拼接向量组合输入至调整后的初始分类模型中，再次计算所述模型损失值；当所述模型损失值小于或等于所述预设损失阈值时，将所述初始分类模型作为所述预设分类模型。

在该实施例中，得到预设分类模型之前，可以对初始分类模型进行训练，从而得到该预设分类模型。在这里，初始分类模型可以为BERT模型，对BERT模型进行微调训练可以比使用其他模型进行训练获得更高的准确度，若模型从0开始训练，常用的中文汉字3500个，这些字组合成词汇，中文词汇量约为50万个；设定词向量维度为512时，语言模型参数量为512*50万＝256M。训练亿级参数量的模型需要海量训练语料，BERT通用模型的强大之处在于使用谷歌平台和高性能服务器，对超大规模数据进行训练，得到预训练的通用语言模型，再根据具体应用，使用针对具体情况应使用的标注数据进行有监督的模型精加工，最终得到预设分类模型，这样可以大大减少模型训练所需的时间。

本申请实施例在对初始分类模型进行训练时，首先，获取病历样本，其中，病例样本中可以包括正样本和负样本，其中正样本为分类正确的样本，负样本为分类错误的样本，病例样本也为以电子版文字的方式记录的。接着，对病历样本进行分词，即将每个病历样本分词，将分词分别转换为数值，之后由数值拼接为对应的样本拼接向量组合。在这里，样本拼接向量组合可以包括样本词向量组合、样本权重向量组合、样本句子标识向量组合以及样本位置标识向量组合，样本权重向量组合的存在可以使初始分类模型在进一步训练过程中充分考虑需要重点关注的词汇。之后将样本拼接向量组合输入至初始分类模型，可以得到预测分类结果，具体可以是一个概率值，之后可以以真实分类结果和预测分类结果为基础，计算初始分类模型对应的模型损失值。当模型损失值大于预设损失阈值时，说明初始分类模型的模型精度并没有达到预期的目标，还需要对初始分类模型的模型参数进行调整，调整参数后再次将样本拼接向量组合输入至调整参数后的初始分类模型中，并再次计算模型损失值，直至模型损失值小于或等于预设损失阈值时，将模型损失值小于或等于预设损失阈值的初始分类模型作为预设分类模型。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种信息提取装置，如图3所示，该装置包括：

可选地，所述装置还包括：

需求结构字段获取模块，用于所述基于每个所述病历文件对应的目标属性标签，确定目标提取结构之前，确定至少一个预设属性标签，并从不同的信息需求方获取每个所述预设属性标签对应的需求结构字段；

映射关系构建模块，用于构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系；

所述结构化信息提取模块，用于：

确定目标信息需求方，并基于每个所述病历文件对应的目标属性标签以及所述目标信息需求方，从所述映射关系中确定所述目标属性标签对应的目标需求结构字段，并基于所述目标需求结构字段确定所述目标提取结构。

可选地，所述装置还包括：

语义相似值确定模块，用于所述构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系之后，基于所述映射关系中包含的任一需求结构字段，通过语义分析模型确定所述任一需求结构字段与预设字段数据库中每个预设字段之间的语义相似值；

字段记录模块，用于将所述语义相似值大于预设阈值的所述预设字段作为所述任一需求结构字段对应的扩充字段，并记录在所述映射关系中。

可选地，所述结构化信息提取模块，还用于：

基于所述目标提取结构中的每个所述目标需求结构字段，从所述目标属性标签对应的所述病历文件中提取每个所述目标需求结构字段对应的第一信息；从所述映射关系中确定每个所述目标需求结构字段对应的扩充字段，从所述目标属性标签对应的所述病历文件中提取每个所述扩充字段对应的第二信息；对每个所述目标需求结构字段对应的所述第一信息以及所述第二信息进行聚合处理，得到所述目标需求结构字段对应的目标信息，并基于所述目标需求结构字段以及所述目标信息，生成所述目标结构化信息。

可选地，所述装置还包括：

识别模块，用于所述获取任一待提取对象对应的至少一个病历文件之前，通过预设文字识别方法对所述任一待提取对象提交的至少一个病历图片进行文字识别，得到所述任一待提取对象对应的至少一个病历文件。

可选地，所述装置还包括：

分词模块，用于所述将所述病历文件输入至预设分类模型中之前，获取病例样本，对每个所述病例样本进行分词，得到与每个所述病历样本对应的拼接向量组合；

输入模块，用于将所述拼接向量组合输入至初始分类模型中，输出预测分类结果；

损失值计算模块，用于基于每个所述病历样本对应的真实分类结果以及所述预测分类结果，计算所述初始分类模型对应的模型损失值；

模型参数调整模块，用于当所述模型损失值大于预设损失阈值时，调整所述初始分类模型对应的模型参数，并将每个所述病例样本对应的所述拼接向量组合输入至调整后的初始分类模型中，再次计算所述模型损失值；

模型确定模块，用于当所述模型损失值小于或等于所述预设损失阈值时，将所述初始分类模型作为所述预设分类模型。

可选地，所述信息提取模块，还用于：

确定所述目标信息对应的至少一个待提取信息库，所述待提取信息库中包括多个预设提取标签；将所述目标结构化信息与每个所述待提取信息库中包含的预设提取标签进行匹配，得到所述任一待提取对象对应的目标信息。

需要说明的是，本申请实施例提供的一种信息提取装置所涉及各功能单元的其他相应描述，可以参考图1至图2方法中的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述如图1至图2所示的信息提取方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1至图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的信息提取方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。在对目标信息进行提取之前，首先可以获取想要提取信息的待提取对象的一个或者多个病历文件，其中，每个病历文件中记录的信息都是以电子版文字的方式记录的，也即病历文件中包括可以直接被读取的文字信息。接着，可以将病历文件输入到预设分类模型中，通过预设分类模型对每个病历文件进行识别，得到每个病历文件对应的目标属性标签。当确定了每个病历文件对应的目标属性标签之后，可以进一步确定该目标属性标签对应的目标提取结构。针对不同的目标属性标签，其对应的目标提取结构也是各不相同的。之后，可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取，从而得到目标结构化信息。得到每个病历文件对应的目标结构化信息之后，可以从该待提取对象对应的各个目标结构化信息中确定该待提取对象对应的目标信息。本申请实施例可以智能化、简单化地从患者的病历文件中提取出目标信息，大大提升了目标信息提取的效率，同时准确率也较高。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每个所述病历文件对应的目标属性标签，确定目标提取结构之前，所述方法还包括：

确定至少一个预设属性标签，并从不同的信息需求方获取每个所述预设属性标签对应的需求结构字段；

构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系；

所述基于每个所述病历文件对应的目标属性标签，确定目标提取结构，包括：

3.根据权利要求2所述的方法，其特征在于，所述构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系之后，所述方法还包括：

基于所述映射关系中包含的任一需求结构字段，通过语义分析模型确定所述任一需求结构字段与预设字段数据库中每个预设字段之间的语义相似值；

将所述语义相似值大于预设阈值的所述预设字段作为所述任一需求结构字段对应的扩充字段，并记录在所述映射关系中。

4.根据权利要求3所述的方法，其特征在于，所述依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取，得到目标结构化信息，包括：

基于所述目标提取结构中的每个所述目标需求结构字段，从所述目标属性标签对应的所述病历文件中提取每个所述目标需求结构字段对应的第一信息；

从所述映射关系中确定每个所述目标需求结构字段对应的扩充字段，从所述目标属性标签对应的所述病历文件中提取每个所述扩充字段对应的第二信息；

对每个所述目标需求结构字段对应的所述第一信息以及所述第二信息进行聚合处理，得到所述目标需求结构字段对应的目标信息，并基于所述目标需求结构字段以及所述目标信息，生成所述目标结构化信息。

5.根据权利要求1所述的方法，其特征在于，所述获取任一待提取对象对应的至少一个病历文件之前，所述方法还包括：

通过预设文字识别方法对所述任一待提取对象提交的至少一个病历图片进行文字识别，得到所述任一待提取对象对应的至少一个病历文件。

6.根据权利要求1所述的方法，其特征在于，所述将所述病历文件输入至预设分类模型中之前，所述方法还包括：

获取病例样本，对每个所述病例样本进行分词，得到与每个所述病历样本对应的拼接向量组合；

将所述拼接向量组合输入至初始分类模型中，输出预测分类结果；

基于每个所述病历样本对应的真实分类结果以及所述预测分类结果，计算所述初始分类模型对应的模型损失值；

当所述模型损失值大于预设损失阈值时，调整所述初始分类模型对应的模型参数，并将每个所述病例样本对应的所述拼接向量组合输入至调整后的初始分类模型中，再次计算所述模型损失值；

当所述模型损失值小于或等于所述预设损失阈值时，将所述初始分类模型作为所述预设分类模型。

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标结构化信息，提取所述任一待提取对象对应的目标信息，包括：

确定所述目标信息对应的至少一个待提取信息库，所述待提取信息库中包括多个预设提取标签；

将所述目标结构化信息与每个所述待提取信息库中包含的预设提取标签进行匹配，得到所述任一待提取对象对应的目标信息。

8.一种信息提取装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。