CN111798948B

CN111798948B - 病历信息处理方法、装置、设备和存储介质

Info

Publication number: CN111798948B
Application number: CN202010626324.1A
Authority: CN
Inventors: 饶官军; 方成; 孟海忠; 柴鹏飞; 许红伟; 陈雪魁; 吴边; 任宇翔; 冯辉; 洪叶恩
Original assignee: Weiyiyun Hangzhou Holding Co ltd
Current assignee: Weiyiyun Hangzhou Holding Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2024-02-27
Anticipated expiration: 2040-07-01
Also published as: CN111798948A

Abstract

本发明实施例公开了一种病历信息处理方法、装置、设备和存储介质。所述方法包括：获取待处理的病历信息的字符向量、实体特征向量和属性特征向量；将所述待处理的病历信息的字符向量、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到所述待处理的病历信息中每一个字符相对所述待处理的病历信息中其他字符的第一注意力得分，其中，所述病历结构化模型基于多个历史病历信息训练得到；基于所述待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于所述具有相关性的实体信息和属性信息形成所述待处理的病历信息的结构化病历。以实现高效、准确的将病历信息进行结构化。

Description

病历信息处理方法、装置、设备和存储介质

技术领域

本发明实施例涉及医疗文本处理技术，尤其涉及一种病历信息处理方法、装置、设备和存储介质。

背景技术

病历作为医务人员对患者疾病的发生、发展、转归，进行检查、诊断、治疗等医疗活动过程的记录，蕴含着大量宝贵的信息，可以帮助医生研究发病规律、改善治疗方法，可以帮助药企研发新药，甚至可以帮助医疗AI学习如何诊断疾病。

随着医院信息化的发展，大部分医院都配备了医院管理信息系统(HospitalInformation System，HIS)，使得病历的记录基本实现电子化。但是，由于不同医生的书写风格、用词方式都有很大差异，不同医院使用不同的HIS系统、以及HIS的版本也随着时间不断更迭，导致电子病历很难被广泛利用。病历结构化通过分析和识别病历中的重要信息，从多个层次上构建描述病历的重要特征，最终将无结构的病历自然语言文本，转换成便于计算机理解(同时也方便人理解)的结构化信息。

相关技术中，通常由医疗人员对病历的重要信息进行提取和结构化，这样效率较低，人力成本高，且准确率和覆盖率也都较低。

发明内容

本发明实施例提供一种病历信息处理方法、装置、设备和存储介质，以实现高效、准确的将病历信息进行结构化。

第一方面，本发明实施例提供了一种病历信息处理方法，该方法包括：

获取待处理的病历信息的字符向量、实体特征向量和属性特征向量；

将所述待处理的病历信息的字符向量、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到所述待处理的病历信息中每一个字符相对所述待处理的病历信息中其他字符的第一注意力得分，其中，所述病历结构化模型基于多个历史病历信息训练得到；

基于所述待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于所述具有相关性的实体信息和属性信息形成所述待处理的病历信息的结构化病历。

第二方面，本发明实施例还提供了一种病历信息处理装置，该装置包括：

病历信息获取模块，用于获取待处理的病历信息的字符向量、实体特征向量和属性特征向量；

第一注意力得分获取模块，用于将所述待处理的病历信息的字符向量、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到所述待处理的病历信息中每一个字符相对所述待处理的病历信息中其他字符的第一注意力得分，其中，所述病历结构化模型基于多个历史病历信息训练得到；

结构化病历获取模块，用于基于所述待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于所述具有相关性的实体信息和属性信息形成所述待处理的病历信息的结构化病历。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中任一所述的病历信息处理方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例中任一所述的病历信息处理方法。

本发明实施例的技术方案，通过将获取的待处理的病历信息的字符向量、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到待处理的病历信息中每一个字符相对待处理的病历信息中其他字符的第一注意力得分，根据病历结构化模型中得到的病历信息中的各字符相对该病历信息中的其他字符的第一注意力得分，可得到该字符所在的实体信息的得分或该字所在的属性信息的得分，将该病历信息中的实体信息和属性信息确定出来，即可根据实体信息的得分和与其对应的属性信息的得分，即可确定该实体信息与属性信息是否具有相关性，若具有相关性，则将该实体信息和属性信息形成结构化病历。这样可基于该第一注意力得分，将病历信息的实体信息和属性信息进行结构化匹配，实现了高效、准确的将病历信息进行结构化的效果，解决了现有技术中通过人为操作将实体信息和属性信息进行匹配，造成匹配效率低下，匹配精确度低的问题。

附图说明

图1是本发明实施例一中的病历信息处理方法的流程图；

图2是本发明实施例二中的病历信息处理方法的流程图；

图3是本发明实施例三中的病历信息处理装置的结构示意图；

图4是本发明实施例四中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的病历信息处理方法的流程图，本实施例可适用于对病历信息进行处理，将病历信息中的实体信息与属性信息进行快速、精确匹配的情况，该方法可以由病历信息处理装置来执行，该病历信息处理装置可以由软件和/或硬件来实现，该病历信息处理装置可以配置在计算设备上，具体包括如下步骤：

S110、获取待处理的病历信息的字符向量、实体特征向量和属性特征向量。

示例性的，病历信息可以是任意目标对象的病情的描述信息，这里的目标对象可以是人或动物。例如，一个患者的身体不舒服，去医院检查，经检查，该患者发烧38度，伴有咳嗽等，医生将这些病情情况进行书面描述，则形成该患者的病历信息。该病历信息可以从医院的病例管理中心获取的。

病历信息的字符向量可以是病历信息各字符的对应编码所组成的向量。病历信息的字符向量具体可以是通过如下方式进行获取：将获取的待处理的病历信息中的每一个字符提取出来，根据各字符与其对应编码的对应关系，得到各字符的编码，将各字符的编码及各字符在该病历信息中的位置，将各字符的编码按各字符在该病历信息中的位置进行拼接，形成该病历信息的字符向量。例如，例如，待处理的病历信息为“周一感冒”，且这里的“周一感冒”中的每一个字符都有其对应的数值编码，比如，“周”对应的数值编码为“1”，“一”对应的数值编码为“2”，“感”对应的数值编码为“3”，“冒”对应的数值编码为“4”，将各字符对应的数值编码，按各字符在病历信息中的位置，进行拼接，即可得到该待处理的病历信息的字符向量，即该“周一感冒”这个待处理的病历信息的字符向量为[1,2,3,4]。

实体特征向量可以是病历信息中的实体信息的向量，例如，病历信息为“周一感冒”，则实体信息为“感冒”，且这里的“感冒”有其对应的数值编码，比如，“感冒”对应的数值编码为“11”，则该病历信息的实体特征向量为[11]。

属性特征向量可以是病历信息中的属性信息的向量，例如，病历信息为“周一感冒”，则属性信息为“周一”，且这里的“周一”有其对应的数值编码，比如，“周一”对应的数值编码为“22”，则该病历信息的属性特征向量为[22]。

这样以便基于获取的病历信息，基于病历信息的实体信息和属性信息，将该病历信息中的实体信息和属性信息进行快速、精确匹配。

S120、将待处理的病历信息的字符向量、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到待处理的病历信息中每一个字符相对待处理的病历信息中其他字符的第一注意力得分，其中，病历结构化模型基于多个历史病历信息训练得到。

示例性的，病历结构化模型可以是基于输入的病历信息的字符向量、实体特征向量和属性特征向量，得到该病历信息中每一个字符相对该病历信息中其他字符的第一注意力得分的模型。具体的，根据病历信息的字符向量、实体特征向量和属性特征向量得到该病历信息中每一个字符相对该病历信息中其他字符的第一注意力得分可以是：将该病历信息的字符向量、实体特征向量和属性特征向量进行对应相加后，得到该病历信息的一个数值向量，根据该数值向量基于预设计算规则，得到该病历信息的第一注意力得分。

例如，病历信息为“周一感冒”，该病历信息的字符向量为[1,2,3,4]，实体特征向量为[11]，属性特征向量为[22]，则将字符向量中的“1”与属性特征向量中的第一数值“2”相加，将字符向量中的“2”与属性特征向量中的第二数值“2”相加，将字符向量中的“3”与实体特征向量中的第一数值“1”相加，将字符向量中的“4”与实体特征向量中的第二数值“1”相加，则最后形成该病历信息的数值向量[3,4,4,5]。基于该病历信息的数值向量，根据预设的计算规则，可得到该病历信息的第一注意力得分。

可选的，该模型可以是基于双向网络的编码器(Bidirectional EncoderRepresentation from Transformers，BERT)的关系抽取算法网络：该网络由Embedding层、transformer层和FC全连接层构成。这样可快速获取待处理的病历信息中各字符相对病历信息中的其他字符的第一注意力得分，以便后续可基于该第一注意力得分，将病历信息的实体信息和属性信息进行结构化匹配，实现了高效、准确的将病历信息进行结构化的效果。

S130、基于待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于具有相关性的实体信息和属性信息形成待处理的病历信息的结构化病历。

示例性的，实体信息可以是包括医学领域中的疾病、症状、体征、检查、检验、药品、治疗等概念的实例。例如，疾病实例：高血压、糖尿病；症状实例：头痛、头晕；体征实例：体温、血压；检查实例：胸部CT、心电图；检验实例：血常规、尿常规；药品实例：阿莫西林胶囊、感冒止咳片；治疗实例：乳腺切除术、精准放疗，等。

属性信息可以是实体信息拥有的一些特性。例如，一个患者的病历信息为：血压监测为：收缩压170毫米汞柱，舒张压为105毫米汞柱，则该病历信息的实体信息为高血压，属性信息可以是：收缩压170毫米汞柱，舒张压为105毫米汞柱。再例如，一个患者的病历信息为：周一开始感冒，周二加重，则该病历信息的实体信息为感冒，属性信息为周一开始，周二加重。

病历信息的结构化病历可以是将病历信息中的实体信息和属性信息以键值对或其他形式出现，以形成结构化。例如，一个患者的病历信息为：血压监测为：收缩压170毫米汞柱，舒张压为105毫米汞柱，则该病历信息的结构化病历为：高血压-血压105mmHg、170mmHg。再例如；一个患者的病历信息为：经乙肝检验，其抗体呈阳性，则该病历信息的结构化病历为：乙肝检验-抗体阳性。再例如，一个患者的病历信息为：周一开始感冒，周二加重，则该病历信息的结构化病历为：感冒-周一开始，周二加重，等。这种可以将病历信息的实体信息和属性信息以键值对或其他结构化形式出现的，则为病历信息的结构化病历。

根据病历结构化模型中得到的病历信息中的各字符相对该病历信息中的其他字符的第一注意力得分，可得到该字符所在的实体信息的得分或该字所在的属性信息的得分，将该病历信息中的实体信息和属性信息确定出来，即可根据实体信息的得分和与其对应的属性信息的得分，即可确定该实体信息与属性信息是否具有相关性，若具有相关性，则将该实体信息和属性信息形成结构化病历。这样可快速、精确的将病历信息中的具有相关性的实体信息和属性信息形成结构化病历，解决了现有技术中通过人为操作将实体信息和属性信息进行匹配，造成匹配效率低下，匹配精确度低的问题。

可选的，所述基于待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于具有相关性的实体信息和属性信息形成待处理的病历信息的结构化病历，具体可以是：基于病历结构化模型输出的各字符的第一注意力得分，分别确定各字符所在的实体信息的第二注意力得分或各字符所在的属性信息的第三注意力得分；基于第二注意力得分、第三注意力得分和预设得分阈值，确定具有相关性的实体信息和属性信息；将具有相关性的实体信息和属性信息对应设置，生成待处理的病历信息的结构化病历。

示例性的，第二注意力得分可以是若病历结构化模型输出的某一个字符为该病历信息中的实体信息，则将实体信息相对于整个病历信息的注意力得分。第三注意力得分可以是若病历结构化模型输出的某一个字符为该病历信息中的属性信息，则将属性信息相对于整个病历信息的注意力得分。预设得分阈值可以是预先设置的一个得分阈值，可以是当第二注意力得分和第三注意力得分均大于该得分阈值时，则证明该第二注意力得分所对应的实体信息和该第三注意力得分所对应的属性信息是相关性的，可构成结构化病历。或者也可以是当第二注意力得分和第三注意力得分的均值大于该得分阈值时，则证明该第二注意力得分所对应的实体信息和该第三注意力得分所对应的属性信息是相关性的，可构成结构化病历。

例如，病历信息为“周一感冒”，该病历信息的实体信息为“感冒”，属性信息为“周一”，若将该病历信息的字符向量输入训练好的病历结构化模型中，该模型输出各字符相对其他字符的第一注意力得分如下表所示：

由于属性信息为“周一”，则计算“周一”这个词的第三注意力得分，基于上表中的第一注意力得分计算第三注意力得分的具体方法可以是：字符“周”在属性信息“周一”中，字符“一”也在属性信息“周一”中，则基于字符“周”和“一”的第一注意力得分可计算属性信息“周一”的第三注意力得分。将“周”相对于“周”的第一注意力得分和“一”相对于“周”的第一注意力得分相加，则得到“周一”相对于“周”的注意力得分(即0.8+0.7＝1.5)。将“周”相对于“一”的第一注意力得分和“一”相对于“一”的第一注意力得分相加(即0.7+0.9＝1.6)，则得到“周一”相对于“一”的注意力得分。将这两个注意力得分相加，则得到“周一”的第三注意力得分(即1.6+1.5＝3.1)。

同样的，由于实体信息为“感冒”，则计算“感冒”这个词的二注意力得分，基于与上述属性信息“周一”的第三注意力得分的计算方法一样，可得到“感冒”的第二注意力得分。

这样根据各字符相对于其他字符的第一注意力得分，确定各字符所在的实体信息的第二注意力得分或各字符所在的属性信息的第三注意力得分，确定具有相关性的实体信息和属性信息，将具有相关性的实体信息和属性信息生成结构化病历，这样可量化的生成结构化病历。

可选的，所述基于第二注意力得分、第三注意力得分和预设得分阈值，确定具有相关性的实体信息和属性信息，包括：当第二注意力得分和第三注意力得分均大于预设得分阈值时，确定第二注意力得分所对应的实体信息，以及第三注意力得分所对应的属性信息，为具有相关性的实体信息和属性信息；或者，当第二注意力得分和第三注意力得分的均值大于预设得分阈值时，确定第二注意力得分所对应的实体信息，以及第三注意力得分所对应的属性信息，为具有相关性的实体信息和属性信息。

示例性的，在确定得到的实体信息和属性信息是否具有相关性时，可将第二注意力得分和第三注意力得分均大于预设得分阈值时，则确定第二注意力得分所对应的实体信息，以及第三注意力得分所对应的属性信息，为具有相关性的实体信息和属性信息；或者是，当第二注意力得分和第三注意力得分的均值大于预设得分阈值时，则确定第二注意力得分所对应的实体信息，以及第三注意力得分所对应的属性信息，为具有相关性的实体信息和属性信息。例如，以上述病历信息为“周一感冒”为例，第一注意力得分为上表所示，则“周一”的第三注意力得分为3.1，“感冒”的第二注意力得分为3.6，若预设得分阈值为3，由于3.1>3，且3.6>3，则“周一”和“感冒”为具有相关性的属性信息和实体信息。或者，若周一的第三注意力得分为3.1，“感冒”的第二注意力得分为3.6，若预设得分阈值为3.2，则(3.1+3.6)/2＝3.35，由于3.35>3.2，则“周一”和“感冒”为具有相关性的属性信息和实体信息。

需要说明的是，除了上述提到的可以将第二注意力得分和第三注意力得分均与预设得分阈值进行比较，或者将第二注意力得分和第三注意力得分的均值与预设得分阈值进行比较外，还可以是将第二注意力得分和第三注意力得分的其他形式与预设得分阈值进行比较，例如，可以是将第二注意力得分或第三注意力得分中的一个与预设得分阈值进行比较，还可以是将第二注意力得分和第三注意力与预设得分阈值的误差与另一误差阈值进行比较，大于误差阈值时，与第二注意力对应的实体信息和与第三注意力对应的属性信息不具有相关性，小于误差阈值时，与第二注意力对应的实体信息和与第三注意力对应的属性信息具有相关性，等等。这里不做限定，任何可基于第二注意力的扥和第三注意力得分，判断与第二注意力对应的实体信息和与第三注意力对应的属性信息是否具有相关性的方式均属于本发明实施例的保护范围。

这样可量化确定与第二注意力对应的实体信息和与第三注意力对应的属性信息是否具有相关性。

实施例二

图2为本发明实施例二提供的病历信息处理方法的流程图，本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中，可选的，病历结构化模型的训练方法，包括：获取各历史病历信息中的实体信息和属性信息；基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本；基于待训练的病历结构化模型得到训练样本对应的各字符的预测注意力得分，并基于各字符的预测注意力得分得到预测结构化病历；基于预测结构化病历与训练样本对应的历史结构化病历，对待训练的病历结构化模型进行迭代训练。

如图2所示，本发明实施例的方法具体包括如下步骤：

S210、获取各历史病历信息中的实体信息和属性信息。

示例性的，当获取到多个历史病历信息后，先将各历史病历信息的实体信息和属性信息。具体获取方式可以是：基于构建的实体信息字典和属性信息字典，以及各历史病历信息，确定各历史病历信息中的实体信息和属性信息。即可以通过构建的实体信息字典和属性信息字典，对各历史病历信息中的实体信息和属性信息进行匹配抽取。例如，一个历史病历信息为“感冒，流鼻涕”，则将该历史病历信息放入存储有实体信息字典的数据库中，该数据库可自动将该历史病历信息与实体信息字典进行匹配，若实体信息字典中有“感冒”这个实体类型，则将“感冒”这个实体信息抽取出来。同样的，“流鼻涕”这个属性信息则与属性信字典进行匹配，将“流鼻涕”这个属性信息进行抽取。这样基于实体信息字典和属性信息字典可实现快速抽取历史病历信息中的实体信息和属性信息的效果。

这里的实体信息字典和属性信息字典可以是预先构建好的，这里构建实体信息字典时，可以是从百科网站或医学相关网站获取关于“疾病、症状、、体征、检查、检验、药品、治疗”等类型的实体信息，获取完成后，还可以通过医学专家对其信息补充。

在构建属性信息字典时，可以通过医学专家的经验总结以及现有病历的内容分析，对于“身体部位、大小、数量、程度、性质、气味、颜色、诱发因素、加重因素、缓解因素、状态、分期分型、药品效果、给药方式、治疗效果、家庭成员、过敏源、方位信息、变化情况”等属性信息进行枚举。

可以理解的是，这里可以将实体信息字典和属性信息字典分别相当于一个excel表格，实体信息的表格中列举了各种类型的实体信息，属性信息的表格中列举了各种类型的属性特性。

需要说明的是，在基于构建的属性信息字典将历史病历信息中的属性进行抽取时，由于属性信息字典中没有存储发生时间、持续时间、加重时间、发生频率等这些信息，因此，历史病历信息无法通过属性信息字典枚举出这些属性信息。这里根据不同的属性信息制定出相应的抽取规则，例如，可以使用抽取正则规则来将属性信息字典中无法枚举的属性信息进行补充抽取。比如，一个抽取正则规则为“((？:周|星期)|[上下]+(？:周|星期))[一二三四五六七日1-7](？！\d)”，该抽取正则规则用于匹配时间格式为“星期x”、“周x”的时间点，然后通过判断与该时间直接相连的病历信息中是否包含“加重”字样，来区分该时间点是否为“加重时间”，否则为发生时间。假设病历信息为“周一开始咳嗽，周六加重”，其中“周一”会被作为“发生时间”，因为“周六”后面直接连接的病历信息的文本为“加重”，所以将“周六”判定为“加重时间”。这样可以将属性信息字典无法枚举出的属性信息进行补充抽取，保证了属性信息的抽取完整性。

需要说明的是，在利用属性信息抽取正则，对所述属性信息进行补充抽取后，相应的，在生成结构化病历时，也需进行补充描述。例如，若病历信息为：“周一感冒加重”，经上述方案，确定实体信息“感冒”和属性信息“周一”是具有相关性的，则将实体信息“感冒”和属性信息“周一”形成结构化病历，由于在利用抽取正则规则抽取属性信息时，确定“周一”是“加重”的，则在形成的结构化病历中也将“周一”进行补充描述“加重”，即可形成如“感冒-周一(加重)”这种形式的结构化病历。

S220、基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本。

示例性的，可将各历史病历信息中的每一个字符、各历史病历信息中的实体信息和属性信息，或者，他们对应的向量来作为待训练的病历结构化模型的训练样本。

可选的，所述基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本，包括：基于各历史病历信息中的每一个字符的第一数值编码，以及各第一数值编码在历史病历信息中的第一位置，确定各历史病历信息的字符向量；基于各历史病历信息中的实体信息的第二数值编码，以及各第二数值编码在历史病历信息中的第二位置，确定各历史病历信息中的实体特征向量；基于各历史病历信息中的属性信息第三数值编码，以及各第三数值编码在历史病历信息中的第三位置，确定各历史病历信息中属性特征向量；基于各历史病历信息的字符向量、实体特征向量和属性特征向量，确定待训练的病历结构化模型的训练样本。

示例性的，第一数值编码可以是各历史病历信息中的每一个字符所对应的编码。第一位置可以是第一数值编码在历史病历信息中的位置，该位置与第一数值编码所对应的各字符在历史病历信息中的位置是一致的。例如，历史病历信息为“周一感冒”，“周”对应的数值编码为“1”，“一”对应的数值编码为“2”，“感”对应的数值编码为“3”，“冒”对应的数值编码为“4”，其中，“周”在病历信息“周一感冒”中处于第一个位置，“一”处于第二位置，“感”处于第三个位置，“冒”处于第四个位置，则病历信息“周一感冒”中的各字符的第一数值编码的位置与各字符在病历信息中的位置相同，即将“周”的第一数值编码“1”位于第一个位置，将“一”的第一数值编码“2”位于第二个位置，将“感”的第一数值编码“3”位于第三个位置，将“冒”的第一数值编码“4”位于第四个位置，则确定该病历信息的字符向量为[1,2,3,4]。

第二数值编码可以是各历史病历信息中的实体信息的所对应的编码。第二位置可以是第二数值编码在历史病历信息中的位置，该位置与第二数值编码所对应的实体信息在历史病历信息中的位置是一致的。这里实体特征向量的确定与上述字符向量的确定方法一致，这里不再赘述。

第三数值编码可以是各历史病历信息中的属性信息的所对应的编码。第三位置可以是第三数值编码在历史病历信息中的位置，该位置与第三数值编码所对应的属性信息在历史病历信息中的位置是一致的。这里属性特征向量的确定与上述字符向量的确定方法一致，这里不再赘述。

根据各历史病历信息的字符向量、实体特征向量和属性特征向量，作为待训练的病历结构化模型的训练样本。这样以便后续基于该训练样本对待训练的病历结构化模型进行迭代训练。

S230、基于待训练的病历结构化模型得到所述训练样本对应的各字符的预测注意力得分，并基于所述各字符的预测注意力得分得到预测结构化病历。

示例性的，预测注意力得分可以是将某一历史病历信息的字符向量、实体特征向量和属性特征向量输入待训练的病历结构化模型中后，该模型输出的该历史病历信息中的各字符相对于该历史病历信息中的其他字符的注意力得分。预测结构化病历可以是基于预测注意力得分，确定该历史病历信息中具有相关性的实体信息和属性信息，基于具有相关性的实体信息和属性信息形成的该历史病历信息的结构化病历。这样可得到各历史病历信息所对应的预测结构化病历。

S240、基于所述预测结构化病历与所述训练样本对应的历史结构化病历，对待训练的病历结构化模型进行迭代训练。

示例性的，历史结构化病历可以是训练样本所对应的真实的结构化病历。基于某一历史病历信息得到的该历史病历信息的预测结构化病历，将其与该历史病历信息的真实结构化病历进行对比，当两个结构化病历相符时，则说明该待训练的病历结构化模型预测结果较好，若两个结构化病历不相符，则说明该待训练的病历结构化模型预测结果不好，需继续对该模型进行训练。当各历史病历信息的预测结构化病历与训练样本对应的历史结构化病历进行对比，符合结果达到一定阈值(例如80％)时，则证明该模型训练完成，例如，一共有100个历史病历信息，这100个历史病历信息中，有80个历史病历信息的预测结构化病历与其对应的历史结构化病历相符，则证明该模型训练完成。

这样以便后续基于训练完成的病历结构化模型，快速得到待训练的病历信息中每一个字符相对于该待处理的病历信息中其他字符的第一注意力得分。提高了病历信息中的实体信息和属性信息的匹配效率。

S250、获取待处理的病历信息的字符向量、实体特征向量和属性特征向量。

S260、将待处理的病历信息的字符向量、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到待处理的病历信息中每一个字符相对待处理的病历信息中其他字符的第一注意力得分，其中，病历结构化模型基于多个历史病历信息训练得到。

S270、基于待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于具有相关性的实体信息和属性信息形成待处理的病历信息的结构化病历。

本发明实施例的技术方案，通过获取各历史病历信息中的实体信息和属性信息，基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本，基于待训练的病历结构化模型得到所述训练样本对应的各字符的预测注意力得分，并基于所述各字符的预测注意力得分得到预测结构化病历，基于所述预测结构化病历与所述训练样本对应的历史结构化病历，对待训练的病历结构化模型进行迭代训练，这样以便后续基于训练完成的病历结构化模型，快速得到待训练的病历信息中每一个字符相对于该待处理的病历信息中其他字符的第一注意力得分。提高了病历信息中的实体信息和属性信息的匹配效率。

实施例三

图3为本发明实施例三提供的病历信息处理装置的结构示意图，如图3所示，该装置包括：病历信息获取模块31、第一注意力得分获取模块32和结构化病历获取模块33。

其中，病历信息获取模块31，用于获取待处理的病历信息、实体特征向量和属性特征向量；

第一注意力得分获取模块32，用于将所述待处理的病历信息、实体特征向量和属性特征向量输入训练好的病历结构化模型中，得到所述待处理的病历信息中每一个字符相对所述待处理的病历信息中其他字符的第一注意力得分，其中，所述病历结构化模型基于多个历史病历信息训练得到；

结构化病历获取模块33，用于基于所述待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于所述具有相关性的实体信息和属性信息形成所述待处理的病历信息的结构化病历。

在上述实施例的技术方案的基础上，该装置还包括：

信息获取模块，用于获取各历史病历信息中的实体信息和属性信息；

训练样本确定模块，用于基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本；

预测结构化病历确定模块，用于基于待训练的病历结构化模型得到所述训练样本对应的各字符的预测注意力得分，并基于所述各字符的预测注意力得分得到预测结构化病历；

模型训练模块，用于基于所述预测结构化病历与所述训练样本对应的历史结构化病历，对待训练的病历结构化模型进行迭代训练。

在上述实施例的技术方案的基础上，训练样本确定模块包括：

字符向量确定单元，用于基于各历史病历信息中的每一个字符的第一数值编码，以及各所述第一数值编码在历史病历信息中的第一位置，确定各历史病历信息的字符向量；

实体特征向量确定单元，用于基于各历史病历信息中的实体信息的第二数值编码，以及各所述第二数值编码在历史病历信息中的第二位置，确定各历史病历信息中的实体特征向量；

属性特征向量确定单元，用于基于各历史病历信息中的属性信息第三数值编码，以及各所述第三数值编码在历史病历信息中的第三位置，确定各历史病历信息中属性特征向量；

训练样本确定单元，用于基于各历史病历信息的所述字符向量、所述实体特征向量和所述属性特征向量，确定待训练的病历结构化模型的训练样本。

在上述实施例的技术方案的基础上，结构化病历获取模块33包括：

第二注意力得分/第三注意力得分确定单元，用于基于所述病历结构化模型输出的各字符的第一注意力得分，分别确定各字符所在的实体信息的第二注意力得分或各字符所在的属性信息的第三注意力得分；

实体信息和属性信息确定单元，用于基于所述第二注意力得分、第三注意力得分和预设得分阈值，确定具有相关性的实体信息和属性信息；

结构化病历生成单元，用于将具有相关性的实体信息和属性信息对应设置，生成所述待处理的病历信息的结构化病历。

在上述实施例的技术方案的基础上，实体信息和属性信息确定单元具体用于：

当所述第二注意力得分和所述第三注意力得分均大于所述预设得分阈值时，确定所述第二注意力得分所对应的实体信息，以及所述第三注意力得分所对应的属性信息，为具有相关性的实体信息和属性信息；或者，

当所述第二注意力得分和所述第三注意力得分的均值大于所述预设得分阈值时，确定所述第二注意力得分所对应的实体信息，以及所述第三注意力得分所对应的属性信息，为具有相关性的实体信息和属性信息。

在上述实施例的技术方案的基础上，信息获取模块具体用于：

基于构建的实体信息字典和属性信息字典，以及各历史病历信息，确定各历史病历信息中的实体信息和属性信息。

在上述实施例的技术方案的基础上，该装置还包括：

补充抽取模块，用于基于属性信息抽取正则，对所述属性信息进行补充抽取。

相对应的，在上述实施例的技术方案的基础上，结构化病历获取模块33还用于：

基于对所述属性信息的补充抽取，对所述待处理的病历信息的结构化病历进行补充描述。

本发明实施例所提供的病历信息处理装置可执行本发明任意实施例所提供的病历信息处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种设备的结构示意图，如图4所示，该设备包括处理器70、存储器71、输入装置72和输出装置73；设备中处理器70的数量可以是一个或多个，图4中以一个处理器70为例；设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的病历信息处理方法对应的程序指令/模块(例如，病历信息获取模块31、第一注意力得分获取模块32和结构化病历获取模块33)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的病历信息处理方法。

存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置72可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种病历信息处理方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的病历信息处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述病历信息处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种病历信息处理方法，其特征在于，包括：

基于所述病历结构化模型输出的各字符的第一注意力得分，分别确定各字符所在的实体信息的第二注意力得分或各字符所在的属性信息的第三注意力得分；

基于所述第二注意力得分、第三注意力得分和预设得分阈值，确定具有相关性的实体信息和属性信息；

将具有相关性的实体信息和属性信息对应设置，生成所述待处理的病历信息的结构化病历；

所述病历结构化模型的训练方法，包括：

获取各历史病历信息中的实体信息和属性信息；

基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本；

基于待训练的病历结构化模型得到所述训练样本对应的各字符的预测注意力得分，并基于所述各字符的预测注意力得分得到预测结构化病历；

基于所述预测结构化病历与所述训练样本对应的历史结构化病历，对待训练的病历结构化模型进行迭代训练。

2.根据权利要求1所述的方法，其特征在于，所述基于各历史病历信息中的每一个字符，以及各历史病历信息中的实体信息和属性信息，确定待训练的病历结构化模型的训练样本，包括：

基于各历史病历信息中的每一个字符的第一数值编码，以及各所述第一数值编码在历史病历信息中的第一位置，确定各历史病历信息的字符向量；

基于各历史病历信息中的实体信息的第二数值编码，以及各所述第二数值编码在历史病历信息中的第二位置，确定各历史病历信息中的实体特征向量；

基于各历史病历信息中的属性信息第三数值编码，以及各所述第三数值编码在历史病历信息中的第三位置，确定各历史病历信息中属性特征向量；

基于各历史病历信息的所述字符向量、所述实体特征向量和所述属性特征向量，确定待训练的病历结构化模型的训练样本。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第二注意力得分、第三注意力得分和预设得分阈值，确定具有相关性的实体信息和属性信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取各历史病历信息中的实体信息和属性信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于属性信息抽取正则，对所述属性信息进行补充抽取；

6.一种病历信息处理装置，其特征在于，包括：

结构化病历获取模块，用于基于所述待处理的病历信息中的各字符的所述第一注意力得分，确定具有相关性的实体信息和属性信息，基于所述具有相关性的实体信息和属性信息形成所述待处理的病历信息的结构化病历；

所述结构化病历获取模块包括：

7.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的病历信息处理方法。

8.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5中任一所述的病历信息处理方法。