CN112820367B

CN112820367B - 病历信息校验方法、装置、计算机设备及存储介质

Info

Publication number: CN112820367B
Application number: CN202110032946.6A
Authority: CN
Inventors: 朱昭苇; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2023-06-30
Anticipated expiration: 2041-01-11
Also published as: CN112820367A; WO2022147910A1

Abstract

本发明涉及检测模型技术领域，应用于智慧医疗领域中，以便推动智慧城市建设，揭露了一种病历信息校验方法、装置、计算机设备及存储介质。该方法通过将待校验病历文本的病例信息输入至病例表征模型中，得到病例表征向量；将科室信息输入至科室表征模型中，得到科室表征向量；对病例表征向量以及科室表征向量进行拼接处理，得到病历拼接向量；将病历拼接向量输入至病例判别网络模型中，确定与待校验病历文本对应的至少一个病例判断结果；将诊断信息与各病例判断结果进行匹配，在诊断信息与任意一个病例判断结果匹配成功时，确定待校验病历文本校验成功。本发明提高病历信息校验的效率以及准确性。

Description

病历信息校验方法、装置、计算机设备及存储介质

技术领域

本发明涉及检测模型技术领域，尤其涉及一种病历信息校验方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，医疗体系也逐渐完善。病历质量监控是规范医疗行为的有效手段之一，目前，针对于病历质量监控大多数仍然采用人工手动校验的方式，但是随着就医人群增多进而导致病历数量庞大，通过人工手动校验的方式效率较低，进而造成质量监控准确率较低的问题。

发明内容

本发明实施例提供一种病历信息校验方法、装置、计算机设备及存储介质，以解决由于病例信息利用不全导致质量监控准确率较低的问题。

一种病历信息校验方法，包括：

获取待校验病历文本；所述待校验病历文本包含病例信息、与所述病例信息关联的科室信息以及诊断信息；

将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量；同时，将所述科室信息输入至科室表征模型中，得到与所述科室信息对应的科室表征向量；

对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量；

将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果；

将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功。

一种病历信息校验装置，包括：

病历文本获取模块，用于获取待校验病历文本；所述待校验病历文本包含病例信息、与所述病例信息关联的科室信息以及诊断信息；

第一向量表征模块，用于将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量；同时，将所述科室信息输入至科室表征模型中，得到与所述科室信息对应的科室表征向量；

向量拼接模块，用于对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量；

病例判断模块，用于将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果；

病例匹配模块，用于将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述病历信息校验方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述病历信息校验方法的步骤。

上述病历信息校验方法、装置、计算机设备及存储介质，该方法通过获取待校验病历文本；所述待校验病历文本包含病例信息、与所述病例信息关联的科室信息以及诊断信息；将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量；同时，将所述科室信息输入至科室表征模型中，得到与所述科室信息对应的科室表征向量；对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量；将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果；将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功。

本发明通过引入病例信息以及科室信息，通过病例表征模型以及科室表征模型学习了病例信息与科室信息之间的关联性，使得病例判别网络模型根据病例信息以及科室信息进行预测后输出的病例判断结果具有更高的准确性，并且提高了病历信息校验监控的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中病历信息校验方法的一应用环境示意图；

图2是本发明一实施例中病历信息校验方法的一流程图；

图3是本发明一实施例中病历信息校验方法的另一流程图；

图4是本发明一实施例中病历信息校验方法中步骤S40的一流程图；

图5是本发明一实施例中病历信息校验装置的一原理框图；

图6是本发明一实施例中病历信息校验装置的另一原理框图；

图7是本发明一实施例中病历信息校验装置中病例判断模块的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的病历信息校验方法，该病历信息校验方法可应用如图1所示的应用环境中。具体地，该病历信息校验方法应用在病历信息校验系统中，该病历信息校验系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决由于病例信息利用不全导致质量监控准确率较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种病历信息校验方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取待校验病历文本；所述待校验病历文本包含病例信息、与所述病例信息关联的科室信息以及诊断信息；

可以理解地，待校验病历文本指的是等待校验的历史病历文本，该待校验病历文本中包含病例信息，如患者的基本信息(如姓名、性别、检测日期等)、症状信息(如主诉症状、检测信息等)，与病例信息关联的科室信息(如针对于咳嗽喉咙痛症状对应的呼吸科科室即为科室信息)以及诊断信息(如医生对于咳嗽喉咙痛症状判定为喉咙发炎即为诊断信息)。

S20：将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量；同时，将所述科室信息输入至科室表征模型中，得到与所述科室信息对应的科室表征向量；

其中，病例表征模型以及科室表征模型均是基于卷积神经网络模型构建的，病例表征模型用于将病例信息转换成病例表征向量，科室表征模型用于将科室信息转换成科室表征向量。

具体地，在获取待校验病历文本之后，将待校验病历文本中的病例信息输入至病例表征模型中，对所述病例信息进行卷积池化等处理，得到与病例信息对应的病例表征向量；同时，将待校验病历文本中的科室信息输入至科室表征模型中，对科室信息进行卷积池化等处理，得到与科室信息对应的科室表征向量。

作为优选，在将病例信息输入病例表征模型之前，可以对病例信息进行预处理，示例性地，假设病例信息为“我大概在三天前开始一直在咳嗽”，则将该病例信息裁剪处理成“咳嗽三天”较短的句对形式，也即在保证病例信息中重要信息不改变的情况下，缩减病例信息的文本长度，进而在将病例信息输入至病例表征模型时，可以缩短模型向量转换的时间，提高病历信息校验效率；同理，在将科室信息输入至科室表征模型之前，也可以对科室信息进行预处理，示例性地，假设科室信息为“广东省深圳市第三人民医院呼吸科”，则将科室信息裁剪处理成“呼吸科”较短的句对形式。

在一具体实施例中，如图3所示，步骤S20之前，还包括：

S01：获取预设病历样本文本集；所述预设病历样本文本集中包含至少一个病历样本文本；所述病历样本文本包含病例样本信息以及与所述病例样本信息对应的科室样本信息；一个所述病历样本文本关联一个病历样本标签；

可以理解地，病历样本文本可以通过爬取病历信息文本库得到，该病历样本文本中包含病例样本信息，如患者的基本信息(如姓名、性别、检测日期等)、症状信息(如主诉症状、检测信息等)，与病例样本信息对应的科室样本信息(如针对于咳嗽喉咙痛症状对应的呼吸科科室即为科室信息)。

进一步地，一个病历样本文本关联一个病历样本标签，该病历样本标签根据病例样本信息以及科室样本信息确定，病历样本标签包括正病历样本标签以及负病历样本标签；可以理解地，在病历样本文本中病例样本信息与科室样本信息是相互匹配的，则该病历样本文本关联的病历样本标签为正病历样本标签；在病历样本文本中病例样本信息与科室样本信息是不匹配的，则该病历样本文本关联的病历样本标签为负病历样本标签。示例性地，病例样本信息为“咳嗽3天”，若科室样本信息为“呼吸科”，则该病历样本文本为正病历样本文本，病历样本标签为正病历样本标签；若科室样本信息为“精神科”，则该病历样本文本为负病历样本文本，病历样本标签为负病历样本标签。进而通过不同的正病历样本文本以及负病历样本文本对步骤S02中的预设孪生表征模型的病例训练模型，以及科室训练模型进行训练，可以使得病例训练模型以及科室训练模型达到更好的训练效果，可以区分病例样本信息是否与科室样本信息匹配。

S02：将所述病历样本文本输入至预设孪生表征模型中，通过所述预设孪生表征模型中包含第一初始参数的病例训练模型对所述病例样本信息进行向量表征，得到得到病例样本向量；同时，通过所述预设孪生表征模型中包含第二初始参数的科室训练模型对所述科室样本信息进行向量表征，得到科室样本向量；

可以理解地，预设孪生表征模型用于学习病例样本信息以及科室样本信息的表征，该预设孪生表征模型中包含病例训练模型以及科室训练模型，病例训练模型以及科室训练模型均是基于卷积神经网络模型构建生成的。

进一步地，在获取预设病历样本文本集之后，将所述病历样本文本输入至预设孪生表征模型中，通过所述预设孪生表征模型中包含第一初始参数的病例训练模型对所述病例样本信息进行向量表征，也即对病例样本信息进行卷积池化等处理，得到得到病例样本向量；同时，通过包含所述预设孪生表征模型中第二初始参数的科室训练模型对所述科室样本信息进行向量表征，也即对科室样本信息进行卷积池化等处理，得到科室样本向量。

进一步地，若仅采用科室样本信息进行模型训练，也即不采用病例样本信息和科室样本信息进行模型训练，则会由于科室样本信息名称太短且不具有丰富的语义信息，导致模型无法学习到能够将各个科室样本信息进行区分的能力，因此本实施例中通过病例样本信息以及科室样本信息进行模型训练，使得科室训练模型也可以学习到包含丰富病例样本信息的语义信息的科室信息表征。

S03：对所述病例样本向量以及所述科室样本向量进行拼接处理，得到样本拼接向量，并将所述样本拼接向量输入至初始回归模型中，确定与所述病历样本文本对应的标签预测概率；

具体地，在将所述病历样本文本输入至预设孪生表征模型中，通过所述预设孪生表征模型中包含第一初始参数的病例训练模型对所述病例样本信息进行向量表征，得到得到病例样本向量；同时，通过包含所述预设孪生表征模型中第二初始参数的科室训练模型对所述科室样本信息进行向量表征，得到科室样本向量之后，将所述科室样本向量拼接至所述病例样本向量的后端，得到样本拼接向量，并将样本拼接向量输入至初始回归模型中，确定与样本拼接向量对应的标签预测概率，也即判断科室样本向量是否与病例样本向量相匹配。

S04：根据所述病历样本标签以及所述标签预测概率确定所述预设孪生表征模型的预测损失值；

具体地，在对所述病例样本向量以及所述科室样本向量进行拼接处理，得到样本拼接向量，并将所述样本拼接向量输入至初始回归模型中，确定与所述病历样本文本对应的标签预测概率之后，根据病历样本标签以及标签预测概率，通过交叉熵损失函数确定所述预测损失值；所述交叉熵损失函数为：

Loss＝w1*y*log(p)+w0*(1-y)*log(1-p)

其中，Loss为所述预测损失值；w1以及w0为所述预设孪生表征模型的权重；y为所述病历样本标签；p为所述标签预测概率。

可以理解地，在步骤S01指出，病历样本文本包含正病历样本文本以及负病历样本文本，当病历样本文本为正病历样本文本时，其关联的病历样本标签为正病历样本标签，该正病历样本标签的标签值为1；当病历样本文本为负病历样本文本时，其关联的病历样本标签为负病历样本标签，该负病历样本标签的标签值为0；因此当输入至预设孪生表征模型的病历样本文本为正病历样本文本，根据上述交叉熵损失函数可知，y为1，p表征预测科室样本信息与病例样本信息匹配的概率；当输入至预设孪生表征模型的病历样本文本为负病历样本文本，根据上述交叉熵损失函数可知，y为0，1-p表征预测科室样本信息与病例样本信息不匹配的概率。

进一步地，上述交叉熵损失函数中的w1以及w0为权重值，可以理解地，w1是为了给将正病历样本文本预测成负病历样本文本(也即将科室样本信息与病例样本信息相匹配，预测成科室样本信息与病例样本信息不匹配)的预测损失函数更大的损失回转，w0是为了给将负病历样本文本预测成正病历样本文本(也即将科室样本信息与病例样本信息不匹配，预测成科室样本信息与病例样本信息匹配)的预测损失函数更小的损失回转，如此可以提高预设孪生表征模型的召回率，提高预设孪生表征模型的泛化能力，防止在步骤S20中，得到的病例表征向量以及科室表征向量被过滤掉过多的重要信息。

S05：在所述预测损失值未达到预设的收敛条件时，更新迭代所述病例训练模型的第一初始参数，以及所述科室训练模型的第二初始参数，直至所述预测损失值达到所述预设的收敛条件时，将收敛之后的所述病例训练模型记录为所述病例表征模型，将收敛之后的所述科室训练模型记录为所述科室表征模型。

可以理解地，该收敛条件可以为预测损失值小于设定阈值的条件，也即在预测损失值小于设定阈值时，停止训练；收敛条件还可以为预测损失值经过了10000次计算后值为很小且不会再下降的条件，也即预测损失值经过10000次计算后值很小且不会下降时，停止训练，，将收敛之后的所述病例训练模型记录为所述病例表征模型，将收敛之后的所述科室训练模型记录为所述科室表征模型。

进一步地，根据与病例样本文本对应的所述病历样本标签以及所述标签预测概率确定所述预设孪生表征模型的预测损失值之后，在预测损失值未达到预设的收敛条件时，根据该预测损失值调整病例训练模型的第一初始参数，以及科室训练模型的第二初始参数，并将该病例样本文本重新输入至调整第一初始参数以及第二初始参数后的预设孪生表征模型中，以在该病历样本文本对应的预测损失值达到预设的收敛条件时，选取预设病历样本文本集中另一个病历样本文本，并执行上述步骤S01至S04，并得到与该病历样本文本对应的预测损失值，并在该预测损失值未达到预设的收敛条件时，根据该预测损失值再次调整病例训练模型的第一初始参数，以及科室训练模型的第二初始参数，使得该病历样本文本对应的预测损失值达到预设的收敛条件。

如此，在通过预设病历样本文本集中所有病历样本文本对预设孪生表征模型进行训练之后，使得预设孪生表征模型输出的结果可以不断向准确地结果靠拢，让识别准确率越来越高，直至所有病历样本文本对应的预测损失值均达到预设的收敛条件时，将收敛之后的所述病例训练模型记录为所述病例表征模型，将收敛之后的所述科室训练模型记录为所述科室表征模型。

S30：对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量；

具体地，在将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量；同时，将所述科室信息输入至科室表征模型中，得到与所述科室信息对应的科室表征向量之后，将科室表征向量拼接至病例表征向量的后端，得到病历拼接向量。

S40：将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果；

可以理解地，病例判别网络模型用于根据病历拼接向量(也即病例信息以及科室信息)判定与待校验病历对应的病例判断结果。在对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量之后，将病历拼接向量输入至病例判别网络模型中，以根据病历拼接向量对待校验病历进行诊断预测，进而确定与待校验病历文本对应的至少一个病例判断结果。可以理解地，针对于病例信息以及科室信息，可以包含一个或者多个不同的病例判断结果。

进一步地，在对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量之后，将所述病历拼接向量输入至病例判别网络模型中，经过对病历拼接向量进行卷积池化分类等处理后，得到与待校验病历文本对一个的至少一个病例判断结果，其中一个病例判断结果还关联一个判断概率，也即根据待校验病历文本中的病例信息以及科室信息，可以确定对应的诊断信息为病例判断结果的概率即为判断概率。

在一实施例中，如图4所示，步骤S40中，包括：

S401：通过所述病例判别网络模型中的预设卷积神经网络对所述病历拼接向量进行卷积池化处理，得到病历输出向量；

具体地，在对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量之后，通过病例判别网络模型中的预设卷积神经网络对病历拼接向量进行卷积池化处理，得到病历输出向量。可选地，预设卷积神经网络可以为TextCNN网络(文本分类卷积神经网络)。

进一步地，在将所述病历拼接向量输入至病例判别网络模型中之前，还包括：

获取所述病例表征模型的第三初始参数，以及所述科室表征模型的第四初始参数；

其中，第三初始参数指的是经过步骤S01-S05对病例训练模型训练完成之后得到的病例表征模型的参数，可以理解地，病例训练模型的模型参数为第一初始参数，在训练完成得到病例表征模型的模型参数更新为第三初始参数。同理，第四初始参数指的是经过步骤S01-S05对科室训练模型训练完成之后得到的科室表征模型的参数，可以理解地，科室训练模型的模型参数为第二初始参数，在训练完成得到科室表征模型的模型参数更新为第四初始参数。

将所述第三初始参数与所述第四初始参数的均值记录为所述预设卷积神经网络的判别初始参数。

可以理解地，与随机初始化参数相比，采用第三初始参数与第四初始参数的均值作为预设卷积神经网路的判别初始参数，一方面可以给预设卷积神经网络一个较好的初始参数分布空间，另一方面加快了对病例判别网络模型的训练。进一步地，在将所述病历拼接向量输入至病例判别网络模型中之前，可以通过预设训练样本(如步骤S01中的正病历样本文本)对病例判别网络模型进行训练，使得病例判别网络模型可以学习正病历样本文本中的病例样本信息以及科室样本信息，并根据病例样本信息以及科室样本信息预测出更加准确的病例判断结果；可以理解地，正病历样本文本中包含的正诊断信息可以说视为是正确的信息，进而使得病例判别网络模型输出的病例判断结果接近甚至于正诊断信息相同。

S402：通过所述病例判别网络模型中的预设分类网络对所述病历输出向量进行病例分类，确定与所述待校验病历文本对应的病例判断结果。

具体地，在通过所述病例判别网络模型中的预设卷积神经网络对所述病历拼接向量进行卷积池化处理，得到病历输出向量之后，通过病例判别网络模型中的预设分类网络对所述病历输出向量进行病例分类，确定与所述待校验病历文本对应的病例判断结果。可选地，预设分类网络为病例判别网络模型中的softmax层。

S50：将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功。

具体地，在将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果之后，将诊断信息与各病例判断结果进行匹配，示例性地，如通过确定诊断信息与各病例判断结果之间的相似度，亦或者通过正则表达式对诊断信息与各病例判断结果之间进行字符匹配，进而在诊断信息与任意一个病例判断结果匹配成功时，如诊断信息与病例判断结果之间的相似度大于预设相似阈值(如95％)，亦或者诊断信息与病例判断结果之间字符匹配度达到95％以上，确定待校验病历文本校验成功，也即确定待校验病历文本中诊断信息正确。

进一步地，在步骤S40中指出，一个病例判断结果还关联一个判断概率，因此在将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果之后，将各病例判断结果按照判断概率从大到小的顺序插入病例判断序列中；自病例判断序列中第一个病例判断结果起，将各病例判断结果与诊断信息进行比较；在诊断信息与任意一个病例判断结果匹配成功时，将该病例判断结果记录为待确认判断结果；在该待确认判断结果不为病例判断序列中处于第一位置的病例判断结果时，也即该待确认判断结果对应的判断概率不是最大的，进而将病例判断序列中处于该待确认判断结果之前的所有病例判断结果发送至预设接收方，以令所述预设接收方判断待校验病历是否校验成功。其中，预设接收方可以为病历管理人员或者病历检验人员。

在一具体实施方式中，步骤S50之后，将所述诊断信息与各所述病例判断结果进行匹配之后，还包括：

在所述诊断信息与所有所述病例判断结果均不匹配时，确定所述待校验病历文本校验失败，并提示所述诊断信息存在误判风险。

可以理解地，在将所述诊断信息与各所述病例判断结果进行匹配之后，若诊断信息与所有病例判断结果均不匹配时，表征诊断信息可能与病例信息和科室信息不匹配，进而确定所述待校验病历文本校验失败，并提示所述诊断信息存在误判风险，以等待预设接收方对该待校验病历进行人工校验。

在本实施例中，通过引入病例信息以及科室信息，通过病例表征模型以及科室表征模型学习了病例信息与科室信息之间的关联性，使得病例判别网络模型根据病例信息以及科室信息进行预测后输出的病例判断结果具有更高的准确性，并且提高了病历信息校验监控的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种病历信息校验装置，该病历信息校验装置与上述实施例中病历信息校验方法一一对应。如图5所示，该病历信息校验装置包括病历文本获取模块10、第一向量表征模块20、向量拼接模块30、病例判断模块40和病例匹配模块50。各功能模块详细说明如下：

病历文本获取模块10，用于获取待校验病历文本；所述待校验病历文本包含病例信息、与所述病例信息关联的科室信息以及诊断信息；

第一向量表征模块20，用于将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量；同时，将所述科室信息输入至科室表征模型中，得到与所述科室信息对应的科室表征向量；

向量拼接模块30，用于对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量；

病例判断模块40，用于将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的至少一个病例判断结果；

病例匹配模块50，用于将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功。

优选地，如图6所示，病历信息校验装置还包括：

病历样本文本集获取模块01，用于获取预设病历样本文本集；所述预设病历样本文本集中包含至少一个病历样本文本；所述病历样本文本包含病例样本信息以及与所述病例样本信息对应的科室样本信息；一个所述病历样本文本关联一个病历样本标签；

第二向量表征模块02，用于将所述病历样本文本输入至预设孪生表征模型中，通过所述预设孪生表征模型中包含第一初始参数的病例训练模型对所述病例样本信息进行向量表征，得到得到病例样本向量；同时，通过所述预设孪生表征模型中包含第二初始参数的科室训练模型对所述科室样本信息进行向量表征，得到科室样本向量；

标签预测模块03，用于对所述病例样本向量以及所述科室样本向量进行拼接处理，得到样本拼接向量，并将所述样本拼接向量输入至初始回归模型中，确定与所述病历样本文本对应的标签预测概率；

预测损失值确定模块04，用于根据所述病历样本标签以及所述标签预测概率确定所述预设孪生表征模型的预测损失值；

参数更新模块05，用于在所述预测损失值未达到预设的收敛条件时，更新迭代所述病例训练模型的第一初始参数，以及所述科室训练模型的第二初始参数，直至所述预测损失值达到所述预设的收敛条件时，将收敛之后的所述病例训练模型记录为所述病例表征模型，将收敛之后的所述科室训练模型记录为所述科室表征模型。

优选地，预测损失值确定模块包括：

预测损失值确定单元，用于根据所述病历样本标签以及所述标签预测概率，通过交叉熵损失函数确定所述预测损失值；所述交叉熵损失函数为：

Loss＝w1*y*log(p)+w0*(1-y)*log(1-p)

优选地，向量拼接模块30包括：

向量拼接单元，用于将所述科室表征向量拼接至所述病例表征向量的后端之后，得到所述病历拼接向量。

优选地，如图7所示，病例判断模块40包括：

卷积池化单元401，用于通过所述病例判别网络模型中的预设卷积神经网络对所述病历拼接向量进行卷积池化处理，得到病历输出向量；

病例分类单元402，用于通过所述病例判别网络模型中的预设分类网络对所述病历输出向量进行病例分类，确定与所述待校验病历文本对应的病例判断结果。

优选地，病历信息校验装置还包括：

初始参数获取模块，用于获取所述病例表征模型的第三初始参数，以及所述科室表征模型的第四初始参数；

初始参数记录模块，用于将所述第三初始参数与所述第四初始参数的均值记录为病例判别网络模型的判别初始参数。

优选地，病历信息校验装置还包括：

校验失败提示模块，用于在所述诊断信息与所有所述病例判断结果均不匹配时，确定所述待校验病历文本校验失败，并提示所述诊断信息存在误判风险。

关于病历信息校验装置的具体限定可以参见上文中对于病历信息校验方法的限定，在此不再赘述。上述病历信息校验装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中病历信息校验方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种病历信息校验方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中病历信息校验方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中病历信息校验方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种病历信息校验方法，其特征在于，包括：

将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功；

所述将所述病例信息输入至病例表征模型中，得到与所述病例信息对应的病例表征向量之前，包括：

获取预设病历样本文本集；所述预设病历样本文本集中包含至少一个病历样本文本；所述病历样本文本包含病例样本信息以及与所述病例样本信息对应的科室样本信息；一个所述病历样本文本关联一个病历样本标签；

将所述病历样本文本输入至预设孪生表征模型中，通过所述预设孪生表征模型中包含第一初始参数的病例训练模型对所述病例样本信息进行向量表征，得到病例样本向量；同时，通过所述预设孪生表征模型中包含第二初始参数的科室训练模型对所述科室样本信息进行向量表征，得到科室样本向量；

对所述病例样本向量以及所述科室样本向量进行拼接处理，得到样本拼接向量，并将所述样本拼接向量输入至初始回归模型中，确定与所述病历样本文本对应的标签预测概率；

根据所述病历样本标签以及所述标签预测概率确定所述预设孪生表征模型的预测损失值；

在所述预测损失值未达到预设的收敛条件时，更新迭代所述病例训练模型的第一初始参数，以及所述科室训练模型的第二初始参数，直至所述预测损失值达到所述预设的收敛条件时，将收敛之后的所述病例训练模型记录为所述病例表征模型，将收敛之后的所述科室训练模型记录为所述科室表征模型。

2.如权利要求1所述的病历信息校验方法，其特征在于，所述根据所述病历样本标签以及所述标签预测概率确定所述预设孪生表征模型的预测损失值，包括：

根据所述病历样本标签以及所述标签预测概率，通过交叉熵损失函数确定所述预测损失值；所述交叉熵损失函数为：

其中，

为所述预测损失值；/>

以及/>

为所述预设孪生表征模型的权重；/>

为所述病历样本标签；/>

为所述标签预测概率。

3.如权利要求1所述的病历信息校验方法，其特征在于，所述对所述病例表征向量以及所述科室表征向量进行拼接处理，得到病历拼接向量，包括：

将所述科室表征向量拼接至所述病例表征向量的后端之后，得到所述病历拼接向量。

4.如权利要求1所述的病历信息校验方法，其特征在于，所述将所述病历拼接向量输入至病例判别网络模型中，确定与所述待校验病历文本对应的病例判断结果，包括：

通过所述病例判别网络模型中的预设卷积神经网络对所述病历拼接向量进行卷积池化处理，得到病历输出向量；

通过所述病例判别网络模型中的预设分类网络对所述病历输出向量进行病例分类，确定与所述待校验病历文本对应的病例判断结果。

5.如权利要求4所述的病历信息校验方法，其特征在于，所述将所述病历拼接向量输入至病例判别网络模型中之前，包括：

6.如权利要求1所述的病历信息校验方法，其特征在于，所述将所述诊断信息与各所述病例判断结果进行匹配之后，还包括：

7.一种病历信息校验装置，其特征在于，包括：

病例匹配模块，用于将所述诊断信息与各所述病例判断结果进行匹配，在所述诊断信息与任意一个所述病例判断结果匹配成功时，确定所述待校验病历文本校验成功；

病历信息校验装置还包括：

病历样本文本集获取模块，用于获取预设病历样本文本集；所述预设病历样本文本集中包含至少一个病历样本文本；所述病历样本文本包含病例样本信息以及与所述病例样本信息对应的科室样本信息；一个所述病历样本文本关联一个病历样本标签；

第二向量表征模块，用于将所述病历样本文本输入至预设孪生表征模型中，通过所述预设孪生表征模型中包含第一初始参数的病例训练模型对所述病例样本信息进行向量表征，得到病例样本向量；同时，通过所述预设孪生表征模型中包含第二初始参数的科室训练模型对所述科室样本信息进行向量表征，得到科室样本向量；

标签预测模块，用于对所述病例样本向量以及所述科室样本向量进行拼接处理，得到样本拼接向量，并将所述样本拼接向量输入至初始回归模型中，确定与所述病历样本文本对应的标签预测概率；

预测损失值确定模块，用于根据所述病历样本标签以及所述标签预测概率确定所述预设孪生表征模型的预测损失值；

参数更新模块，用于在所述预测损失值未达到预设的收敛条件时，更新迭代所述病例训练模型的第一初始参数，以及所述科室训练模型的第二初始参数，直至所述预测损失值达到所述预设的收敛条件时，将收敛之后的所述病例训练模型记录为所述病例表征模型，将收敛之后的所述科室训练模型记录为所述科室表征模型。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述病历信息校验方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述病历信息校验方法。