CN110162779A

CN110162779A - 病历质量的评估方法、装置及设备

Info

Publication number: CN110162779A
Application number: CN201910270756.0A
Authority: CN
Inventors: 代小亚; 陈俊; 陆超; 黄海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-23
Anticipated expiration: 2039-04-04
Also published as: CN110162779B

Abstract

本实施例提供的病历质量的评估方法、装置及设备，该方法包括：获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息；根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量；根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。通过上述过程，实现了对电子病历的质量进行评估，从而能够在各种应用场景中根据质量进行电子病历的筛选。

Description

病历质量的评估方法、装置及设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种病历质量的评估方法、装置及设备。

背景技术

电子病历用于记录患者的就诊信息，是疾病预测和医学研究的基础数据源。

目前，电子病历的质量参差不齐。例如，有些电子病历中仅记录了开药、配药、上环、体检等信息；甚至有些电子病历中记录的是非医疗文本。

质量好的电子病历对于后续的疾病预测和医学研究具有重要的参考意义，而质量差的电子病历对于疾病预测和医学研究没有任何参考价值。因此，需要一种对电子病历质量进行评估的方法，以便能够根据质量对电子病历进行筛选。

发明内容

本发明实施例提供一种病历质量的评估方法、装置及设备，用于对电子病历质量进行评估，从而能够根据质量对电子病历进行筛选。

第一方面，本发明实施例提供一种病历质量的评估方法，包括：

获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息；

根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量；

根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。

可选的，所述根据所述目标文本，获取所述目标文本对应的医疗实体信息，包括：

对所述目标文本进行自然语言解析处理，得到多个医疗实体；

根据每个所述医疗实体所属的类型，获取所述医疗实体信息。

可选的，所述医疗实体信息包括：症状类医疗实体的数量、体征类医疗实体的数量以及疾病类医疗实体的数量。

可选的，所述根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量，包括：

将所述目标文本和所述医疗实体信息输入至已训练好的评估模型，根据所述评估模型的输出结果获取所述电子病历的质量参数；

根据所述电子病历的质量参数，评估所述电子病历的质量。

可选的，所述电子病历的质量参数包括第一参数和第二参数，所述第一参数用于指示所述电子病历满足筛选条件的概率，所述第二参数用于指示所述电子病历不满足筛选条件的概率；

所述根据所述电子病历的质量参数，评估所述电子病历的质量，包括：

根据所述第一参数和/或所述第二参数，评估所述电子病历的质量。

可选的，所述将所述目标文本和所述医疗实体信息输入至已训练好的评估模型之前，还包括：

对所述目标文本进行预处理，得到预处理后的目标文本，所述预处理后的目标文本中包括预设数量的文字；

所述将所述目标文本和所述医疗实体信息输入至已训练好的评估模型，包括：

将所述预处理后的目标文本和所述医疗实体信息输入至已训练好的评估模型。

可选的，所述评估模型是采用如下方法训练得到的：

获取待训练的正样本和负样本，所述正样本中包括：标注第一标签的医疗文本以及各所述医疗文本对应的医疗实体信息，所述负样本中包括：标注第二标签的医疗文本以及各所述医疗文本对应的医疗实体信息，所述医疗文本包括：主诉信息和现病史信息；

将所述正样本和负样本输入至待训练的评估模型，获取评估模型的输出结果；

根据所述第一标签、所述第二标签以及所述输出结果，对所述评估模型进行训练，得到训练好的评估模型。

可选的，所述评估模型包括：输入层、词向量层、双向长短期记忆层BiLSTM、最大池化层、线性采样层和输出层。

第二方面，本发明实施例提供一种病历质量的评估装置，包括：

第一获取模块，用于获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息；

第二获取模块，用于根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量；

评估模块，用于根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。

可选的，所述第二获取模块具体用于：

可选的，所述评估模块具体用于：

根据所述电子病历的质量参数，评估所述电子病历的质量。

可选的，所述电子病历的质量参数包括第一参数和第二参数，所述第一参数用于指示所述电子病历满足筛选条件的概率，所述第二参数用于指示所述电子病历不满足筛选条件的概率；所述评估模块具体用于：

可选的，所述第一获取模块还用于：

所述评估模块具体用于：将所述预处理后的目标文本和所述医疗实体信息输入至已训练好的评估模型。

可选的，所述评估模型是采用如下方法训练得到的：

第三方面，本发明实施例提供一种病历质量的评估设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本实施例提供的病历质量的评估方法、装置及设备，该方法包括：获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息；根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量；根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。通过上述过程，实现了对电子病历的质量进行评估，从而能够在各种应用场景中根据质量进行电子病历的筛选。进一步的，通过根据主诉信息和现病史信息对电子病历的质量进行评估，使得评估结果能够真实反映电子病历的参考价值，提高了电子病历质量评估的准确性；更进一步的，通过根据主诉信息和现病史信息中的医疗实体数量对电子病历的质量进行评估，能够有效识别出非医疗文本，进一步提高了电子病历质量评估的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例适用的应用场景示意图一；

图2为本发明实施例适用的应用场景示意图二；

图3为本发明一实施例提供的病历质量的评估方法的流程示意图；

图4为本发明另一实施例提供的病历质量的评估方法的流程示意图；

图5为本发明又一实施例提供的评估模型的训练方法的流程示意图；

图6为本发明又一实施例提供的评估模型的结构示意图；

图7为本发明实施例提供的病历质量的评估装置的结构示意图；

图8为本发明实施例提供的病历质量的评估设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如前所述，目前，电子病历的质量参差不齐。有些电子病历的质量较差，例如：有些电子病历中仅记录了开药、配药、上环、体检等信息；有些电子病历中仅记录了“药流后复查”、“定期复查”等信息；甚至有些电子病历中记录的是非目标文本，例如：“天气真好”、“重庆有多远”等。质量差的电子病历对于疾病预测和医学研究没有任何参考价值。因此，本发明实施例提供一种对电子病历质量进行评估的方法，使得在某些应用场景下能够筛选出质量好的电子病历。

图1为本发明实施例适用的应用场景示意图一。如图1所示，该场景包括疾病预测设备。疾病预测设备用于接收病历信息，并根据病历中记录的信息进行疾病预测。然而实际应用中，并不是每个病历都需要触发疾病预测。例如：“开药”、“配药”、“上环”、“体检”等就诊需求比较常见，而这些就诊需求不需要触发疾病预测。现有技术中，默认全部病历都需要触发疾病预测，对计算资源是一种浪费。

因此，本实施例在上述场景中增加病历质量评估装置，该装置用于对电子病历的质量进行评估，得到电子病历的质量参数。其中，质量参数用于指示电子病历的质量为好或者差。从而，只有质量好的电子病历能够输出给疾病预测设备，有效拦截了质量差的电子病历，节省了计算资源。

图2为本发明实施例适用的应用场景示意图二。如图2所示，该场景包括病历数据库。当需要对某个病历进行相似病历检索时，可以在病历数据库中进行检索，得到与该病历相似的多个病历。现有技术中在病历入库时，是所有病历均存入病历数据库中。这样导致数据库中存储了大量的质量差的病历，这样在进行相似病历检索时，检索结果中包括大量的质量差的病历，对疾病预测和医学研究没有参考意义。

因此，本实施例中在上述场景中增加病历质量评估装置，该装置用于对电子病历的质量进行评估，得到电子病历的质量参数。其中，质量参数用于指示电子病历的质量为好或者差。从而，在病历入库之前，通过病历质量评估装置对病历的质量进行评估，只有质量好的电子病历才能够入库，有效拦截了质量差的电子病历入库，从而提高了病历检索结果的有效性。

图1和图2所示的应用场景仅为示例，本发明实施例提供的病历质量的评估方法还可以适用于其他场景。例如：某些以病历为样本的训练数据场景，本实施例的方法还可用于挑选训练数据，减少训练数据的杂质。

另外，本实施例中的病历质量是指：病历中记录的内容的质量，即病历中记录的内容是否能够为后续的疾病预测或者医学研究提供有价值的参考信息。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本发明一实施例提供的病历质量的评估方法的流程示意图。本实施例的方法可以由病历质量评估装置执行，该装置可以为软件和/或硬件的形式。

如图3所示，本实施例的方法，包括：

S301：获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息。

S302：根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量。

S303：根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。

本实施例中，根据电子病历中的目标文本和目标文本对应的医疗实体信息，对电子病历的质量进行评估。

其中，病历是指医务人员在医疗活动过程中形成的文字、符号、图表、影像、切片等资料的总和，包括门(急)诊病历和住院病历。电子病历(EMR)是以电子化方式管理的病人就诊和治疗过程的原始记录。电子病历中记录的可以是结构化数据，也可以是自由文本。电子病历中通常包括如下内容：主诉、现病史、既往史、体格检查、初步诊断、处理意见等。

本实施例S301中，从待评估的电子病历中提取的目标文本包括：主诉信息和现病史信息。

其中，主诉信息是病人(来访者)自述自己的症状和/或体征、性质，以及持续时间等内容。主诉是病历中的重要内容，好的主诉应尽可能用病人自己描述的症状，不用诊断用语。

现病史信息是医疗人员记录患者病后的全过程，即发生、发展、演变和诊治过程。现病史信息通常包括：起病情况、主要症状的特点、主要症状的变化或新症状的出现、伴随症状、诊治过程等。

申请人在研究过程中发现，主诉信息和现病史信息对于疾病预测以及后续的医学研究有重要意义。主诉信息和现病史信息写的简略的话，对于疾病预测和医学研究毫无参考意义，即使病历中的其他内容(如：体格检查、检查结果、诊断结果等)写的再丰富也不算是质量好的病历。因此，本实施例中根据电子病历中的主诉信息和现病史信息，对电子病历的质量进行评估。

需要说明的是，S301中获取待评估的电子病历的目标文本，可以有多种实施方式，本发明实施例对此不作具体限定。一种可选的实施方式中，对于结构化存储的电子病历，可以根据各结构块的标识确定哪些结构块记录的是主诉信息，哪些结构块记录的是现病史信息；然后获取这些结构块对应的文本段，将获取到的文本段作为目标文本。另一种可选的实施方式中，对于以自由文本形式存储的电子病历，可以首先对电子病历中的所有文本进行自然语言解析，确定出哪些文本段记录的是主诉信息，哪些文本段记录的是现病史信息，然后将确定出的文本段作为目标文本。

本实施例S302中，根据目标文本，获取所述目标文本对应的医疗实体信息，是指从目标文本中提取出各种类型的医疗实体的数量。其中，医疗实体的类型包括：症状类、体征类、疾病类。也就是说，从目标文本中提取出：症状类医疗实体的数量、体征类医疗实体的数量、疾病类医疗实体的数量。

症状类医疗实体指的是患者描述的发病表现的医疗实体。体征类医疗实体指的是医疗人员对患者进行体格检查后描述的发病表现的医疗实体。疾病类医疗实体指的是医疗人员根据患者发病表现得出的诊断结果。

下面结合举例进行说明。示例性的，假设目标文本内容如下：

“患者主诉：咳嗽、咳痰、高热、乏力2日；查体：神清、气稍促，心律95bpm，律齐，体温39.1c,血压110/70mmhg；心扉听诊：两肺呼吸音粗，未及明显啰音；精神欠佳、二便可、夜眠可；诊断：急性上呼吸道感染”

示例性的，从该目标文本中提取出的医疗实体包括：咳嗽、咳痰、高热、乏力、神清、气稍促、律齐、急性上呼吸道感染。其中，“咳嗽、咳痰、高热、乏力”为症状类医疗实体，“神清、气稍促、律齐”为体征类医疗实体，“急性上呼吸道感染”为疾病类医疗实体。

需要说明的是，上述举例的目标文本的内容以及医疗实体仅为示例性说明。

上述举例中，目标文本对应的医疗实体信息为：症状类医疗实体数量为4，体征类医疗实体的数量为3，疾病类医疗实体的数量为1。

本实施例S303中，根据目标文本和医疗实体信息，评估电子病历的质量。示例性的，当目标文本中包括的医疗实体的数量越多时，说明目标文本中的医疗信息越多，进而说明电子病历的质量越高。

可以理解的，在根据目标文本和医疗实体信息进行质量评估时，可以采用多种评估方式。例如，一种可能的实施方式中，可以提取目标文本的特征信息，根据特征信息确定电子病历的质量。另一种可能的实施方式中，可以根据大量的样本电子病历进行深度学习，对评估模型进行有监督的训练。然后将待评估的电子病历的目标文本输入训练好的评估模型中，对待评估的电子病历的质量进行评估。

本实施例提供的病历质量的评估方法，包括：获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息；根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量；根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。通过上述过程，实现了对电子病历的质量进行评估，从而能够在各种应用场景中根据质量进行电子病历的筛选。进一步的，通过根据主诉信息和现病史信息对电子病历的质量进行评估，使得评估结果能够真实反映电子病历的参考价值，提高了电子病历质量评估的准确性；更进一步的，通过根据主诉信息和现病史信息中的医疗实体数量对电子病历的质量进行评估，能够有效识别出非医疗文本，进一步提高了电子病历质量评估的准确性。

图4为本发明另一实施例提供的病历质量的评估方法的流程示意图。在图3所示实施例的基础上，本实施例对本发明的技术方案进行进一步细化。

如图4所示，本实施例的方法，包括：

S401：获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息。

本实施例中S401的具体实施方式与上述实施例中的S301类似，此处不再赘述。

S402：对所述目标文本进行自然语言解析处理，得到多个医疗实体；根据每个所述医疗实体所属的类型，获取所述医疗实体信息。

其中，所述医疗实体信息包括：症状类医疗实体的数量、体征类医疗实体的数量以及疾病类医疗实体的数量。

具体的，获取到目标文本后，通过对目标文本进行自然语言解析(NaturalLanguage Understanding，NLU)处理，得到多个医疗实体。自然语言解析过程包括：句子检测，分词，词性标注，句法分析等，从目标文本中提取出医疗领域的词汇，这些医疗领域的词汇作为本实施例中的医疗实体。

本实施例中，将医疗实体划分为三类，分别为疾病类、体征类、症状类。从目标文本中提取出医疗实体后，根据每个医疗实体所属的类型，确定出症状类医疗实体的数量、体征类医疗实体的数量以及疾病类医疗实体的数量。

一种可能的实施方式中，事先设定各医疗实体与所属类别之间的映射关系，根据映射关系确定各医疗实体所属的类型。另一种可能的实施方式中，将各医疗实体输入训练好的分类模型中，根据分类模型的输出结果确定各医疗实体所述的类型。

S403：将所述目标文本和所述医疗实体信息输入至已训练好的评估模型，根据所述评估模型的输出结果获取所述电子病历的质量参数。

其中，评估模型可以是利用深度学习算法训练得到的模型，具体训练过程可以是有监督的训练，也可以是无监督的训练。本实施例对于模型的训练过程不作限定，一种可能的训练方式详见后续实施例。

评估模型用于提取目标文本的特征，并将目标文本的特征和医疗实体信息结合起来，对电子病历的质量进行评估。本实施例中，评估模型既考虑了目标文本的特征，也考虑的目标文本对应的医疗实体信息，使得评估结果更加准确。

一种可能的实施方式中，在将目标文本和医疗实体信息输入至已训练好的评估模型之前，还可以包括：对所述目标文本进行预处理，得到预处理后的目标文本，所述预处理后的目标文本中包括预设数量的文字。

示例性的，对目标文本(主诉信息和现病史信息)进行文字粒度的截断或者填充，使得预处理后的目标文本的长度为300。例如：若目标文本的长度大于300，则对目标文本进行截断处理，截断后的目标文本的长度为300。若目标文本的长度小于300，则对目标文本进行填充处理，示例性的，可以填充无任何意义的空字符，使得填充后的目标文本的长度为300。

相应的，在对目标文本进行预处理后，将所述预处理后的目标文本和所述医疗实体信息输入至已训练好的评估模型。

S404：根据所述电子病历的质量参数，评估所述电子病历的质量。

本实施例中，电子病历的质量参数可以包括一个或者多个参数，只要是用于评估电子病历的质量的参数即可。

一种可能的实施方式中，所述电子病历的质量参数包括第一参数和第二参数，所述第一参数用于指示所述电子病历满足筛选条件的概率，所述第二参数用于指示所述电子病历不满足筛选条件的概率。相应的，根据所述第一参数和/或所述第二参数，评估所述电子病历的质量。

示例性的，第一参数指示电子病历质量好的概率，第二参数指示电子病历质量差的概率。具体应用中，可以根据第一参数，或者，第二参数，或者，第一参数和第二参数，评估电子病历的质量。

下面以第一参数为例进行说明。可以根据实际情况选择合适的评估阈值，当第一参数大于等于该评估阈值时，确定该电子病历的质量为好，否则，确定该电子病历的质量为差。

本实施例中，可以根据不同场景设置不同的评估阈值，以适用于不同场景下的病历质量评估。将本实施例的病历质量评估方法应用于如图1或者如图2所示的场景中，实现对质量差的电子病历的有效拦截。

下面结合一个具体的实施例，详细描述评估模型的训练过程。

图5为本发明又一实施例提供的评估模型的训练方法的流程示意图。如图5所示，本实施例的方法，包括：

S501：获取待训练的正样本和负样本，所述正样本中包括：标注第一标签的医疗文本以及各所述医疗文本对应的医疗实体信息，所述负样本中包括：标注第二标签的医疗文本以及各所述医疗文本对应的医疗实体信息，所述医疗文本包括：主诉信息和现病史信息。

具体的，从历史电子病历中，将质量好的电子病历中的主诉信息和现病史信息标注为第一标签，作为正样本。将质量差的电子病历中的主诉信息和现病史信息标注为第二标签，作为负样本。并根据各正样本和负样本，获取得到各正样本和负样本对应的医疗实体信息。

其中，历史电子病历中包括门诊电子病历和住院电子病历。对电子病历中的医疗信息进行标签标注的过程可以采用多种实施方式。一种可能的实施方式中，由医疗人员根据电子病历中的医疗文本的内容质量，进行人工标注。另一种可能的实施方式中，由医疗人员根据医疗经验确定预设数量的标注规则，利用标注规则对电子病历中的医疗文本进行标注。

为了提高评估模型的评估结果的准确性，一方面，可以在正样本中添加医疗实体标准词，以及医疗实体标准词的相似词，以提高评估模型对质量好的电子病历的识别准确率。另一方面，还可以在负样本中添加非医疗文本，以提高评估模型对质量差的电子病历的识别准确率。其中，非医疗文本是指非医疗领域的文本语料。

S502：将所述正样本和负样本输入至待训练的评估模型，获取评估模型的输出结果；所述评估模型包括：输入层、词向量层、双向长短期记忆层BiLSTM、最大池化层、线性采样层和输出层。

S503：根据所述第一标签、所述第二标签以及所述输出结果，对所述评估模型进行训练，得到训练好的评估模型。

本实施例的评估模型采用双向长短期记忆(Bi-directional Long Short-TermMemory，BiLSTM)网络模型。BiLSTM网络模型由前向LSTM与后向LSTM组合而成。在文本分类中，使用LSTM模型可以更好的捕捉到较长距离的依赖关系。本实施例中，通过采用BiLSTM可以更好的捕捉双向的依赖关系，提高评估模型的评估准确率。

图6为本发明又一实施例提供的评估模型的结构示意图。如图6所示，本实施例的评估模型包括：输入层、词向量层Embedding，双向长短期记忆层BiLSTM、最大池化层Maxpooling，线性采样层Linear，输出层。

其中，输入层包括第一输入层和第二输入层。第一输入层用于输入医疗文本，即输入主诉信息和现病史信息。第二输入层用于输入医疗文本对应的医疗实体信息，即输入医疗文本中每种类型的医疗实体的数量。输出层用于输出医疗文本对应的质量参数，例如，图4所示实施例中的第一参数和第二参数。

下面以一个样本的训练过程为例进行描述。

具体的，结合图6，第一输入层用于输入医疗文本。一种可能的实施方式中，将医疗文本输入第一输入层之前，对医疗文本进行文字截断或者填充，使得医疗文本的长度为300。词向量层用于生成医疗文本中的每个文字对应的词向量。图6中示例了词向量的维度为300维。将医疗文本对应的词向量作为BiLSTM层的输入，在BiLSTM层中进行特征编码，从而获得医疗文本的特征信息。最大池化层用于对BiLSTM层输出的特征信息进行降维，示例性的，图6中示例了最大池化层输出的特征信息为300维。

第二输入层用于输入医疗文本对应的医疗实体信息。图6示例的医疗实体信息包括：症状类医疗实体的数量、体征类医疗实体的数量以及疾病类医疗实体的数量。上述3类医疗实体的数量作为该医疗文本自定义的特征信息，维度为3维。

进一步的，将最大池化层输出的300维的特征信息与第二输入层的3维的特征信息进行拼接，得到医疗文本对应的303维的特征信息。将303维的特征信息输入线性采样层，线性采样层用于对特征信息进行降维，最终得到该医疗文本对应的质量参数。示例性的，图6中示例了采用依次连接的两个线性采样层进行降维的情况。第一个线性采样层用于对303维的特征信息降维得到150维的特征信息，第二个线性采样层用于对150维的特征信息降维得到2维的，作为最终第一参数和第二参数。第一参数用于指示该样本为质量好的概率，第二参数用于指示该样本为质量差的概率。

得到评估模型输出的质量参数后，根据评估模型输出的质量参数以及该医疗文本对应的标签，对评估模型的参数进行调整。重复执行上述训练过程，执行评估模型的准确率满足预设要求，结束训练过程，得到训练好的评估模型。

图7为本发明实施例提供的病历质量的评估装置的结构示意图。如图7所示，本实施例的病历质量的评估装置700，包括：第一获取模块701、第二获取模块702和评估模块703。

其中，第一获取模块701，用于获取待评估的电子病历的目标文本，所述目标文本包括：主诉信息和现病史信息；

第二获取模块702，用于根据所述目标文本，获取所述目标文本对应的医疗实体信息，其中，所述医疗实体信息包括每种类型的医疗实体的数量；

评估模块703，用于根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量。

可选的，所述第二获取模块702具体用于：

可选的，所述评估模块703具体用于：

根据所述电子病历的质量参数，评估所述电子病历的质量。

可选的，所述电子病历的质量参数包括第一参数和第二参数，所述第一参数用于指示所述电子病历满足筛选条件的概率，所述第二参数用于指示所述电子病历不满足筛选条件的概率；所述评估模块703具体用于：

可选的，所述第一获取模块701还用于：

所述评估模块703具体用于：将所述预处理后的目标文本和所述医疗实体信息输入至已训练好的评估模型。

可选的，所述评估模型是采用如下方法训练得到的：

本实施例提供的病历质量的评估装置，可用于执行上述任一方法实施例中的病历质量的评估方法，其实现原理和技术效果类似，此处不再赘述。

图8为本发明实施例提供的病历质量的评估设备的结构示意图。如图8所示，本实施例的病历质量的评估设备800，包括：处理器801以及存储器802；其中，存储器802，用于存储计算机程序；处理器801，用于执行存储器存储的计算机程序，以实现上述实施例中病历质量的评估方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。

当所述存储器802是独立于处理器801之外的器件时，所述病历质量的评估设备800还可以包括：总线803，用于连接所述存储器802和处理器801。

本实施例提供的病历质量的评估设备，可用于执行上述任一方法实施例中的病历质量的评估方法，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序用于实现如上任一方法实施例中的病历质量的评估方法。

本发明实施例还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述任一方法实施例中的病历质量的评估方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种病历质量的评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本，获取所述目标文本对应的医疗实体信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述医疗实体信息包括：症状类医疗实体的数量、体征类医疗实体的数量以及疾病类医疗实体的数量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标文本和所述医疗实体信息，评估所述电子病历的质量，包括：

根据所述电子病历的质量参数，评估所述电子病历的质量。

5.根据权利要求4所述的方法，其特征在于，所述电子病历的质量参数包括第一参数和第二参数，所述第一参数用于指示所述电子病历满足筛选条件的概率，所述第二参数用于指示所述电子病历不满足筛选条件的概率；

6.根据权利要求4所述的方法，其特征在于，所述将所述目标文本和所述医疗实体信息输入至已训练好的评估模型之前，还包括：

7.根据权利要求4所述的方法，其特征在于，所述评估模型是采用如下方法训练得到的：

8.根据权利要求7所述的方法，其特征在于，所述评估模型包括：输入层、词向量层、双向长短期记忆层BiLSTM、最大池化层、线性采样层和输出层。

9.一种病历质量的评估装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块具体用于：

11.根据权利要求9或10所述的装置，其特征在于，所述医疗实体信息包括：症状类医疗实体的数量、体征类医疗实体的数量以及疾病类医疗实体的数量。

12.根据权利要求11所述的装置，其特征在于，所述评估模块具体用于：

根据所述电子病历的质量参数，评估所述电子病历的质量。

13.根据权利要求12所述的装置，其特征在于，所述电子病历的质量参数包括第一参数和第二参数，所述第一参数用于指示所述电子病历满足筛选条件的概率，所述第二参数用于指示所述电子病历不满足筛选条件的概率；所述评估模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述第一获取模块还用于：

15.根据权利要求12所述的装置，其特征在于，所述评估模型是采用如下方法训练得到的：

16.根据权利要求15所述的装置，其特征在于，所述评估模型包括：输入层、词向量层、双向长短期记忆层BiLSTM、最大池化层、线性采样层和输出层。

17.一种病历质量的评估设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。