CN111710383A

CN111710383A - 病历质控方法、装置、计算机设备和存储介质

Info

Publication number: CN111710383A
Application number: CN202010548540.9A
Authority: CN
Inventors: 朱昭苇; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-25
Also published as: WO2021114620A1

Abstract

本申请涉及人工智能，提供一种基于自然语言处理的病历质控方法、装置、计算机设备和存储介质。所述方法包括：抽取待检病历中的主诉信息以及对应的症状关系属性对；将主诉信息和症状关系属性对输入训练好的第一自然语言处理模型，得到与主诉信息匹配的疾病集合；将疾病集合与待检病历中的诊断信息进行匹配，根据匹配结果确定待检病历的诊断信息是否误诊。此外，本发明还涉及区块链技术，所述待检病历可存储于区块链中。采用本方法能够确定主诉信息和诊断信息是否一致，实现诊断质控。

Description

病历质控方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能领域，特别是涉及一种基于自然语言处理的病历质控方法、装置、计算机设备和存储介质。

背景技术

病历用于记录患者就诊信息，是后续医学研究的基础数据源。为了加强医院病案质量管理，完善医院内部质量管理体系，以及后续测验医生业务水平提高医生能力，病历质控在质控系统中是重要关注点之一。

然而，目前病历质控大多集中在病历书写等基础层面，例如病历书写是否正确、病例条目前后是否一致等，缺乏主诉和诊断是否一致的判断。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现诊断质控的病历质控方法、装置、计算机设备和存储介质。

一种病历质控方法，所述方法包括：

抽取待检病历中的主诉信息以及对应的症状关系属性对；

将所述主诉信息和所述症状关系属性对输入训练好的第一自然语言处理模型，得到与所述主诉信息匹配的疾病集合；

将所述疾病集合与所述待检病历中的诊断信息进行匹配，根据匹配结果确定所述待检病历的诊断信息是否误诊。

在其中一个实施例中，所述抽取待检病历中的主诉信息以及对应的症状关系属性对，包括：

提取所述待检病历的主诉信息；

将所述主诉信息输入训练好的第二自然语言处理模型，利用所述第二自然语言处理模型从所述主诉信息中抽取症状实体；

从所述主诉信息中查询所述症状实体的症状持续时间和症状部位，得到症状关系属性对；

将所述症状关系属性对进行文本转换，得到文本形式的症状关系属性对。

在其中一个实施例中，所述从所述主诉信息中查询所述症状实体的症状持续时间和症状部位，得到症状关系属性对，包括：

在所述主诉信息中匹配所述症状实体左右两侧最近的标点符号，确定所述症状实体所在的语句段；

将所述语句段中的各字符逐个与预设字典中的症状部位字符和症状时间字符进行匹配；

当存在与预设字典中的所述症状部位字符和所述症状时间字符匹配成功的字符时，从所述语句段中抽取匹配成功的字符；

组合所述症状实体和抽取的字符，得到症状关系属性对。

在其中一个实施例中，所述第一自然语言处理模型包括第一自然语言文本分类模型和第二自然语言文本分类模型；

将所述主诉信息和所述症状关系属性对输入训练好的第一自然语言处理模型，得到与所述主诉信息匹配的疾病集合，包括：

将所述主诉信息输入所述第一自然语言文本分类模型的嵌入层进行向量转换，得到所述主诉信息的词向量；

将所述症状关系属性对输入所述第二自然语言文本分类模型的嵌入层进行词向量转换，得到所述症状关系属性对的词向量；

按照纵轴方向拼接所述主诉信息的词向量和所述症状关系属性对的词向量，得到拼接向量；

将所述拼接向量输入至所述第一自然语言文本分类模型的嵌入层之后的网络层，输出与所述主诉信息匹配的疾病集合。

在其中一个实施例中，所述将所述主诉信息输入训练好的所述第一自然语言文本分类模型的嵌入层进行向量转换，得到所述主诉信息的词向量，包括：

所述第一自然语言文本分类模型的嵌入层中的各卷积核对所述主诉信息进行卷积，得到各所述卷积核的卷积向量；

将各所述卷积向量进行加权平均处理，得到所述主诉信息的词向量。

在其中一个实施例中，所述将所述疾病集合与所述待检病历中的诊断信息进行匹配，根据匹配结果确定所述待检病历的诊断信息是否误诊，包括：

当所述诊断信息与所述疾病集合中的疾病均不匹配时，确定所述待检病历的诊断信息为误诊；

当所述诊断信息与所述疾病集合中任意疾病匹配时，确定所述待检病历的诊断信息未误诊。

在其中一个实施例中，所述第一自然语言文本分类模型包括TextCNN模型；所述第二自然语言文本分类模型包括FastText模型。

一种病历质控装置，所述装置包括：

抽取模块，用于抽取待检病历中的主诉信息以及对应的症状关系属性对；

处理模块，用于将所述主诉信息和所述症状关系属性对输入训练好的第一自然语言处理模型，得到与所述主诉信息匹配的疾病集合；

确定模块，用于将所述疾病集合与所述待检病历中的诊断信息进行匹配，根据匹配结果确定所述待检病历的诊断信息是否误诊。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述病历质控方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述病历质控方法的步骤。

上述病历质控方法、装置、计算机设备和存储介质，通过利用训练好的自然语言处理模型对从待检病历中抽取的主诉信息以及对应的症状关系属性对进行自然语言处理，得到与主诉信息匹配的疾病集合。进而将与主诉信息匹配的疾病集合与待检病历中的诊断信息进行匹配，确定待检病历的诊断信息是否误诊。该方法通过抽取的主诉信息和症状关系属性对确定与主诉信息相对应的疾病集合后，将疾病集合中的疾病与诊断信息进行匹配，从而实现了对主诉信息与诊断信息是否一致的判断。

附图说明

图1为一个实施例中病历质控方法的应用场景图；

图2为一个实施例中病历质控方法的流程示意图；

图3为一个实施例中抽取待检病历中的主诉信息以及对应的症状关系属性对步骤的流程示意图；

图4为一个实施例中将主诉信息和症状关系属性对输入训练好的第一自然语言处理模型，得到与主诉信息匹配的疾病集合步骤的流程示意图；

图5为一个实施例中病历质控方法的工作流程示意图；

图6为一个实施例中病历质控装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的病历质控方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。当终端102将待检病历发送给服务器104之后，服务器104抽取待检病历中的主诉信息以及对应的症状关系属性对；服务器104将主诉信息和症状关系属性对输入训练好的第一自然语言处理模型，得到与主诉信息匹配的疾病集合；服务器104将疾病集合与待检病历中的诊断信息进行匹配，根据匹配结果确定待检病历的诊断信息是否误诊。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种病历质控方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，抽取待检病历中的主诉信息以及对应的症状关系属性对。

其中，待检病历是需要进行质控，已录入终端的电子病历。主诉信息是病历中记载的患者对自身症状的描述。症状关系属性对是指包括症状实体与症状部位、症状持续时间等关系的属性对，包括{症状实体：症状部位}{症状实体：症状持续时间}。例如，假设症状实体是咳嗽、抽搐。症状关系属性对则可以为{抽搐：右下肢}{咳嗽：两天}等。

具体地，服务器获取待检病历，待检病历可以是用户通过终端实时录入主诉信息、诊断信息得到，也可以是预先配置存储在服务器。当服务器获取到待检病历之后，利用自然语言处理模型和正则表达式从待检病历的主诉信息中抽取得到症状关系属性对。需要强调的是，为进一步保证上述待检病历信息的私密和安全性，上述待检病历还可以存储于一区块链的节点中。

步骤S204，将主诉信息和症状关系属性对输入训练好的第一自然语言处理模型，得到与主诉信息匹配的疾病集合。

其中，自然语言处理时计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。自然语言处理是一门融合语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理模型则是进行自然语言处理所用的网络模型。疾病集合是指包括多种疾病的集合。

具体地，当服务器抽取到主诉信息和症状关系属性对之后，通过将抽取到的主诉信息和症状关系属性对输入至预先训练好的第一自然语言处理模型。利用第一自然语言处理模型对主诉信息和症状关系属性对进行自然语言处理，为主诉信息匹配与其相匹配的疾病，得到疾病集合。

步骤S206，将疾病集合与待检病历中的诊断信息进行匹配，根据匹配结果确定待检病历的诊断信息是否误诊。

其中，诊断信息是医护人员对患者进行诊断之后录入到待检病历的信息。

在一个实施例中，步骤S206，包括：当诊断信息与疾病集合中的疾病均不匹配时，确定待检病历的诊断信息为误诊；当诊断信息与疾病集合中任意疾病匹配时，确定待检病历的诊断信息未误诊。

具体地，服务器从待检病历中获取到诊断信息，将诊断信息与疾病集合中各疾病一一进行匹配。当诊断信息与任意一个疾病相匹配时，表示医护人员的诊断与主诉信息是相匹配的，确定没有误诊。而当诊断信息与疾病集合中所有的疾病都不匹配时，表示医护人员的诊断与主诉信息是不相匹配的，确定误诊。

上述病历质控方法，通过利用训练好的自然语言处理模型对从待检病历中抽取的主诉信息以及对应的症状关系属性对进行自然语言处理，得到与主诉信息匹配的疾病集合。进而将与主诉信息匹配的疾病集合与待检病历中的诊断信息进行匹配，确定待检病历的诊断信息是否误诊。该方法通过抽取的主诉信息和症状关系属性对确定与主诉信息相对应的疾病集合后，将疾病集合中的疾病与诊断信息进行匹配，从而实现了对主诉信息与诊断信息是否一致的判断。

在一个实施例中，如图3所示，步骤S202，包括：

步骤S302，提取待检病历的主诉信息。

具体地，当服务器获取待检病理之后，首先从待检病理中抽取到主诉信息。由于病历的内容一般都具有固定的格式，即服务器可以直接根据病历的格式从病理中抽取到主诉信息。

步骤S304，将主诉信息输入训练好的第二自然语言处理模型，利用第二自然语言处理模型从主诉信息中抽取症状实体。

其中，第二自然语言处理模型是用于从主诉信息中抽取症状实体的自然语言处理模型，本实施例优选命名实体识别模型NER。命名实体识别模型是信息提取所用的模型，旨在将文本中的命名实体定位并分类为预先定义的类别。

具体地，当服务器抽取到主诉信息之后，将主诉信息输入到命名实体识别模型NER中。利用命名实体识别模型NER对主诉信息进行定位并分类得到主诉信息中的症状实体。

步骤S306，从主诉信息中查询症状实体的症状持续时间和症状部位，得到症状关系属性对。

具体地，当从主诉信息中抽取到症状实体之后，利用正则表达式从主诉信息中查询症状实体对应的症状持续时间和症状部位。将所得到的症状实体与症状持续时间和症状部位进行组合，得到症状关系属性对。

在一个实施例中，步骤S306，包括：在所述主诉信息中匹配所述症状实体左右两侧最近的标点符号，确定症状实体所在的语句段；将语句段中的各字符逐个与预设字典中的症状部位字符和症状时间字符进行匹配；当存在与预设字典中的症状部位字符和症状时间字符匹配成功的字符时，从语句段中抽取匹配成功的字符；组合症状实体和抽取的字符，得到症状关系属性对。

其中，本实施例正则表达式包括正则表达式标点符号模板和正则表达式部位和时间模板。正则表达式标点符号模板是一种匹配标点符号的逻辑程序，正则表达式部位和时间模板是用于检测症状部位和症状持续时间的逻辑程序。

具体地，当服务器从主诉信息中查询症状实体的症状持续时间和症状部位时，首先调用正则表达式标点符号模板。通过正则表达式标点符号模板记载的逻辑程序匹配距离症状实体左右两侧最近的标点符号，从而确定该症状实体所在的语句段。例如，源字符串是“患者主诉右下肢有抽搐感、2天前开始咳嗽”。通过命名实体识别模型NER检测到症状实体“抽搐”时，查询离“抽搐”左右两侧最近的标点符号。此处症状实体“抽搐”的右侧标点符号为“、”，而左侧未检测到标点符号，所以认为左侧起始端即为症状实体“抽搐”所在语句段开头，标点符号“、”为症状实体“抽搐”所在语句段结尾。因此，症状实体“抽搐”所在的语句段为“患者主诉右下肢有抽搐感”。

服务器确定症状实体所在的语句段之后，再调用正则表达式部位和时间模板，通过正则表达式部位和时间模板确定症状实体对应的症状持续时间或症状部位。即，获取预先离线构建的字典，得到预设字典。例如，预设字典的形式可以是{右上肢、右下肢、/d天、/d月}，d表示任意数字。然后，服务器逐个将预设字典中表示症状部位和症状持续时间的字符与语句段中的字符进行匹配，判断字典中的字符是否位于该语句段中。如果有，则从语句段中将匹配到的字符取出作为症状实体的属性，与症状实体建立症状关系属性对。例如，在待检病历的主诉信息中检测到症状部位右下肢，则将其作为症状实体“抽搐”的属性，形成症状关系属性对{抽搐：右下肢}。

步骤S308，将症状关系属性对进行文本转换，得到文本形式的症状关系属性对。

其中，文本形式是指不包括任何结构化的形式，例如，上述主诉中共抽取到两个症状关系属性对：{咳嗽：2天}、{抽搐：右下肢}，转换之后的文本格式为咳嗽两天、右下肢抽搐。在这个转换过程中还需将阿拉伯数字转换成汉字描述。具体地，当服务器抽取得到症状关系属性对之后，为了便于后续处理，将原本具有结构的症状关系属性对转换为文本形式的症状关系属性对。

在本实施例中，利用自然语言处理模型以及正则表达式技术从待检病历中的主诉信息中抽取全部的症状和相关属性，相比单纯利用自然语言处理模型提取，其精度更高，能够确保从主诉信息中抽取到最全面的症状信息，提高抽取的准确性。

在一个实施例中，第一自然语言处理模型包括第一自然语言文本分类模型和第二自然语言文本分类模型。如图4所示，步骤S204，包括：

步骤S402，将主诉信息输入第一自然语言文本分类模型的嵌入层进行向量转换，得到主诉信息的词向量。

具体地，服务器将主诉信息输入第一自然语言文本分类模型的嵌入层(embedding)，通过嵌入层首先对主诉信息进行向量转换，有嵌入层输出得到主诉信息的词向量。本实施例第一自然语言文本分类模型优选TextCNN模型，TextCNN模型是一种将卷积神经网络CNN应用到文本分类的模型。其通过利用多个尺度不同卷积核来提取句子中的关键信息。TextCNN模型包括嵌入层(embedding)、卷积层(Convolution)、池化层(MaxPolling)和全连接层(FullConnection and Softmax)。服务器首先将主诉信息输入TextCNN模型的嵌入层(embedding)得到主诉信息的词向量。

步骤S404，将症状关系属性对输入第二自然语言文本分类模型的嵌入层进行词向量转换，得到症状关系属性对的词向量。

具体地，服务器将文本形式的症状关系属性对输入到第二自然语言文本分类模型的嵌入层。利用第二自然语言文本分类模型的嵌入层对症状关系属性对进行词向量转换，得到症状关系属性对的词向量。在本实施例中，第二自然语言文本分类模型优选FastText模型。Fasttext模型是基于word2vec理论框架的，能够快速完成文本词向量转换并同时纳入文本n-gram信息的工程模型。

应当理解的是，由于只需要进行词向量转换得到对应的词向量，所以主诉信息和文本形式的症状关系属性对分别输入到textCNN模型和fasttext模型之后，不是获取textCNN模型和fasttext模型最终的输出。而是获取textCNN模型和fasttext模型中嵌入层(embedding)的输出即可。即，获取textCNN模型的embedding层的输出，得到主诉信息的词向量。获取fasttext模型的embedding层的输出，得到症状关系属性对的词向量。

步骤S406，按照纵轴方向拼接主诉信息的词向量和症状关系属性对的词向量，得到拼接向量。

具体地，将主诉信息的词向量和症状关系属性对的词向量按照纵轴方向进行拼接，得到拼接向量。若同时存在多对症状关系属性对。优先把同一个症状关系属性对的多个词向量进行纵轴拼接，得到症状关系属性对的拼接词向量。然后，把对应主诉信息的词向量与症状关系属性对的拼接词向量进行纵轴拼接，最终得到的拼接向量的尺寸为1*N。例如，一个主诉信息抽取到2个症状关系属性对。拼接向量为：主诉信息的词向量-症状关系属性对的词向量-症状关系属性对的词向量。其中，症状关系属性对的词向量的顺序由模型输出的顺序决定。由于模型训练采取的mini-batch方法，所以获取的batch是随机抽取的，因此词向量的顺序是随机的。

步骤S408，将拼接向量输入至第一自然语言文本分类模型的嵌入层之后的网络层，输出与主诉信息匹配的疾病集合。

具体地，当服务器得到拼接向量之后，将拼接向量输入第一自然语言文本分类模型的嵌入层之后的网络层。以TextCNN模型包括嵌入层(embedding)、卷积层(Convolution)、池化层(MaxPolling)和全连接层(FullConnection and Softmax)为例，则将拼接向量直接输入至TextCNN模型的卷积层(Convolution)。然后，获取TextCNN模型的全连接层(FullConnection and Softmax)输出的疾病集合。疾病集合中的疾病数量可以根据实际情况配置，例如，疾病集合配置需要20条疾病。则全连接层(FullConnection andSoftmax)按照概率输出排名前20的疾病，得到包括20条疾病的疾病集合。

本实施例中，第一自然语言文本分类模型和第二自然语言文本分类模型基于MIMIC数据集，采用基于端到端机制使用监督方法训练得到。本实施例通过数据驱动的模型进行病历诊断质控，能够覆盖更多的病种，提高病历质控的广泛可用性。

在一个实施例中，步骤S402，包括：第一自然语言文本分类模型的嵌入层中的各卷积核对主诉信息进行卷积，得到各卷积核的卷积向量；将各卷积向量进行加权平均处理，得到主诉信息的词向量。

具体地，TextCNN模型的嵌入层中各卷积核对主诉信息进行卷积得到的向量进行加权平均，从而得到主诉信息的词向量。其中，权重系数在训练TextCNN模型时已经固定得到。

本实施例中，相比传统直接取向量的均值的方法来说，充分考虑了不同嵌入层中不同卷积核卷积出的向量的权重，提高准确性。

在一个实施例中，如图5所示，提供一种病历质控的工作流程图，参考图5对病理质控方法进行解释说明。

具体地，首先获取包括主诉信息和诊断信息的待检病历。服务器将主诉信息输入TextCNN模型的嵌入层，得到主诉信息的词向量。同时，服务器从主诉信息中抽取得到症状关系属性对，将症状关系属性对输入FastText模型的嵌入层，得到症状关系属性对的词向量。然后，将主诉信息的词向量和症状关系属性对的词向量进行纵轴拼接，得到拼接向量。最后，将拼接向量输入到TextCNN模型的嵌入层之后的网络层进行处理，得到包括TOP20疾病的疾病集合。将疾病结合与诊断信息进行匹配，确定是否误诊。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种病历质控装置，包括：抽取模块602、处理模块604和确定模块606，其中：

抽取模块602，用于抽取待检病历中的主诉信息以及对应的症状关系属性对。

处理模块604，用于将主诉信息和症状关系属性对输入训练好的第一自然语言处理模型，得到与主诉信息匹配的疾病集合。

确定模块606，用于将疾病集合与待检病历中的诊断信息进行匹配，根据匹配结果确定待检病历的诊断信息是否误诊。

在一个实施例中，抽取模块602还用于提取待检病历的主诉信息；将主诉信息输入训练好的第二自然语言处理模型，利用第二自然语言处理模型从主诉信息中抽取症状实体；从主诉信息中查询症状实体的症状持续时间和症状部位，得到症状关系属性对；将症状关系属性对进行文本转换，得到文本形式的症状关系属性对。

在一个实施例中，抽取模块602还用于在主诉信息中匹配症状实体左右两侧最近的标点符号，确定症状实体所在的语句段；将语句段中的各字符逐个与预设字典中的症状部位字符和症状时间字符进行匹配；当存在与预设字典中的症状部位字符和症状时间字符匹配成功的字符时，从语句段中抽取匹配成功的字符；组合症状实体和抽取的字符，得到症状关系属性对。

在一个实施例中，处理模块604还用于将主诉信息输入第一自然语言文本分类模型的嵌入层进行向量转换，得到主诉信息的词向量；将症状关系属性对输入第二自然语言文本分类模型的嵌入层进行词向量转换，得到症状关系属性对的词向量；按照纵轴方向拼接主诉信息的词向量和症状关系属性对的词向量，得到拼接向量；将拼接向量输入至第一自然语言文本分类模型的嵌入层之后的网络层，输出与主诉信息匹配的疾病集合。

在一个实施例中，处理模块604还用于第一自然语言文本分类模型的嵌入层中的各卷积核对主诉信息进行卷积，得到各卷积核的卷积向量；将各卷积向量进行加权平均处理，得到主诉信息的词向量。

在一个实施例中，确定模块606还用于当诊断信息与疾病集合中的疾病均不匹配时，确定待检病历的诊断信息为误诊；当诊断信息与疾病集合中任意疾病匹配时，确定待检病历的诊断信息未误诊。

关于病历质控装置的具体限定可以参见上文中对于病历质控方法的限定，在此不再赘述。上述病历质控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检病历、模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种病历质控方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

抽取待检病历中的主诉信息以及对应的症状关系属性对；

用于将主诉信息和症状关系属性对输入训练好的第一自然语言处理模型，得到与主诉信息匹配的疾病集合；

将疾病集合与待检病历中的诊断信息进行匹配，根据匹配结果确定待检病历的诊断信息是否误诊。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取待检病历的主诉信息；将主诉信息输入训练好的第二自然语言处理模型，利用第二自然语言处理模型从主诉信息中抽取症状实体；从主诉信息中查询症状实体的症状持续时间和症状部位，得到症状关系属性对；将症状关系属性对进行文本转换，得到文本形式的症状关系属性对。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在主诉信息中匹配症状实体左右两侧最近的标点符号，确定症状实体所在的语句段；将语句段中的各字符逐个与预设字典中的症状部位字符和症状时间字符进行匹配；当存在与预设字典中的症状部位字符和症状时间字符匹配成功的字符时，从语句段中抽取匹配成功的字符；组合症状实体和抽取的字符，得到症状关系属性对。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将主诉信息输入第一自然语言文本分类模型的嵌入层进行向量转换，得到主诉信息的词向量；将症状关系属性对输入第二自然语言文本分类模型的嵌入层进行词向量转换，得到症状关系属性对的词向量；按照纵轴方向拼接主诉信息的词向量和症状关系属性对的词向量，得到拼接向量；将拼接向量输入至第一自然语言文本分类模型的嵌入层之后的网络层，输出与主诉信息匹配的疾病集合。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：第一自然语言文本分类模型的嵌入层中的各卷积核对主诉信息进行卷积，得到各卷积核的卷积向量；将各卷积向量进行加权平均处理，得到主诉信息的词向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当诊断信息与疾病集合中的疾病均不匹配时，确定待检病历的诊断信息为误诊；当诊断信息与疾病集合中任意疾病匹配时，确定待检病历的诊断信息未误诊。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

抽取待检病历中的主诉信息以及对应的症状关系属性对；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：提取待检病历的主诉信息；将主诉信息输入训练好的第二自然语言处理模型，利用第二自然语言处理模型从主诉信息中抽取症状实体；从主诉信息中查询症状实体的症状持续时间和症状部位，得到症状关系属性对；将症状关系属性对进行文本转换，得到文本形式的症状关系属性对。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在主诉信息中匹配症状实体左右两侧最近的标点符号，确定症状实体所在的语句段；将语句段中的各字符逐个与预设字典中的症状部位字符和症状时间字符进行匹配；当存在与预设字典中的症状部位字符和症状时间字符匹配成功的字符时，从语句段中抽取匹配成功的字符；组合症状实体和抽取的字符，得到症状关系属性对。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将主诉信息输入第一自然语言文本分类模型的嵌入层进行向量转换，得到主诉信息的词向量；将症状关系属性对输入第二自然语言文本分类模型的嵌入层进行词向量转换，得到症状关系属性对的词向量；按照纵轴方向拼接主诉信息的词向量和症状关系属性对的词向量，得到拼接向量；将拼接向量输入至第一自然语言文本分类模型的嵌入层之后的网络层，输出与主诉信息匹配的疾病集合。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：第一自然语言文本分类模型的嵌入层中的各卷积核对主诉信息进行卷积，得到各卷积核的卷积向量；将各卷积向量进行加权平均处理，得到主诉信息的词向量。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当诊断信息与疾病集合中的疾病均不匹配时，确定待检病历的诊断信息为误诊；当诊断信息与疾病集合中任意疾病匹配时，确定待检病历的诊断信息未误诊。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种病历质控方法，所述方法包括：

抽取待检病历中的主诉信息以及对应的症状关系属性对；

2.根据权利要求1所述的方法，其特征在于，所述抽取待检病历中的主诉信息以及对应的症状关系属性对，包括：

提取所述待检病历的主诉信息；

3.根据权利要求2所述的方法，其特征在于，所述从所述主诉信息中查询所述症状实体的症状持续时间和症状部位，得到症状关系属性对，包括：

组合所述症状实体和抽取的字符，得到症状关系属性对。

4.根据权利要求1所述的方法，其特征在于，所述第一自然语言处理模型包括第一自然语言文本分类模型和第二自然语言文本分类模型；

5.根据权利要求4所述的方法，其特征在于，所述将所述主诉信息输入训练好的所述第一自然语言文本分类模型的嵌入层进行向量转换，得到所述主诉信息的词向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述疾病集合与所述待检病历中的诊断信息进行匹配，根据匹配结果确定所述待检病历的诊断信息是否误诊，包括：

7.根据权利要求4或5任一项所述的方法，其特征在于，所述第一自然语言文本分类模型包括TextCNN模型；所述第二自然语言文本分类模型包括FastText模型。

8.一种病历质控装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。