CN111383769A

CN111383769A - 主诉与诊断一致性检测方法、装置、设备及存储介质

Info

Publication number: CN111383769A
Application number: CN202010017803.3A
Authority: CN
Inventors: 吴及; 李伟; 刘喜恩; 李承程; 刘明录
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-07-07
Anticipated expiration: 2040-01-08
Also published as: CN111383769B

Abstract

本申请提供了一种主诉与诊断一致性检测方法、装置、设备及存储介质，其中，方法包括：获取与待测诊断的目标类别匹配的主诉样本集合，其中，主诉样本集合中包含能够推导出目标类别的诊断的主诉样本；确定待测主诉与主诉样本集合的语义相似度；根据待测主诉与主诉样本集合的语义相似度确定待测主诉与待测诊断是否一致。本申请提供的主诉与诊断一致性检测方法能够自动、高效、准确地确定出待测主诉与待测诊断是否一致，且，本申提供的主诉与诊断一致性检测方法具有较强的通用性。

Description

主诉与诊断一致性检测方法、装置、设备及存储介质

技术领域

本申请涉及智能检测技术领域，尤其涉及一种主诉与诊断一致性检测方法、装置、设备及存储介质。

背景技术

近些年来，我国医疗行业快速发展，医疗技术有显著提高，但是，电子病历的整体质量并不高，即很多电子病历存在缺陷，电子病历存在的缺陷主要分为形式缺陷和内涵缺陷两种，其中，形式缺陷如错别字、字段中字符长度过短等，内涵缺陷如主诉与诊断不一致、现病史与诊断不一致等。形式缺陷和内涵缺陷的存在严重影响电子病历的质量，情况严重可能导致医患纠纷等医疗事故的发生。

主诉是病历中重要的字段，其是医生根据病人对病症的描述进行总结和概述得到。主诉主要包含症状及症状的持续时间等内容，主诉是医生得出诊断的重要参考依据，因此，主诉的内容与诊断的内容应该相辅相成，即主诉与诊断应一致，例如，主诉内容为“咳嗽、咳痰、发烧3天”，诊断内容为“急性上呼吸道感染”，反之，若主诉内容与诊断内容无关或者矛盾，则说明主诉与诊断不一致，例如，主诉内容为“咳嗽、咳痰、发烧3天”，诊断内容为“腰间盘突出”，主诉与诊断不一致是电子病历中严重的内涵缺陷。

现有技术中，主诉与诊断是否一致的检测方法主要为人工检测方法，由于人工检测方法的检测人员通常为专职医师，且人工检测的人工投入量较大，因此，人工成本较高，并且，人工检测方法只能对部分病历进行抽检，即，可质检病历的数量小，病历中遗漏的缺陷较多，因此，不能有效地发现电子病历中的缺陷。

发明内容

有鉴于此，本申请提供了一种主诉与诊断一致性检测方法、装置、设备及存储介质，用以确定电子病历中的主诉与诊断是否一致，其技术方案如下：

一种主诉与诊断一致性检测方法，包括：

获取与待测诊断的目标类别匹配的主诉样本集合，其中，所述主诉样本集合中包含，能够推导出所述目标类别的诊断的主诉样本；

确定待测主诉与所述主诉样本集合的语义相似度；

根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断是否一致。

可选的，所述获取与待测诊断的目标类别匹配的主诉样本集合，包括：

从预先构建的、与多个不同类别分别匹配的主诉样本集合中，获取与所述待测诊断的目标类别匹配的主诉样本集合；

其中，构建所述与多个不同类别分别匹配的主诉样本集合的过程，包括：

根据预置的主诉样本总集中各主诉样本分别对应的诊断标签，对所述主诉样本总集中的主诉样本进行聚类，得到多个主诉样本集合；

根据每个所述主诉样本集合中各主诉样本的诊断标签，确定每个所述主诉样本集合匹配的类别，得到与多个不同类别分别匹配的主诉样本集合。

可选的，所述构建所述与多个不同类别分别匹配的主诉样本集合，还包括：

确定聚类得到的多个主诉样本集合分别对应的聚类中心；

遍历多个主诉样本集合中的主诉样本：对于当前遍历到的主诉样本，根据该主诉样本分别与各个主诉样本集合的语义相似度，将该主诉样本归入正确类别的主诉样本集合中；

遍历完成后，确定各主诉样本集合分别对应的聚类中心；

若聚类中心稳定，则将最终获得的多个主诉样本集合作为所述与多个不同类别分别匹配的主诉样本集合，若聚类中心不稳定，则返回执行所述遍历多个主诉样本集合中的主诉样本。

可选的，所述确定待测主诉与所述主诉样本集合的语义相似度，包括：

确定所述待测主诉的语义表征向量，并确定所述主诉样本集合的语义表征向量；

根据所述待测主诉的语义表征向量，以及所述主诉样本集合的语义表征向量，确定所述待测主诉与所述主诉样本集合的语义相似度。

可选的，所述确定所述待测主诉的语义表征向量，包括：

根据预先构建的词图，以及预先确定的、所述词图中各个词分别对应的特征向量，确定所述待测主诉中各个词分别对应的特征向量；

根据所述待测主诉中各个词分别对应的特征向量，确定所述待测主诉中各个词分别对应的权重，并根据所述待测主诉中各个词分别对应的权重和特征向量，确定所述待测主诉的语义表征向量。

可选的，预先构建所述词图，以及预先确定所述词图中各个词分别对应的特征向量，包括：

对构建的主诉样本总集中的各主诉样本进行分词和去重处理，由得到的词组成语料库；

根据所述语料库以及所述语料库中任意两个词的共现情况构建词图，其中，所述词图以所述语料库中的各个词为节点，节点间的连线表示，基于两个节点对应的词对在语料库中的共现情况所确定的词对间存在联系；

根据所述词图和所述词图中各个词的词向量，确定所述词图中各个词分别对应的特征向量。

可选的，所述确定所述主诉样本集合的语义表征向量，包括：

获取所述主诉样本集合的离散度，其中，所述主诉样本集合的离散度能够反映所述主诉样本集合中主诉样本的差异和主诉样本的分布；

根据所述主诉样本集合的离散度，确定所述主诉样本集合的语义表征向量。

可选的，所述根据所述主诉样本集合的离散度，确定所述主诉样本集合的语义表征向量，包括：

若所述主诉样本集合的离散度大于预设的离散度阈值，则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量，其中，所述主诉样本集合的边缘向量为根据所述待测主诉的语义表征向量和所述主诉样本集合中各主诉样本的语义表征向量确定的、能够表征所述主诉样本集合边缘的向量；

若所述主诉样本集合的离散度小于所述离散度阈值，则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量，其中，所述主诉样本集合的中心向量为根据所述主诉样本集合中各主诉样本的语义表征向量确定的、能够表征所述主诉样本集合中心的向量；

若所述主诉样本集合的离散度等于所述离散度阈值，则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和边缘向量。

可选的，所述根据所述待测主诉的语义表征向量，以及所述主诉样本集合的语义表征向量，确定所述待测主诉与所述主诉样本集合的语义相似度，包括：

若所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量，则根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量，确定所述待测主诉与所述主诉样本集合边缘的相似度；

若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量，则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量，确定所述待测主诉与所述主诉样本集合中心的相似度；

若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和所述边缘向量，则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量，确定所述待测主诉与所述主诉样本集合中心的相似度，并根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量，确定所述待测主诉与所述主诉样本集合边缘的相似度。

可选的，所述根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断是否一致，包括：

根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断的一致性得分；

根据所述待测主诉与所述待测诊断的一致性得分，确定所述待测主诉与所述待测诊断是否一致。

一种主诉与诊断一致性检测装置，包括：主诉样本集合获取模块、语义相似度确定模块和一致性确定模块；

所述主诉样本集合获取模块，用于获取与待测诊断的目标类别匹配的主诉样本集合，其中，所述主诉样本集合中包含，能够推导出所述目标类别的诊断的主诉样本；

所述语义相似度确定模块，用于确定所述待测主诉与所述主诉样本集合的语义相似度；

所述一致性确定模块，用于根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断是否一致。

一种主诉与诊断一致性检测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的主诉与诊断一致性检测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的主诉与诊断一致性检测方法的各个步骤。

经由上述方案可知，本申请提供的主诉与诊断一致性检测方法、装置、设备及存储介质，首先获取与待测诊断的目标类别匹配的主诉样本集合，然后确定待测主诉与主诉样本集合的语义相似度，最后根据待测主诉与主诉样本集合的语义相似度，确定待测主诉与待测诊断是否一致。本申请提供的主诉与诊断一致性检测方法能够自动对待测主诉与待测诊断进行一致性检测，该检测方法由于不需要人工参与，因此避免了人工参与所带来的问题(人工成本较高、只能对部分病历进行抽检、病历中遗漏的缺陷较多等)，并且，由于主诉样本集合与待测诊断的目标类别匹配，且主诉样本集合由包含能够推导出目标类别的诊断的主诉样本组成，因此，通过待测诊断与主诉样本集合的相似度能够准确判别出待测主诉与待测诊断是否一致，即本申请提供的主诉与诊断一致性检测方法具有较高的检测效率和检测准确度，且通用性较强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的主诉与诊断一致性检测方法的流程示意图；

图2a和图2b分别为本申请实施例提供的根据诊断标签对主诉样本总集中各主诉样本签进行聚类所得到的聚类结果的示意图，以及将图2a中错误归类的主诉样本归入正确类别的主诉样本集合的示意图；

图3为本申请实施例提供的构建与多个不同类别分别匹配的主诉样本集合的一种优选实现方式的流程示意图；

图4为本申请实施例提供的确定待测主诉的语义表征向量的流程示意图；

图5a和图5b为本申请实施例提供的样本分布均匀的主诉样本集合以及样本分布不均匀的主诉样本集合的示意图；

图6为本申请实施例提供的确定目标主诉样本集合的语义表征向量的一种优选实现方式的流程示意图；

图7为本申请实施例提供的主诉与诊断一致性检测装置的结构示意图；

图8为本申请实施例提供的主诉与诊断一致性检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，对主诉与病历进行一致性检测的方法为人工检测方法，具体的，医院专门成立病历质量控制室(简称质控室)，某些科室也配有相应的质检员，如此形成了科室质检员初检，医院质控室二次抽检的两级病历人工质检模式，即，病历完成后，由科室质检员对病历进行初级缺陷检查，后经过医院质控室质检员按比例进行二次抽检。这种检测方式存在人工成本高、无法对所有病历进行检测、病历中缺陷遗漏等问题。

鉴于上述人工检测方法存在的问题，本案发明人试图提出一种能够自动对所有病历的主诉与诊断进行一致性检测的方法，起初的思路是：采用基于规则的检测方法。具体的，首先由专业医生整理和确定可质检的诊断，并由医生整理对应的知识与规则，基于可质检的诊断和其对应的知识与规则对病历的主诉与诊断进行一致性检测。

但是，基于规则的检测方法存在缺陷：可质检的诊断种类有限，医学知识规则整理难度大，并且知识规则严重依赖整理者的医学背景及知识积累，即基于规则的检测方法普适性和可拓展性不强。

鉴于上述基于规则的检测方法存在的问题，本案发明人进一步进行了研究，最终提出了一种效果较好的、能够自动对病历的主诉与诊断进行一致性检测的方法，该评估方法可应用于具有数据处理能力的终端，也可应用于服务器。接下来通过下述实施例对本申请提供的主诉与诊断一致性检测方法进行介绍。

请参阅图1，示出了本申请实施例提供的主诉与诊断一致性检测方法的流程示意图，该方法可以包括：

步骤S101：获取与待测诊断的目标类别匹配的主诉样本集合。

其中，主诉样本集合中包含能够推导出目标类别的诊断的主诉样本，也就是说，与主诉样本集合中的每个主诉一致的诊断为目标类型的诊断。

示例性的，待测诊断为“高血压I型”，则步骤S101中的“主诉样本集合”可以为与类型“高血压”匹配的主诉样本集合，即，与该主诉样本集合中的每个主诉一致的诊断为“高血压”类型的诊断，比如“高血压”、“高血压I型”、“高血压II型”等。

步骤S102：确定待测主诉与主诉样本集合的语义相似度。

具体的，可确定待测主诉的语义表征向量和主诉样本集合的语义表征向量，进而根据待测主诉的语义表征向量和主诉样本集合的语义表征向量确定待测主诉与主诉样本集合的语义相似度。

步骤S103：根据待测主诉与主诉样本集合的语义相似度，确定待测主诉与待测诊断是否一致。

具体的，可根据待测主诉与主诉样本集合的语义相似度，确定待测主诉与待测诊断的得分，进而根据待测主诉与待测诊断的得分确定待测主诉与待测诊断是否一致。

本申请实施例提供的主诉与诊断一致性检测方法能够自动对待测主诉与待测诊断进行一致性检测，该检测方法由于不需要人工参与，因此避免了人工参与所带来的问题(人工成本较高、只能对部分病历进行抽检、病历中遗漏的缺陷较多等)，并且，由于主诉样本集合与待测诊断的目标类别匹配，且主诉样本集合由包含能够推导出目标类别的诊断的主诉样本组成，因此，通过待测诊断与主诉样本集合的相似度能够准确判别出待测主诉与待测诊断是否一致，即本申请实施例提供的主诉与诊断一致性检测方法具有较高的检测效率和检测准确度，且通用性较强。

在本申请的另一实施例中，对上述实施例中的“步骤S101：获取与待测诊断的目标类别匹配的主诉样本集合”进行介绍。

获取与待测诊断的目标类别匹配的主诉样本集合的过程可以包括：从预先构建的、与多个不同类别分别匹配的主诉样本集合中，获取与待测诊断的目标类别匹配的主诉样本集合。

示例性的，预先构建与“高血压”匹配的主诉样本集合、与“心脏病” 匹配的主诉样本集合、与“高血糖”匹配的主诉样本集合等等，假设待测诊断为“高血压I型”，则待测诊断的目标类别为“高血压”，则与待测诊断的目标类别匹配的主诉样本集合即为与“高血压”匹配的主诉样本集合。

接下来对构建与多个不同类别分别匹配的主诉样本集合的具体过程进行介绍。

构建与多个不同类别分别匹配的主诉样本集合的实现方式有多种：

在一种可能的实现方式中，构建与多个不同类别分别匹配的主诉样本集合的过程可以包括：根据预先构建的主诉样本总集中各主诉样本对应的诊断标签，对主诉样本总集中的主诉样本进行聚类，得到多个主诉样本集合；根据每个所述主诉样本集合中各主诉样本的诊断标签，确定每个所述主诉样本集合匹配的类别，得到与多个不同类别分别匹配的主诉样本集合。

其中，根据主诉样本总集中各主诉样本对应的诊断标签，对主诉样本总集中的主诉样本进行聚类的实现方式有多种：在一种可能的实现方式中，可将诊断标签相同的主诉样本聚为一类，比如，可将诊断标签均为“高血压I 型”的主诉样本聚为一类，将诊断标签均为“高血压II型”的主诉样本聚为一类；在另一种可能的实现方式中，可将诊断标签的类型相同的主诉样本聚为一类，比如，可将诊断标签为“高血压I型”、“高血压”、“高血压II 型”的主诉样本聚为一类。需要说明的是，第一种聚类方式对于类别的划分相比于第二种聚类方式更细，实际应用时选取何种聚类方式可根据主诉样本总集中的样本情况，以及对于待测主诉与待测诊断的检测精度要求确定。

需要说明的是，上述构建与多个不同类别分别匹配的主诉样本集合的方式比较适用于，主诉样本总集中每个主诉样本对应的诊断标签均标注正确的情况，即每个主诉样本对应的诊断标签为与该主诉样本一致的诊断。

然而，在某些时候，可能存在少量主诉样本的诊断标签标注错误的情况，在这种情况下，只根据主诉样本总集中各主诉样本对应的诊断标签进行聚类，会使得部分主诉样本无法划入正确类别的主诉样本集合中，如图2a所示，主诉样本集合A的形状极其不规则，这是因为主诉样本201、主诉样本202和主诉样本203对应的诊断标签标注错误，导致这3个主诉样本被划入了错误类别的主诉样本集合中，有鉴于此，本申请实施例提供了另一种“构建与多个不同类别分别匹配的主诉样本集合”的实现方式，请参阅图3，示出了该实现方式的流程示意图，可以包括：

步骤S301：根据主诉样本总集中各主诉样本对应的诊断标签，对主诉样本总集中的主诉样本进行聚类，得到多个主诉样本集合。

本步骤的具体实现与上述“根据主诉样本总集中各主诉样本对应的诊断标签，对主诉样本总集中的主诉样本进行聚类”的实现方式相同，本实施例在此不作赘述。

步骤S302：确定多个主诉样本集合分别对应的聚类中心。

具体的，确定一主诉样本集合对应的聚类中心的方式可以为：将该主诉样本集合中所有主诉样本分别对应的语义表征向量求均值，求得的均值作为该主诉样本集合的聚类中心。

步骤S303：遍历多个主诉样本集合中的主诉样本：对于当前遍历到的主诉样本，根据该主诉样本分别与各个主诉样本集合的语义相似度，将该主诉样本归入正确类别的主诉样本集合中。

其中，根据该主诉样本分别与各个主诉样本集合的语义相似度，将该主诉样本归入正确类别的主诉样本集合中的过程可以包括：计算该主诉样本的语义表征向量分别与各个主诉样本集合对应的聚类中心的余弦相似度(余弦相似度作为语义相似度)，以得到该主诉样本分别与各个目标样本集合的语义相似度；将该主诉样本归入最大语义相似度对应的主诉样本集合中。

步骤S304：遍历完成后，确定各主诉样本集合分别对应的聚类中心。

步骤S305：判断聚类中心是否稳定，若是，则执行步骤S306，若否，则返回执行步骤S303。

若本次计算的聚类中心至少与前一次计算的聚类中心相同，则可认为聚类中心稳定。

步骤S306：将最终获得的多个主诉样本集合作为与多个不同类别分别匹配的主诉样本集合。

其中，与每个主诉样本集匹配的类别根据该主诉样本集合中主诉样本对应的诊断标签确定。示例性的，一主诉样本集合中主诉样本对应的诊断标签有“高血压”、“高血压I型”、“高血压II型”，则可将与该主诉样本集合匹配的类别确定为“高血压”。

上述实现方式首先按诊断标签对主诉样本总集中的主诉样本进行初步聚类，接着，在初步聚类的基础上，从语义角度出发，对主诉样本重新聚类，以将错误归类的主诉样本归入正确类别的主诉样本集合中，如图2b所示，图 2a中错误归类的主诉样本201和主诉样本202被归入了正确类别的主诉样本集合B中，图2a中错误归类的主诉样本203被归入了正确类别的主诉样本集合D中。经由上述的步骤S301～S306可将主诉样本总集中的每个主诉样本划入正确类别的主诉样本集合中。

上述实施例提到，在获得与待测诊断的目标类别匹配的主诉样本集合后，可确定待测主诉的语义表征向量和主诉样本集合的语义表征向量，进而根据定待测主诉的语义表征向量和主诉样本集合的语义表征向量确定待测主诉与主诉样本集合的语义相似度，在本申请的另一实施例中，对“确定待测主诉的语义表征向量”的过程进行介绍。

请参阅图4，示出了确定待测主诉的语义表征向量的流程示意图，可以包括：

步骤S401：根据预先构建的词图，以及预先确定的、词图中各个词分别对应的特征向量，确定待测主诉中各个词分别对应的特征向量。

具体的，对待测主诉进行分词处理，以获得待测主诉中的各个词，然后根据词图和词图中各个词分别对应的特征向量，获取待测主诉中的各个词分别对应的特征向量。

其中，预先构建词图，以及预先确定词图中各个词分别对应的特征向量的过程可以包括：

步骤a1、对构建的主诉样本总集中的各主诉样本进行分词和去重处理，由得到的词组成语料库。

比如，可将某医院的电子病历中的主诉提取出来组成主诉样本总集，然后对主诉样本总集中的各主诉样本进行分词和去重处理，以得到语料库。

步骤a2、根据语料库以及语料库中任意两个词的共现情况构建词图。

其中，词图以语料库中的各个词为节点，节点间的连线表示，基于两个节点对应的词对在语料库中的共现情况所确定的词对间存在联系。

需要说明的是，任意两个词的共现情况可通过两个词的共现率表征，其中，两个词的共现率指的是两个词共同出现在一个句子中的概率，两个词的共现率的计算方式为：主诉样本总集中同时包含这两个词的句子的数量除以主诉样本总集中的句子总数。

若两个词的共现率大于或等于预设的共现率阈值，则确定这两个词是共现的，即说明这两个词有联系，若两个词的共现率小于预设的共现率阈值，则确定这两个词不是共现的，即说明这两个词没有联系。

在构建词图时，以语料库中的各个词为节点，对于任意两个节点而言，若通过共现率确定两个节点是共现的，则在两个节点之间连接一条边，如此可获得由节点和边组成的词图。

步骤a3、根据词图和词图中各个词的词向量，确定词图中各个词分别对应的特征向量。

在一种可能的实现方式中，可利用图卷积网络GCN、词图以及词图中各个词的词向量，确定词图中的各个词分别对应的特征向量。

具体的，首先将词图和词图中各个词的词向量输入图卷积网络GCN，获得图卷积网络GCN第一次输出的、词图中各个词对应的特征向量，然后再将词图和图卷积网络GCN第一次输出的、词图中各个词对应的特征向量输入 GCN，获得GCN第二次输出的、词图中各个词对应的特征向量，将词图和图卷积网络GCN第二次输出的、词图中各个词对应的特征向量输入图卷积网络 GCN，…以此类推，直至达到预设的迭代次数，或者词图中各个词对应的特征向量满足要求。步骤S501中的“词图中各个词的词向量”为图卷积网络 GCN最后一次的输出。

需要说明的是，步骤a3中的“词图中各个词分别对应的特征向量”是在整个词图(或者说是在语料库)的基础上学习构建的，因此，其包含了全局信息。

步骤S402：根据待测主诉中各个词分别对应的特征向量，确定待测主诉中各个词分别对应的权重，并根据待测主诉中各个词分别对应的权重和特征向量，确定所述待测主诉的语义表征向量。

可选的，可利用注意力模型(Self-Attention模型)和待测主诉中各个词分别对应的特征向量，确定待测主诉中各个词分别对应的权重，并根据待测主诉中各个词分别对应的权重和特征向量，确定待测主诉的语义表征向量。

具体的，待测主诉中各个词分别对应的特征向量输入注意力模型，注意力模型会根据待测主诉中各个词分别对应的特征向量，确定待测主诉中各个词分别对应的权重，然后将待测主诉中各个词分别对应的特征向量根据对应的权重加权求和，加权求和后得到的向量即为待测主诉的语义表征向量。需要说明的是，待测主诉的语义表征向量同时包含了全局信息和局部信息，其中局部信息是从待测主诉学习到的信息。

需要说明的是，上述提及的主诉样本的语义表征向量也采用上述方式确定。

前述内容中提到，待测主诉与主诉样本集合的语义相似度根据待测主诉的语义表征向量和与待测诊断的目标类别匹配的主诉样本集合(以下将“与待测诊断的目标类别匹配的主诉样本集合”简称为“目标主诉样本集合”) 的语义表征向量确定，也就是说，确定待测主诉的语义表征向量和目标主诉样本集合的语义表征向量的目的是确定待测主诉与目标主诉样本集合的语义相似度，进而根据待测主诉与目标主诉样本集合的语义相似度确定待测主诉与待测诊断的一致性。可以理解的是，若要能够准确地确定待测主诉与待测诊断的一致性，需要获得能够反映待测主诉与主诉样本集合真实语义相似程度的语义相似度，若要获得能够反映待测主诉与主诉样本集合真实相似程度的语义相似度，除了需要获得能够较好表征待测主诉语义的语义特征向量外，还需要获得能够比较合适地表征主诉样本集合语义的语义表征向量。

在一种可能的实现方式中，可将目标主诉样本集合的中心向量作为目标主诉样本集合的语义表征向量，但是，目标主诉样本集合可能存在样本分布均匀的情况以及样本分布不均匀的情况，请参阅图5a，图5a中的各主诉样本集合中的样本分布均比较均匀，图5b中的主诉样本集合A分布不均匀，对于分布均匀的主诉样本集合而言，采用主诉样本集合的中心向量作为主诉样本集合的语义表征向量比较合适，因为对于一主诉X而言，通过主诉X的语义表征向量和主诉样本集合的中心向量计算的语义相似度能够反映主诉X与主诉样本集合的真实相似情况，但是，对于分布不均匀的主诉样本集合而言，采用主诉样本集合的中心向量作为主诉样本集合的语义表征向量并不合适，因为通过主诉X的语义表征向量和主诉样本集合的中心向量计算的语义相似度并不能反映主诉X与主诉样本集合的真实相似情况，如图5b所示，主诉X 与主诉样本集合A的相似度大于主诉X与主诉样本集合B的相似度，但是，实际上主诉X属于主诉样本集合B。

有鉴于此，本申请提供了一种确定目标主诉样本集合的语义表征向量的优选实现方式，请参阅图6，示出了该实现方式的流程示意图，可以包括：

步骤S601：获取目标主诉样本集合的离散度。

其中，目标主诉样本集合的离散度能够反映目标主诉样本集合中主诉样本的差异和主诉样本的分布。

需要说明的是，目标主诉样本集合的离散度可预先确定，即在构建出与不同类别分别匹配的主诉样本集合后，可确定每个主诉样本集合的离散度，当对待测主诉和待测诊断进行一致性检测时，直接将目标主诉样本集合的离散度获取过来即可，当然，也可在对待测主诉和待测诊断进行一致性检测时，再确定目标主诉样本集合的离散度，为了提高对待测主诉和待测诊断进行一致性检测的效率，优选为第一种。

可以理解的是，一样本集合中样本的差异越大，则该样本集合的信息量越多，相应的，该样本集合的信息熵越大，反之，该主诉样本集合中样本的差异越小，则该样本集合的信息量越小，该样本集合的信息熵越小，基于此，可通过目标主诉样本集合的信息熵来衡量目标主诉样本集合中样本的差异情况；一个样本集合中的样本分布越均匀，则该样本集合的方差越小，反之，该样本集合中的样本分布越不均匀，则该样本集合的方差越大，基于此，可通过目标主诉样本集合的方差衡量目标主诉样本集合中样本的分布情况。

基于上述分析，本申请提出了确定目标主诉样本集合的离散度的实现方式：确定目标主诉样本集合的信息熵和方差，根据目标主诉样本集合的信息熵和方差确定目标主诉样本集合的离散度。具体的，可通过下式确定目标主诉样本集合离散度：

其中，{X}表示目标主诉样本集合，Dispersion({X})表示目标主诉样本集合的离散度，Entropy({X})表示目标主诉样本集合的信息熵，Variance({X}) 为目标主诉样本集合的方差。

步骤S602：根据目标主诉样本集合的离散度，确定主诉样本集合的语义表征向量。

目标主诉样本集合的离散度越大，说明目标主诉样本集合中的样本差异越大、分布越不均匀，反之，目标主诉样本集合的离散度越小，说明目标主诉样本集合中的样本差异越小、分布越均匀。

在获得目标主诉样本集合的离散度，将其与预设的离散度阈值进行比较：若目标主诉样本集合的离散度大于离散度阈值，则说明目标主诉样本集合中的样本差异较大、样本分布不均匀，确定目标主诉样本集合的语义表征向量为目标主诉样本集合的边缘向量(表征目标主诉样本集合边缘的向量)；若目标主诉样本集合的离散度小于离散度阈值，则说明目标主诉样本集合中的样本差异较小、样本分布均匀，确定目标主诉样本集合的语义表征向量为目标主诉样本集合的中心向量(表征目标主诉样本集合中心的向量)；若目标主诉样本集合的离散度等于离散度阈值，则确定目标主诉样本集合的语义表征向量为目标主诉样本集合的中心向量和边缘向量。

其中，目标主诉样本集合的中心向量可通过对目标主诉样本集合中所有主诉样本分别对应的语义表征向量求均值得到；目标主诉样本集合的边缘向量可通过如下方式确定：

从目标主诉样本集合中，确定与待测主诉的语义相似度最大的M个主诉样本，确定M个主诉样本的中心向量，作为目标主诉样本集合的边缘向量。具体的，对于目标主诉样本集合中的每个主诉样本，根据待测主诉的语义表征向量与该主诉样本的语义表征向量，确定待测主诉与该主诉样本的语义相似度(比如可以为两个向量的余弦相似度)，以得到待测主诉分别与目标主诉样本集合中各个主诉样本的语义相似度，将目标主诉样本集合中的主诉样本按语义相似度从大到小的顺序排序，获得前M个主诉样本，确定前M个主诉样本的中心向量作为目标主诉样本集合的边缘向量。其中，M可根据实际情况设定。

经由上述实施例可获得待测主诉的语义表征向量，以及目标主诉样本集合的语义表征向量，接下来，需要根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量，确定待测主诉与目标主诉样本集的语义相似度。在本申请的另一实施例中，对根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量，确定待测主诉与目标主诉样本集的语义相似度的过程进行介绍。

前述内容提到，根据离散度的不同，目标主诉集合的语义表征向量可以存在三种情况，本实施例分情况对根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量，确定待测主诉与目标主诉样本集的语义相似度的过程进行说明：

情况a、目标主诉样本集合的语义表征向量为目标主诉样本集合的中心向量。

根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量，确定待测主诉与目标主诉样本集的语义相似度的过程包括：根据待测主诉的语义表征向量和目标主诉样本集合的中心向量，确定待测主诉与主诉样本集合中心的相似度。

具体的，可计算待测主诉的语义表征向量与目标主诉样本集合的中心向量的余弦相似度和/或欧式距离，用以表征待测主诉与目标主诉样本集合中心的相似度。

其中，待测主诉的语义表征向量Y与目标主诉样本集合的中心向量Vec的余弦相似度metric_cos＜Y,Vec＞可通过下式计算：

上式中的Y_i表示Y的第i个分量，Vec_i表示Vec的第i个分量，||Y||表示取向量Y的2范数，||Vec||表示取向量Vec的2范数。

待测主诉的语义表征向量Y与目标主诉样本集合的中心向量Vec的欧式距离metric_Euc＜Y,Vec＞可通过下式计算：

其中，y_i为Y的第i个元素，vec_i为Vec的第i个元素。通过上式(3)可获得待测主诉与目标主诉样本集合在空间分布中的远近程度。

考虑到通过上式(3)获得的欧式距离为(0，+∞)这一个范围的值，其与余弦相似度不在一个范围(余弦相似度为(0,1)这一范围的值)，为了使欧式距离与余弦相似度在一个范围，将上式(3)调整为下式：

情况b、目标主诉样本集合的语义表征向量为目标主诉样本集合的边缘向量。

根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量，确定待测主诉与目标主诉样本集的语义相似度的过程包括：根据待测主诉的语义表征向量和主诉样本集合的边缘向量，确定待测主诉与主诉样本集合边缘的相似度。

同样的，可计算待测主诉的语义表征向量与目标主诉样本集合的边缘向量的余弦相似度和/或欧式距离，用以表征待测主诉与目标主诉样本集合边缘的相似度。待测主诉的语义表征向量与目标主诉样本集合的边缘向量的余弦相似度和/或欧式距离的计算方式可参见上式(2)和(4)，只需要将上式(2)和(4) 中的中心向量替换为边缘向量即可。

情况c、主诉样本集合的语义表征向量为主诉样本集合的中心向量和边缘向量。

根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量，确定待测主诉与目标主诉样本集的语义相似度的过程包括：根据待测主诉的语义表征向量和目标主诉样本集合的中心向量，确定待测主诉与目标主诉样本集合中心的相似度，并根据待测主诉的语义表征向量和目标主诉样本集合的边缘向量，确定待测主诉与目标主诉样本集合边缘的相似度。

同样的，可计算待测主诉的语义表征向量与主诉样本集合的中心向量的余弦相似度和/或欧式距离，用以表征待测主诉与主诉样本集合中心的相似度；可计算待测主诉的语义表征向量与目标主诉样本集合的边缘向量的余弦相似度和/或欧式距离，用以表征待测主诉与目标主诉样本集合边缘的相似度。

需要说明的是，余弦相似度(余弦相似度反映的是两个向量的夹角)和欧式距离(欧式距离反映的是待测主诉与主诉样本集合在空间分布中的远近情况)是两个不同维度上的相似度表征，为了能够提升主诉与诊断的一致性检测效果，本实施例优选为同时使用余弦相似度和欧式距离来表征相似度。也就是说，对于情况a，最终会获得metric_cos＜Y,Vec＞和metric_Euc＜Y,Vec＞，对于情况b，最终会获得metric_cos＜Y,Veb＞和metric_Euc＜Y,Veb＞(Veb为目标样本集合的边缘向量)，对于情况c，最终会获得metric_cos<Y，Vec>、metric_Euc＜Y,Vec＞、metric_cos＜Y,Veb＞和metric_Euc＜Y,Veb＞。

在获得待测主诉与目标主诉样本集合的语义相似度后，可根据待测主诉与目标主诉样本集合的语义相似度，确定待测主诉与待测诊断的一致性得分，进而根据待测主诉与待测诊断的一致性得分，确定待测主诉与待测诊断是否一致。

具体的，对于上述的情况a，待测主诉与待测诊断的一致性得分Score_a可通过下式确定：

对于上述的情况b，待测主诉与待测诊断的一致性得分Score_b可通过下式确定：

对于上述的情况c，待测主诉与待测诊断的一致性得分Score_c可通过下式确定：

在获得待测主诉与待测诊断的一致性得分后，可将待测主诉与待测诊断的一致性得分与预设的得分阈值进行比较：若待测主诉与待测诊断的得分大于或等于预设的得分阈值，则确定待测主诉与待测诊断一致；若待测主诉与待测诊断的得分大于或小于预设的得分阈值，则确定待测主诉与待测诊断不一致。

本申请实施例提供的主诉与诊断一致性检测方法能够自动对待测主诉与待测诊断进行一致性检测，且具有较高的检测效率、较高的检测准确度以及较强通用性。

本申请实施例还提供了一种主诉与诊断一致性检测装置，下面对本申请实施例提供的主诉与诊断的一致性检测装置进行描述，下文描述的主诉与诊断一致性检测装置与上文描述的主诉与诊断一致性检测方法可相互对应参照。

请参阅图7，示出了本申请实施例提供的一种主诉与诊断一致性检测装置的结构示意图，该装置可以包括：主诉样本集合获取模块701、语义相似度确定模块702和一致性确定模块703。

主诉样本集合获取模块701，用于获取与待测诊断的目标类别匹配的主诉样本集合。

其中，所述主诉样本集合中包含，能够推导出所述目标类别的诊断的主诉样本。

语义相似度确定模块702，用于确定所述待测主诉与所述主诉样本集合的语义相似度。

一致性确定模块703，用于根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断是否一致。

本申请实施例提供的主诉与诊断一致性检测装置能够自动对待测主诉与待测诊断进行一致性检测，该检测方法由于不需要人工参与，因此避免了人工参与所带来的问题(人工成本较高、只能对部分病历进行抽检、病历中遗漏的缺陷较多等)，并且，由于主诉样本集合与待测诊断的目标类别匹配，且主诉样本集合由包含能够推导出目标类别的诊断的主诉样本组成，因此，通过待测诊断与主诉样本集合的相似度能够准确判别出待测主诉与待测诊断是否一致，即本申请实施例提供的主诉与诊断一致性检测装置具有较高的检测效率和检测准确度，且通用性较强。

在一种可能的实现方式中，上述实施例中的主诉样本集合获取模块801，具体用于从预先构建的、与多个不同类别分别匹配的主诉样本集合中，获取与所述待测诊断的目标类别匹配的主诉样本集合。

在一种可能的实现方式中，上述实施例提供的主诉与诊断一致性检测装置还可以包括：样本集合构建模块。

样本集合构建模块包括：第一构建子模块。

第一构建子模块，用于根据构建的主诉样本总集中各主诉样本分别对应的诊断标签，对所述主诉样本总集中的主诉样本进行聚类，得到多个主诉样本集合，将聚类得到的多个主诉样本集合作为所述与多个不同类别分别匹配的主诉样本集合，其中，与每个主诉样本集合匹配的类别根据该主诉样本集合中各主诉样本分别对应的诊断标签确定。

在一种可能的实现方式中，上述的样本集合构建模块还可以包括：第二构建子模块。

第二构建子模块，用于确定聚类得到的多个主诉样本集合分别对应的聚类中心；遍历多个主诉样本集合中的主诉样本：对于当前遍历到的主诉样本，根据该主诉样本分别与各个主诉样本集合的语义相似度，将该主诉样本归入正确类别的主诉样本集合中；遍历完成后，确定各主诉样本集合分别对应的聚类中心；若聚类中心稳定，则将最终获得的多个主诉样本集合作为所述与多个不同类别分别匹配的主诉样本集合，若聚类中心不稳定，则返回执行所述遍历多个主诉样本集合中的主诉样本，直至聚类中心。

在一种可能的实现方式中，上述实施例中的语义相似度确定模块802可以包括：主诉语义表征子模块、样本集合表征子模块和语义相似度确定子模块。

主诉语义表征子模块，用于确定所述待测主诉的语义表征向量。

主诉样本集合表征子模块，用于确定所述主诉样本集合的语义表征向量。

语义相似度确定子模块，用于根据所述待测主诉的语义表征向量，以及所述主诉样本集合的语义表征向量，确定所述待测主诉与所述主诉样本集合的语义相似度。

在一种可能的实现方式中，主诉语义表征子模块，具体用于根据预先构建的词图，以及预先确定的、所述词图中各个词分别对应的特征向量，确定所述待测主诉中各个词分别对应的特征向量；根据所述待测主诉中各个词分别对应的特征向量，确定所述待测主诉中各个词分别对应的权重，并根据所述待测主诉中各个词分别对应的权重和特征向量，确定所述待测主诉的语义表征向量。

在一种可能的实现方式中，上述实施例提供的装置还可以包括：词图构建及词特征向量确定模块。

词图构建及词特征向量确定模块包括：语料库构建子模块、词图构建子模块和词特征向量确定子模块。

语料库构建子模块，用于对构建的主诉样本总集中的各主诉样本进行分词和去重处理，由得到的词组成语料库。

词图构建子模块，用于根据所述语料库以及所述语料库中任意两个词的共现情况构建词图。

其中，所述词图以所述语料库中的各个词为节点，且能够反映与所述语料库中的每个词有联系的词。

词特征向量确定子模块，用于根据所述词图和所述语料库中各个词的词向量，确定所述词图中各个词分别对应的特征向量。

在一种可能的实现方式中，上述的样本集合表征子模块，具体用于获取所述主诉样本集合的离散度，根据所述主诉样本集合的离散度，确定所述主诉样本集合的语义表征向量。其中，所述主诉样本集合的离散度能够反映所述主诉样本集合中主诉样本的差异和主诉样本的分布。

在一种可能的实现方式中，上述的样本集合表征子模块在根据所述主诉样本集合的离散度，确定所述主诉样本集合的语义表征向量时，具体用于若所述主诉样本集合的离散度大于预设的离散度阈值，则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量，其中，所述主诉样本集合的边缘向量根据所述待测主诉的语义表征向量和所述主诉样本集合中各主诉样本的语义表征向量确定；若所述主诉样本集合的离散度小于所述离散度阈值，则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量，其中，所述主诉样本集合的中心向量根据所述主诉样本集合中各主诉样本的语义表征向量确定；若所述主诉样本集合的离散度等于所述离散度阈值，则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和边缘向量。

在一种可能的实现方式中，上述的语义相似度确定子模块，具体用于若所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量，则根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量，确定所述待测主诉与所述主诉样本集合边缘的相似度；若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量，则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量，确定所述待测主诉与所述主诉样本集合中心的相似度；若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和所述边缘向量，则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量，确定所述待测主诉与所述主诉样本集合中心的相似度，并根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量，确定所述待测主诉与所述主诉样本集合边缘的相似度。

在一种可能的实现方式中，上述实施例中的一致性确定模块，具体用于根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断的一致性得分；根据所述待测主诉与所述待测诊断的一致性得分，确定所述待测主诉与所述待测诊断是否一致。

本申请实施例还提供了一种主诉与诊断的一致性检测设备，请参阅图8，示出了该检测设备的结构示意图，该检测设备可以包括：至少一个处理器801，至少一个通信接口802，至少一个存储器803和至少一个通信总线804；

在本申请实施例中，处理器801、通信接口802、存储器803、通信总线804 的数量为至少一个，且处理器801、通信接口802、存储器803通过通信总线804 完成相互间的通信；

处理器801可能是一个中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器 (non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

确定所述待测主诉与所述主诉样本集合的语义相似度；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

确定所述待测主诉与所述主诉样本集合的语义相似度；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种主诉与诊断一致性检测方法，其特征在于，包括：

确定待测主诉与所述主诉样本集合的语义相似度；

2.根据权利要求1所述的主诉与诊断一致性检测方法，所述获取与待测诊断的目标类别匹配的主诉样本集合，包括：

3.根据权利要求1所述的主诉与诊断一致性检测方法，其特征在于，所述确定待测主诉与所述主诉样本集合的语义相似度，包括：

4.根据权利要求3所述的主诉与诊断一致性检测方法，其特征在于，所述确定所述待测主诉的语义表征向量，包括：

5.根据权利要求4所述的主诉与诊断一致性检测方法，其特征在于，预先构建所述词图，以及预先确定所述词图中各个词分别对应的特征向量，包括：

6.根据权利要求3所述的主诉与诊断一致性检测方法，其特征在于，所述确定所述主诉样本集合的语义表征向量，包括：

获取所述主诉样本集合的离散度，其中，所述主诉样本集合的离散度能够反映所述主诉样本集合中主诉样本的差异和分布；

7.根据权利要求6所述的主诉与诊断一致性检测方法，其特征在于，所述根据所述主诉样本集合的离散度，确定所述主诉样本集合的语义表征向量，包括：

8.根据权利要求7所述的主诉与诊断一致性检测方法，其特征在于，所述根据所述待测主诉的语义表征向量，以及所述主诉样本集合的语义表征向量，确定所述待测主诉与所述主诉样本集合的语义相似度，包括：

9.根据权利要求1所述的主诉与诊断一致性检测方法，其特征在于，所述根据所述待测主诉与所述主诉样本集合的语义相似度，确定所述待测主诉与所述待测诊断是否一致，包括：

10.一种主诉与诊断一致性检测装置，其特征在于，包括：主诉样本集合获取模块、语义相似度确定模块和一致性确定模块；

11.一种主诉与诊断一致性检测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的主诉与诊断一致性检测方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的主诉与诊断一致性检测方法的各个步骤。