CN111383769A - 主诉与诊断一致性检测方法、装置、设备及存储介质 - Google Patents
主诉与诊断一致性检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111383769A CN111383769A CN202010017803.3A CN202010017803A CN111383769A CN 111383769 A CN111383769 A CN 111383769A CN 202010017803 A CN202010017803 A CN 202010017803A CN 111383769 A CN111383769 A CN 111383769A
- Authority
- CN
- China
- Prior art keywords
- main complaint
- sample set
- detected
- main
- complaint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims description 268
- 239000006185 dispersion Substances 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 39
- 238000009826 distribution Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 206010020772 Hypertension Diseases 0.000 description 18
- 230000007547 defect Effects 0.000 description 16
- 238000012512 characterization method Methods 0.000 description 14
- 238000010276 construction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007689 inspection Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000003908 quality control method Methods 0.000 description 4
- 206010011224 Cough Diseases 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010050296 Intervertebral disc protrusion Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种主诉与诊断一致性检测方法、装置、设备及存储介质,其中,方法包括:获取与待测诊断的目标类别匹配的主诉样本集合,其中,主诉样本集合中包含能够推导出目标类别的诊断的主诉样本;确定待测主诉与主诉样本集合的语义相似度;根据待测主诉与主诉样本集合的语义相似度确定待测主诉与待测诊断是否一致。本申请提供的主诉与诊断一致性检测方法能够自动、高效、准确地确定出待测主诉与待测诊断是否一致,且,本申提供的主诉与诊断一致性检测方法具有较强的通用性。
Description
技术领域
本申请涉及智能检测技术领域,尤其涉及一种主诉与诊断一致性检测方 法、装置、设备及存储介质。
背景技术
近些年来,我国医疗行业快速发展,医疗技术有显著提高,但是,电子 病历的整体质量并不高,即很多电子病历存在缺陷,电子病历存在的缺陷主 要分为形式缺陷和内涵缺陷两种,其中,形式缺陷如错别字、字段中字符长 度过短等,内涵缺陷如主诉与诊断不一致、现病史与诊断不一致等。形式缺 陷和内涵缺陷的存在严重影响电子病历的质量,情况严重可能导致医患纠纷 等医疗事故的发生。
主诉是病历中重要的字段,其是医生根据病人对病症的描述进行总结和 概述得到。主诉主要包含症状及症状的持续时间等内容,主诉是医生得出诊 断的重要参考依据,因此,主诉的内容与诊断的内容应该相辅相成,即主诉 与诊断应一致,例如,主诉内容为“咳嗽、咳痰、发烧3天”,诊断内容为“急性 上呼吸道感染”,反之,若主诉内容与诊断内容无关或者矛盾,则说明主诉与 诊断不一致,例如,主诉内容为“咳嗽、咳痰、发烧3天”,诊断内容为“腰间盘 突出”,主诉与诊断不一致是电子病历中严重的内涵缺陷。
现有技术中,主诉与诊断是否一致的检测方法主要为人工检测方法,由 于人工检测方法的检测人员通常为专职医师,且人工检测的人工投入量较大, 因此,人工成本较高,并且,人工检测方法只能对部分病历进行抽检,即, 可质检病历的数量小,病历中遗漏的缺陷较多,因此,不能有效地发现电子 病历中的缺陷。
发明内容
有鉴于此,本申请提供了一种主诉与诊断一致性检测方法、装置、设备 及存储介质,用以确定电子病历中的主诉与诊断是否一致,其技术方案如下:
一种主诉与诊断一致性检测方法,包括:
获取与待测诊断的目标类别匹配的主诉样本集合,其中,所述主诉样本 集合中包含,能够推导出所述目标类别的诊断的主诉样本;
确定待测主诉与所述主诉样本集合的语义相似度;
根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主 诉与所述待测诊断是否一致。
可选的,所述获取与待测诊断的目标类别匹配的主诉样本集合,包括:
从预先构建的、与多个不同类别分别匹配的主诉样本集合中,获取与所 述待测诊断的目标类别匹配的主诉样本集合;
其中,构建所述与多个不同类别分别匹配的主诉样本集合的过程,包括:
根据预置的主诉样本总集中各主诉样本分别对应的诊断标签,对所述主 诉样本总集中的主诉样本进行聚类,得到多个主诉样本集合;
根据每个所述主诉样本集合中各主诉样本的诊断标签,确定每个所述主 诉样本集合匹配的类别,得到与多个不同类别分别匹配的主诉样本集合。
可选的,所述构建所述与多个不同类别分别匹配的主诉样本集合,还包 括:
确定聚类得到的多个主诉样本集合分别对应的聚类中心;
遍历多个主诉样本集合中的主诉样本:对于当前遍历到的主诉样本,根 据该主诉样本分别与各个主诉样本集合的语义相似度,将该主诉样本归入正 确类别的主诉样本集合中;
遍历完成后,确定各主诉样本集合分别对应的聚类中心;
若聚类中心稳定,则将最终获得的多个主诉样本集合作为所述与多个不 同类别分别匹配的主诉样本集合,若聚类中心不稳定,则返回执行所述遍历 多个主诉样本集合中的主诉样本。
可选的,所述确定待测主诉与所述主诉样本集合的语义相似度,包括:
确定所述待测主诉的语义表征向量,并确定所述主诉样本集合的语义表 征向量;
根据所述待测主诉的语义表征向量,以及所述主诉样本集合的语义表征 向量,确定所述待测主诉与所述主诉样本集合的语义相似度。
可选的,所述确定所述待测主诉的语义表征向量,包括:
根据预先构建的词图,以及预先确定的、所述词图中各个词分别对应的 特征向量,确定所述待测主诉中各个词分别对应的特征向量;
根据所述待测主诉中各个词分别对应的特征向量,确定所述待测主诉中 各个词分别对应的权重,并根据所述待测主诉中各个词分别对应的权重和特 征向量,确定所述待测主诉的语义表征向量。
可选的,预先构建所述词图,以及预先确定所述词图中各个词分别对应 的特征向量,包括:
对构建的主诉样本总集中的各主诉样本进行分词和去重处理,由得到的 词组成语料库;
根据所述语料库以及所述语料库中任意两个词的共现情况构建词图,其 中,所述词图以所述语料库中的各个词为节点,节点间的连线表示,基于两 个节点对应的词对在语料库中的共现情况所确定的词对间存在联系;
根据所述词图和所述词图中各个词的词向量,确定所述词图中各个词分 别对应的特征向量。
可选的,所述确定所述主诉样本集合的语义表征向量,包括:
获取所述主诉样本集合的离散度,其中,所述主诉样本集合的离散度能 够反映所述主诉样本集合中主诉样本的差异和主诉样本的分布;
根据所述主诉样本集合的离散度,确定所述主诉样本集合的语义表征向 量。
可选的,所述根据所述主诉样本集合的离散度,确定所述主诉样本集合 的语义表征向量,包括:
若所述主诉样本集合的离散度大于预设的离散度阈值,则确定所述主诉 样本集合的语义表征向量为所述主诉样本集合的边缘向量,其中,所述主诉 样本集合的边缘向量为根据所述待测主诉的语义表征向量和所述主诉样本集 合中各主诉样本的语义表征向量确定的、能够表征所述主诉样本集合边缘的 向量;
若所述主诉样本集合的离散度小于所述离散度阈值,则确定所述主诉样 本集合的语义表征向量为所述主诉样本集合的中心向量,其中,所述主诉样 本集合的中心向量为根据所述主诉样本集合中各主诉样本的语义表征向量确 定的、能够表征所述主诉样本集合中心的向量;
若所述主诉样本集合的离散度等于所述离散度阈值,则确定所述主诉样 本集合的语义表征向量为所述主诉样本集合的中心向量和边缘向量。
可选的,所述根据所述待测主诉的语义表征向量,以及所述主诉样本集 合的语义表征向量,确定所述待测主诉与所述主诉样本集合的语义相似度, 包括:
若所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量, 则根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量,确定 所述待测主诉与所述主诉样本集合边缘的相似度;
若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量, 则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量,确定 所述待测主诉与所述主诉样本集合中心的相似度;
若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和 所述边缘向量,则根据所述待测主诉的语义表征向量和所述主诉样本集合的 中心向量,确定所述待测主诉与所述主诉样本集合中心的相似度,并根据所 述待测主诉的语义表征向量和所述主诉样本集合的边缘向量,确定所述待测 主诉与所述主诉样本集合边缘的相似度。
可选的,所述根据所述待测主诉与所述主诉样本集合的语义相似度,确 定所述待测主诉与所述待测诊断是否一致,包括:
根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主 诉与所述待测诊断的一致性得分;
根据所述待测主诉与所述待测诊断的一致性得分,确定所述待测主诉与 所述待测诊断是否一致。
一种主诉与诊断一致性检测装置,包括:主诉样本集合获取模块、语义 相似度确定模块和一致性确定模块;
所述主诉样本集合获取模块,用于获取与待测诊断的目标类别匹配的主 诉样本集合,其中,所述主诉样本集合中包含,能够推导出所述目标类别的 诊断的主诉样本;
所述语义相似度确定模块,用于确定所述待测主诉与所述主诉样本集合 的语义相似度;
所述一致性确定模块,用于根据所述待测主诉与所述主诉样本集合的语 义相似度,确定所述待测主诉与所述待测诊断是否一致。
一种主诉与诊断一致性检测设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的主诉与诊断一 致性检测方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器 执行时,实现上述任一项所述的主诉与诊断一致性检测方法的各个步骤。
经由上述方案可知,本申请提供的主诉与诊断一致性检测方法、装置、 设备及存储介质,首先获取与待测诊断的目标类别匹配的主诉样本集合,然 后确定待测主诉与主诉样本集合的语义相似度,最后根据待测主诉与主诉样 本集合的语义相似度,确定待测主诉与待测诊断是否一致。本申请提供的主 诉与诊断一致性检测方法能够自动对待测主诉与待测诊断进行一致性检测, 该检测方法由于不需要人工参与,因此避免了人工参与所带来的问题(人工 成本较高、只能对部分病历进行抽检、病历中遗漏的缺陷较多等),并且, 由于主诉样本集合与待测诊断的目标类别匹配,且主诉样本集合由包含能够 推导出目标类别的诊断的主诉样本组成,因此,通过待测诊断与主诉样本集 合的相似度能够准确判别出待测主诉与待测诊断是否一致,即本申请提供的 主诉与诊断一致性检测方法具有较高的检测效率和检测准确度,且通用性较 强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的主诉与诊断一致性检测方法的流程示意图;
图2a和图2b分别为本申请实施例提供的根据诊断标签对主诉样本总集中 各主诉样本签进行聚类所得到的聚类结果的示意图,以及将图2a中错误归类 的主诉样本归入正确类别的主诉样本集合的示意图;
图3为本申请实施例提供的构建与多个不同类别分别匹配的主诉样本集 合的一种优选实现方式的流程示意图;
图4为本申请实施例提供的确定待测主诉的语义表征向量的流程示意图;
图5a和图5b为本申请实施例提供的样本分布均匀的主诉样本集合以及样 本分布不均匀的主诉样本集合的示意图;
图6为本申请实施例提供的确定目标主诉样本集合的语义表征向量的一 种优选实现方式的流程示意图;
图7为本申请实施例提供的主诉与诊断一致性检测装置的结构示意图;
图8为本申请实施例提供的主诉与诊断一致性检测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,对主诉与病历进行一致性检测的方法为人工检测方法,具 体的,医院专门成立病历质量控制室(简称质控室),某些科室也配有相应 的质检员,如此形成了科室质检员初检,医院质控室二次抽检的两级病历人 工质检模式,即,病历完成后,由科室质检员对病历进行初级缺陷检查,后 经过医院质控室质检员按比例进行二次抽检。这种检测方式存在人工成本 高、无法对所有病历进行检测、病历中缺陷遗漏等问题。
鉴于上述人工检测方法存在的问题,本案发明人试图提出一种能够自动 对所有病历的主诉与诊断进行一致性检测的方法,起初的思路是:采用基于 规则的检测方法。具体的,首先由专业医生整理和确定可质检的诊断,并由 医生整理对应的知识与规则,基于可质检的诊断和其对应的知识与规则对病 历的主诉与诊断进行一致性检测。
但是,基于规则的检测方法存在缺陷:可质检的诊断种类有限,医学知 识规则整理难度大,并且知识规则严重依赖整理者的医学背景及知识积累, 即基于规则的检测方法普适性和可拓展性不强。
鉴于上述基于规则的检测方法存在的问题,本案发明人进一步进行了研 究,最终提出了一种效果较好的、能够自动对病历的主诉与诊断进行一致性 检测的方法,该评估方法可应用于具有数据处理能力的终端,也可应用于服 务器。接下来通过下述实施例对本申请提供的主诉与诊断一致性检测方法进 行介绍。
请参阅图1,示出了本申请实施例提供的主诉与诊断一致性检测方法的流 程示意图,该方法可以包括:
步骤S101:获取与待测诊断的目标类别匹配的主诉样本集合。
其中,主诉样本集合中包含能够推导出目标类别的诊断的主诉样本,也 就是说,与主诉样本集合中的每个主诉一致的诊断为目标类型的诊断。
示例性的,待测诊断为“高血压I型”,则步骤S101中的“主诉样本集 合”可以为与类型“高血压”匹配的主诉样本集合,即,与该主诉样本集合 中的每个主诉一致的诊断为“高血压”类型的诊断,比如“高血压”、“高 血压I型”、“高血压II型”等。
步骤S102:确定待测主诉与主诉样本集合的语义相似度。
具体的,可确定待测主诉的语义表征向量和主诉样本集合的语义表征向 量,进而根据待测主诉的语义表征向量和主诉样本集合的语义表征向量确定 待测主诉与主诉样本集合的语义相似度。
步骤S103:根据待测主诉与主诉样本集合的语义相似度,确定待测主诉 与待测诊断是否一致。
具体的,可根据待测主诉与主诉样本集合的语义相似度,确定待测主诉 与待测诊断的得分,进而根据待测主诉与待测诊断的得分确定待测主诉与待 测诊断是否一致。
本申请实施例提供的主诉与诊断一致性检测方法能够自动对待测主诉与 待测诊断进行一致性检测,该检测方法由于不需要人工参与,因此避免了人 工参与所带来的问题(人工成本较高、只能对部分病历进行抽检、病历中遗 漏的缺陷较多等),并且,由于主诉样本集合与待测诊断的目标类别匹配, 且主诉样本集合由包含能够推导出目标类别的诊断的主诉样本组成,因此, 通过待测诊断与主诉样本集合的相似度能够准确判别出待测主诉与待测诊断 是否一致,即本申请实施例提供的主诉与诊断一致性检测方法具有较高的检测效率和检测准确度,且通用性较强。
在本申请的另一实施例中,对上述实施例中的“步骤S101:获取与待测 诊断的目标类别匹配的主诉样本集合”进行介绍。
获取与待测诊断的目标类别匹配的主诉样本集合的过程可以包括:从预 先构建的、与多个不同类别分别匹配的主诉样本集合中,获取与待测诊断的 目标类别匹配的主诉样本集合。
示例性的,预先构建与“高血压”匹配的主诉样本集合、与“心脏病” 匹配的主诉样本集合、与“高血糖”匹配的主诉样本集合等等,假设待测诊 断为“高血压I型”,则待测诊断的目标类别为“高血压”,则与待测诊断的 目标类别匹配的主诉样本集合即为与“高血压”匹配的主诉样本集合。
接下来对构建与多个不同类别分别匹配的主诉样本集合的具体过程进行 介绍。
构建与多个不同类别分别匹配的主诉样本集合的实现方式有多种:
在一种可能的实现方式中,构建与多个不同类别分别匹配的主诉样本集 合的过程可以包括:根据预先构建的主诉样本总集中各主诉样本对应的诊断 标签,对主诉样本总集中的主诉样本进行聚类,得到多个主诉样本集合;根 据每个所述主诉样本集合中各主诉样本的诊断标签,确定每个所述主诉样本 集合匹配的类别,得到与多个不同类别分别匹配的主诉样本集合。
其中,根据主诉样本总集中各主诉样本对应的诊断标签,对主诉样本总 集中的主诉样本进行聚类的实现方式有多种:在一种可能的实现方式中,可 将诊断标签相同的主诉样本聚为一类,比如,可将诊断标签均为“高血压I 型”的主诉样本聚为一类,将诊断标签均为“高血压II型”的主诉样本聚为 一类;在另一种可能的实现方式中,可将诊断标签的类型相同的主诉样本聚 为一类,比如,可将诊断标签为“高血压I型”、“高血压”、“高血压II 型”的主诉样本聚为一类。需要说明的是,第一种聚类方式对于类别的划分 相比于第二种聚类方式更细,实际应用时选取何种聚类方式可根据主诉样本 总集中的样本情况,以及对于待测主诉与待测诊断的检测精度要求确定。
需要说明的是,上述构建与多个不同类别分别匹配的主诉样本集合的方 式比较适用于,主诉样本总集中每个主诉样本对应的诊断标签均标注正确的 情况,即每个主诉样本对应的诊断标签为与该主诉样本一致的诊断。
然而,在某些时候,可能存在少量主诉样本的诊断标签标注错误的情况, 在这种情况下,只根据主诉样本总集中各主诉样本对应的诊断标签进行聚类, 会使得部分主诉样本无法划入正确类别的主诉样本集合中,如图2a所示,主 诉样本集合A的形状极其不规则,这是因为主诉样本201、主诉样本202和 主诉样本203对应的诊断标签标注错误,导致这3个主诉样本被划入了错误 类别的主诉样本集合中,有鉴于此,本申请实施例提供了另一种“构建与多 个不同类别分别匹配的主诉样本集合”的实现方式,请参阅图3,示出了该实 现方式的流程示意图,可以包括:
步骤S301:根据主诉样本总集中各主诉样本对应的诊断标签,对主诉样 本总集中的主诉样本进行聚类,得到多个主诉样本集合。
本步骤的具体实现与上述“根据主诉样本总集中各主诉样本对应的诊断 标签,对主诉样本总集中的主诉样本进行聚类”的实现方式相同,本实施例 在此不作赘述。
步骤S302:确定多个主诉样本集合分别对应的聚类中心。
具体的,确定一主诉样本集合对应的聚类中心的方式可以为:将该主诉 样本集合中所有主诉样本分别对应的语义表征向量求均值,求得的均值作为 该主诉样本集合的聚类中心。
步骤S303:遍历多个主诉样本集合中的主诉样本:对于当前遍历到的主 诉样本,根据该主诉样本分别与各个主诉样本集合的语义相似度,将该主诉 样本归入正确类别的主诉样本集合中。
其中,根据该主诉样本分别与各个主诉样本集合的语义相似度,将该主 诉样本归入正确类别的主诉样本集合中的过程可以包括:计算该主诉样本的 语义表征向量分别与各个主诉样本集合对应的聚类中心的余弦相似度(余弦 相似度作为语义相似度),以得到该主诉样本分别与各个目标样本集合的语 义相似度;将该主诉样本归入最大语义相似度对应的主诉样本集合中。
步骤S304:遍历完成后,确定各主诉样本集合分别对应的聚类中心。
步骤S305:判断聚类中心是否稳定,若是,则执行步骤S306,若否,则 返回执行步骤S303。
若本次计算的聚类中心至少与前一次计算的聚类中心相同,则可认为聚 类中心稳定。
步骤S306:将最终获得的多个主诉样本集合作为与多个不同类别分别匹 配的主诉样本集合。
其中,与每个主诉样本集匹配的类别根据该主诉样本集合中主诉样本对 应的诊断标签确定。示例性的,一主诉样本集合中主诉样本对应的诊断标签 有“高血压”、“高血压I型”、“高血压II型”,则可将与该主诉样本集 合匹配的类别确定为“高血压”。
上述实现方式首先按诊断标签对主诉样本总集中的主诉样本进行初步聚 类,接着,在初步聚类的基础上,从语义角度出发,对主诉样本重新聚类, 以将错误归类的主诉样本归入正确类别的主诉样本集合中,如图2b所示,图 2a中错误归类的主诉样本201和主诉样本202被归入了正确类别的主诉样本 集合B中,图2a中错误归类的主诉样本203被归入了正确类别的主诉样本集 合D中。经由上述的步骤S301~S306可将主诉样本总集中的每个主诉样本划 入正确类别的主诉样本集合中。
上述实施例提到,在获得与待测诊断的目标类别匹配的主诉样本集合后, 可确定待测主诉的语义表征向量和主诉样本集合的语义表征向量,进而根据 定待测主诉的语义表征向量和主诉样本集合的语义表征向量确定待测主诉与 主诉样本集合的语义相似度,在本申请的另一实施例中,对“确定待测主诉 的语义表征向量”的过程进行介绍。
请参阅图4,示出了确定待测主诉的语义表征向量的流程示意图,可以包 括:
步骤S401:根据预先构建的词图,以及预先确定的、词图中各个词分别 对应的特征向量,确定待测主诉中各个词分别对应的特征向量。
具体的,对待测主诉进行分词处理,以获得待测主诉中的各个词,然后 根据词图和词图中各个词分别对应的特征向量,获取待测主诉中的各个词分 别对应的特征向量。
其中,预先构建词图,以及预先确定词图中各个词分别对应的特征向量 的过程可以包括:
步骤a1、对构建的主诉样本总集中的各主诉样本进行分词和去重处理, 由得到的词组成语料库。
比如,可将某医院的电子病历中的主诉提取出来组成主诉样本总集,然 后对主诉样本总集中的各主诉样本进行分词和去重处理,以得到语料库。
步骤a2、根据语料库以及语料库中任意两个词的共现情况构建词图。
其中,词图以语料库中的各个词为节点,节点间的连线表示,基于两个 节点对应的词对在语料库中的共现情况所确定的词对间存在联系。
需要说明的是,任意两个词的共现情况可通过两个词的共现率表征,其 中,两个词的共现率指的是两个词共同出现在一个句子中的概率,两个词的 共现率的计算方式为:主诉样本总集中同时包含这两个词的句子的数量除以 主诉样本总集中的句子总数。
若两个词的共现率大于或等于预设的共现率阈值,则确定这两个词是共 现的,即说明这两个词有联系,若两个词的共现率小于预设的共现率阈值, 则确定这两个词不是共现的,即说明这两个词没有联系。
在构建词图时,以语料库中的各个词为节点,对于任意两个节点而言, 若通过共现率确定两个节点是共现的,则在两个节点之间连接一条边,如此 可获得由节点和边组成的词图。
步骤a3、根据词图和词图中各个词的词向量,确定词图中各个词分别对 应的特征向量。
在一种可能的实现方式中,可利用图卷积网络GCN、词图以及词图中各 个词的词向量,确定词图中的各个词分别对应的特征向量。
具体的,首先将词图和词图中各个词的词向量输入图卷积网络GCN,获 得图卷积网络GCN第一次输出的、词图中各个词对应的特征向量,然后再将 词图和图卷积网络GCN第一次输出的、词图中各个词对应的特征向量输入 GCN,获得GCN第二次输出的、词图中各个词对应的特征向量,将词图和图 卷积网络GCN第二次输出的、词图中各个词对应的特征向量输入图卷积网络 GCN,…以此类推,直至达到预设的迭代次数,或者词图中各个词对应的特 征向量满足要求。步骤S501中的“词图中各个词的词向量”为图卷积网络 GCN最后一次的输出。
需要说明的是,步骤a3中的“词图中各个词分别对应的特征向量”是在 整个词图(或者说是在语料库)的基础上学习构建的,因此,其包含了全局 信息。
步骤S402:根据待测主诉中各个词分别对应的特征向量,确定待测主诉 中各个词分别对应的权重,并根据待测主诉中各个词分别对应的权重和特征 向量,确定所述待测主诉的语义表征向量。
可选的,可利用注意力模型(Self-Attention模型)和待测主诉中各个词 分别对应的特征向量,确定待测主诉中各个词分别对应的权重,并根据待测 主诉中各个词分别对应的权重和特征向量,确定待测主诉的语义表征向量。
具体的,待测主诉中各个词分别对应的特征向量输入注意力模型,注意 力模型会根据待测主诉中各个词分别对应的特征向量,确定待测主诉中各个 词分别对应的权重,然后将待测主诉中各个词分别对应的特征向量根据对应 的权重加权求和,加权求和后得到的向量即为待测主诉的语义表征向量。需 要说明的是,待测主诉的语义表征向量同时包含了全局信息和局部信息,其 中局部信息是从待测主诉学习到的信息。
需要说明的是,上述提及的主诉样本的语义表征向量也采用上述方式确 定。
前述内容中提到,待测主诉与主诉样本集合的语义相似度根据待测主诉 的语义表征向量和与待测诊断的目标类别匹配的主诉样本集合(以下将“与 待测诊断的目标类别匹配的主诉样本集合”简称为“目标主诉样本集合”) 的语义表征向量确定,也就是说,确定待测主诉的语义表征向量和目标主诉 样本集合的语义表征向量的目的是确定待测主诉与目标主诉样本集合的语义 相似度,进而根据待测主诉与目标主诉样本集合的语义相似度确定待测主诉 与待测诊断的一致性。可以理解的是,若要能够准确地确定待测主诉与待测诊断的一致性,需要获得能够反映待测主诉与主诉样本集合真实语义相似程 度的语义相似度,若要获得能够反映待测主诉与主诉样本集合真实相似程度 的语义相似度,除了需要获得能够较好表征待测主诉语义的语义特征向量外, 还需要获得能够比较合适地表征主诉样本集合语义的语义表征向量。
在一种可能的实现方式中,可将目标主诉样本集合的中心向量作为目标 主诉样本集合的语义表征向量,但是,目标主诉样本集合可能存在样本分布 均匀的情况以及样本分布不均匀的情况,请参阅图5a,图5a中的各主诉样本 集合中的样本分布均比较均匀,图5b中的主诉样本集合A分布不均匀,对于 分布均匀的主诉样本集合而言,采用主诉样本集合的中心向量作为主诉样本 集合的语义表征向量比较合适,因为对于一主诉X而言,通过主诉X的语义 表征向量和主诉样本集合的中心向量计算的语义相似度能够反映主诉X与主诉样本集合的真实相似情况,但是,对于分布不均匀的主诉样本集合而言, 采用主诉样本集合的中心向量作为主诉样本集合的语义表征向量并不合适, 因为通过主诉X的语义表征向量和主诉样本集合的中心向量计算的语义相似 度并不能反映主诉X与主诉样本集合的真实相似情况,如图5b所示,主诉X 与主诉样本集合A的相似度大于主诉X与主诉样本集合B的相似度,但是, 实际上主诉X属于主诉样本集合B。
有鉴于此,本申请提供了一种确定目标主诉样本集合的语义表征向量的 优选实现方式,请参阅图6,示出了该实现方式的流程示意图,可以包括:
步骤S601:获取目标主诉样本集合的离散度。
其中,目标主诉样本集合的离散度能够反映目标主诉样本集合中主诉样 本的差异和主诉样本的分布。
需要说明的是,目标主诉样本集合的离散度可预先确定,即在构建出与 不同类别分别匹配的主诉样本集合后,可确定每个主诉样本集合的离散度, 当对待测主诉和待测诊断进行一致性检测时,直接将目标主诉样本集合的离 散度获取过来即可,当然,也可在对待测主诉和待测诊断进行一致性检测时, 再确定目标主诉样本集合的离散度,为了提高对待测主诉和待测诊断进行一 致性检测的效率,优选为第一种。
可以理解的是,一样本集合中样本的差异越大,则该样本集合的信息量 越多,相应的,该样本集合的信息熵越大,反之,该主诉样本集合中样本的 差异越小,则该样本集合的信息量越小,该样本集合的信息熵越小,基于此, 可通过目标主诉样本集合的信息熵来衡量目标主诉样本集合中样本的差异情 况;一个样本集合中的样本分布越均匀,则该样本集合的方差越小,反之, 该样本集合中的样本分布越不均匀,则该样本集合的方差越大,基于此,可 通过目标主诉样本集合的方差衡量目标主诉样本集合中样本的分布情况。
基于上述分析,本申请提出了确定目标主诉样本集合的离散度的实现方 式:确定目标主诉样本集合的信息熵和方差,根据目标主诉样本集合的信息 熵和方差确定目标主诉样本集合的离散度。具体的,可通过下式确定目标主 诉样本集合离散度:
其中,{X}表示目标主诉样本集合,Dispersion({X})表示目标主诉样本 集合的离散度,Entropy({X})表示目标主诉样本集合的信息熵,Variance({X}) 为目标主诉样本集合的方差。
步骤S602:根据目标主诉样本集合的离散度,确定主诉样本集合的语义 表征向量。
目标主诉样本集合的离散度越大,说明目标主诉样本集合中的样本差异 越大、分布越不均匀,反之,目标主诉样本集合的离散度越小,说明目标主 诉样本集合中的样本差异越小、分布越均匀。
在获得目标主诉样本集合的离散度,将其与预设的离散度阈值进行比较: 若目标主诉样本集合的离散度大于离散度阈值,则说明目标主诉样本集合中 的样本差异较大、样本分布不均匀,确定目标主诉样本集合的语义表征向量 为目标主诉样本集合的边缘向量(表征目标主诉样本集合边缘的向量);若 目标主诉样本集合的离散度小于离散度阈值,则说明目标主诉样本集合中的 样本差异较小、样本分布均匀,确定目标主诉样本集合的语义表征向量为目 标主诉样本集合的中心向量(表征目标主诉样本集合中心的向量);若目标主诉样本集合的离散度等于离散度阈值,则确定目标主诉样本集合的语义表 征向量为目标主诉样本集合的中心向量和边缘向量。
其中,目标主诉样本集合的中心向量可通过对目标主诉样本集合中所有 主诉样本分别对应的语义表征向量求均值得到;目标主诉样本集合的边缘向 量可通过如下方式确定:
从目标主诉样本集合中,确定与待测主诉的语义相似度最大的M个主诉 样本,确定M个主诉样本的中心向量,作为目标主诉样本集合的边缘向量。 具体的,对于目标主诉样本集合中的每个主诉样本,根据待测主诉的语义表 征向量与该主诉样本的语义表征向量,确定待测主诉与该主诉样本的语义相 似度(比如可以为两个向量的余弦相似度),以得到待测主诉分别与目标主 诉样本集合中各个主诉样本的语义相似度,将目标主诉样本集合中的主诉样 本按语义相似度从大到小的顺序排序,获得前M个主诉样本,确定前M个主 诉样本的中心向量作为目标主诉样本集合的边缘向量。其中,M可根据实际 情况设定。
经由上述实施例可获得待测主诉的语义表征向量,以及目标主诉样本集 合的语义表征向量,接下来,需要根据待测主诉的语义表征向量和目标主诉 样本集合的语义表征向量,确定待测主诉与目标主诉样本集的语义相似度。 在本申请的另一实施例中,对根据待测主诉的语义表征向量和目标主诉样本 集合的语义表征向量,确定待测主诉与目标主诉样本集的语义相似度的过程 进行介绍。
前述内容提到,根据离散度的不同,目标主诉集合的语义表征向量可以 存在三种情况,本实施例分情况对根据待测主诉的语义表征向量和目标主诉 样本集合的语义表征向量,确定待测主诉与目标主诉样本集的语义相似度的 过程进行说明:
情况a、目标主诉样本集合的语义表征向量为目标主诉样本集合的中心向 量。
根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量,确 定待测主诉与目标主诉样本集的语义相似度的过程包括:根据待测主诉的语 义表征向量和目标主诉样本集合的中心向量,确定待测主诉与主诉样本集合 中心的相似度。
具体的,可计算待测主诉的语义表征向量与目标主诉样本集合的中心向 量的余弦相似度和/或欧式距离,用以表征待测主诉与目标主诉样本集合中心 的相似度。
其中,待测主诉的语义表征向量Y与目标主诉样本集合的中心向量Vec的 余弦相似度metriccos<Y,Vec>可通过下式计算:
上式中的Yi表示Y的第i个分量,Veci表示Vec的第i个分量,||Y||表示取 向量Y的2范数,||Vec||表示取向量Vec的2范数。
待测主诉的语义表征向量Y与目标主诉样本集合的中心向量Vec的欧式 距离metricEuc<Y,Vec>可通过下式计算:
其中,yi为Y的第i个元素,veci为Vec的第i个元素。通过上式(3)可获 得待测主诉与目标主诉样本集合在空间分布中的远近程度。
考虑到通过上式(3)获得的欧式距离为(0,+∞)这一个范围的值,其与 余弦相似度不在一个范围(余弦相似度为(0,1)这一范围的值),为了使欧 式距离与余弦相似度在一个范围,将上式(3)调整为下式:
情况b、目标主诉样本集合的语义表征向量为目标主诉样本集合的边缘向 量。
根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量,确 定待测主诉与目标主诉样本集的语义相似度的过程包括:根据待测主诉的语 义表征向量和主诉样本集合的边缘向量,确定待测主诉与主诉样本集合边缘 的相似度。
同样的,可计算待测主诉的语义表征向量与目标主诉样本集合的边缘向 量的余弦相似度和/或欧式距离,用以表征待测主诉与目标主诉样本集合边缘 的相似度。待测主诉的语义表征向量与目标主诉样本集合的边缘向量的余弦 相似度和/或欧式距离的计算方式可参见上式(2)和(4),只需要将上式(2)和(4) 中的中心向量替换为边缘向量即可。
情况c、主诉样本集合的语义表征向量为主诉样本集合的中心向量和边缘 向量。
根据待测主诉的语义表征向量和目标主诉样本集合的语义表征向量,确 定待测主诉与目标主诉样本集的语义相似度的过程包括:根据待测主诉的语 义表征向量和目标主诉样本集合的中心向量,确定待测主诉与目标主诉样本 集合中心的相似度,并根据待测主诉的语义表征向量和目标主诉样本集合的 边缘向量,确定待测主诉与目标主诉样本集合边缘的相似度。
同样的,可计算待测主诉的语义表征向量与主诉样本集合的中心向量的 余弦相似度和/或欧式距离,用以表征待测主诉与主诉样本集合中心的相似度; 可计算待测主诉的语义表征向量与目标主诉样本集合的边缘向量的余弦相似 度和/或欧式距离,用以表征待测主诉与目标主诉样本集合边缘的相似度。
需要说明的是,余弦相似度(余弦相似度反映的是两个向量的夹角)和 欧式距离(欧式距离反映的是待测主诉与主诉样本集合在空间分布中的远近 情况)是两个不同维度上的相似度表征,为了能够提升主诉与诊断的一致性 检测效果,本实施例优选为同时使用余弦相似度和欧式距离来表征相似度。 也就是说,对于情况a,最终会获得metriccos<Y,Vec>和metricEuc<Y,Vec>, 对于情况b,最终会获得metriccos<Y,Veb>和metricEuc<Y,Veb>(Veb为目标 样本集合的边缘向量),对于情况c,最终会获得metriccos<Y,Vec>、metricEuc<Y,Vec>、metriccos<Y,Veb>和metricEuc<Y,Veb>。
在获得待测主诉与目标主诉样本集合的语义相似度后,可根据待测主诉 与目标主诉样本集合的语义相似度,确定待测主诉与待测诊断的一致性得分, 进而根据待测主诉与待测诊断的一致性得分,确定待测主诉与待测诊断是否 一致。
具体的,对于上述的情况a,待测主诉与待测诊断的一致性得分Scorea可 通过下式确定:
对于上述的情况b,待测主诉与待测诊断的一致性得分Scoreb可通过下式 确定:
对于上述的情况c,待测主诉与待测诊断的一致性得分Scorec可通过下式 确定:
在获得待测主诉与待测诊断的一致性得分后,可将待测主诉与待测诊断 的一致性得分与预设的得分阈值进行比较:若待测主诉与待测诊断的得分大 于或等于预设的得分阈值,则确定待测主诉与待测诊断一致;若待测主诉与 待测诊断的得分大于或小于预设的得分阈值,则确定待测主诉与待测诊断不 一致。
本申请实施例提供的主诉与诊断一致性检测方法能够自动对待测主诉与 待测诊断进行一致性检测,且具有较高的检测效率、较高的检测准确度以及 较强通用性。
本申请实施例还提供了一种主诉与诊断一致性检测装置,下面对本申请 实施例提供的主诉与诊断的一致性检测装置进行描述,下文描述的主诉与诊 断一致性检测装置与上文描述的主诉与诊断一致性检测方法可相互对应参 照。
请参阅图7,示出了本申请实施例提供的一种主诉与诊断一致性检测装置 的结构示意图,该装置可以包括:主诉样本集合获取模块701、语义相似度确 定模块702和一致性确定模块703。
主诉样本集合获取模块701,用于获取与待测诊断的目标类别匹配的主诉 样本集合。
其中,所述主诉样本集合中包含,能够推导出所述目标类别的诊断的主 诉样本。
语义相似度确定模块702,用于确定所述待测主诉与所述主诉样本集合的 语义相似度。
一致性确定模块703,用于根据所述待测主诉与所述主诉样本集合的语义 相似度,确定所述待测主诉与所述待测诊断是否一致。
本申请实施例提供的主诉与诊断一致性检测装置能够自动对待测主诉与 待测诊断进行一致性检测,该检测方法由于不需要人工参与,因此避免了人 工参与所带来的问题(人工成本较高、只能对部分病历进行抽检、病历中遗 漏的缺陷较多等),并且,由于主诉样本集合与待测诊断的目标类别匹配, 且主诉样本集合由包含能够推导出目标类别的诊断的主诉样本组成,因此, 通过待测诊断与主诉样本集合的相似度能够准确判别出待测主诉与待测诊断 是否一致,即本申请实施例提供的主诉与诊断一致性检测装置具有较高的检测效率和检测准确度,且通用性较强。
在一种可能的实现方式中,上述实施例中的主诉样本集合获取模块801, 具体用于从预先构建的、与多个不同类别分别匹配的主诉样本集合中,获取 与所述待测诊断的目标类别匹配的主诉样本集合。
在一种可能的实现方式中,上述实施例提供的主诉与诊断一致性检测装 置还可以包括:样本集合构建模块。
样本集合构建模块包括:第一构建子模块。
第一构建子模块,用于根据构建的主诉样本总集中各主诉样本分别对应 的诊断标签,对所述主诉样本总集中的主诉样本进行聚类,得到多个主诉样 本集合,将聚类得到的多个主诉样本集合作为所述与多个不同类别分别匹配 的主诉样本集合,其中,与每个主诉样本集合匹配的类别根据该主诉样本集 合中各主诉样本分别对应的诊断标签确定。
在一种可能的实现方式中,上述的样本集合构建模块还可以包括:第二 构建子模块。
第二构建子模块,用于确定聚类得到的多个主诉样本集合分别对应的聚 类中心;遍历多个主诉样本集合中的主诉样本:对于当前遍历到的主诉样本, 根据该主诉样本分别与各个主诉样本集合的语义相似度,将该主诉样本归入 正确类别的主诉样本集合中;遍历完成后,确定各主诉样本集合分别对应的 聚类中心;若聚类中心稳定,则将最终获得的多个主诉样本集合作为所述与 多个不同类别分别匹配的主诉样本集合,若聚类中心不稳定,则返回执行所 述遍历多个主诉样本集合中的主诉样本,直至聚类中心。
在一种可能的实现方式中,上述实施例中的语义相似度确定模块802可 以包括:主诉语义表征子模块、样本集合表征子模块和语义相似度确定子模 块。
主诉语义表征子模块,用于确定所述待测主诉的语义表征向量。
主诉样本集合表征子模块,用于确定所述主诉样本集合的语义表征向量。
语义相似度确定子模块,用于根据所述待测主诉的语义表征向量,以及 所述主诉样本集合的语义表征向量,确定所述待测主诉与所述主诉样本集合 的语义相似度。
在一种可能的实现方式中,主诉语义表征子模块,具体用于根据预先构 建的词图,以及预先确定的、所述词图中各个词分别对应的特征向量,确定 所述待测主诉中各个词分别对应的特征向量;根据所述待测主诉中各个词分 别对应的特征向量,确定所述待测主诉中各个词分别对应的权重,并根据所 述待测主诉中各个词分别对应的权重和特征向量,确定所述待测主诉的语义 表征向量。
在一种可能的实现方式中,上述实施例提供的装置还可以包括:词图构 建及词特征向量确定模块。
词图构建及词特征向量确定模块包括:语料库构建子模块、词图构建子 模块和词特征向量确定子模块。
语料库构建子模块,用于对构建的主诉样本总集中的各主诉样本进行分 词和去重处理,由得到的词组成语料库。
词图构建子模块,用于根据所述语料库以及所述语料库中任意两个词的 共现情况构建词图。
其中,所述词图以所述语料库中的各个词为节点,且能够反映与所述语 料库中的每个词有联系的词。
词特征向量确定子模块,用于根据所述词图和所述语料库中各个词的词 向量,确定所述词图中各个词分别对应的特征向量。
在一种可能的实现方式中,上述的样本集合表征子模块,具体用于获取 所述主诉样本集合的离散度,根据所述主诉样本集合的离散度,确定所述主 诉样本集合的语义表征向量。其中,所述主诉样本集合的离散度能够反映所 述主诉样本集合中主诉样本的差异和主诉样本的分布。
在一种可能的实现方式中,上述的样本集合表征子模块在根据所述主诉 样本集合的离散度,确定所述主诉样本集合的语义表征向量时,具体用于若 所述主诉样本集合的离散度大于预设的离散度阈值,则确定所述主诉样本集 合的语义表征向量为所述主诉样本集合的边缘向量,其中,所述主诉样本集 合的边缘向量根据所述待测主诉的语义表征向量和所述主诉样本集合中各主 诉样本的语义表征向量确定;若所述主诉样本集合的离散度小于所述离散度 阈值,则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心 向量,其中,所述主诉样本集合的中心向量根据所述主诉样本集合中各主诉 样本的语义表征向量确定;若所述主诉样本集合的离散度等于所述离散度阈 值,则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向 量和边缘向量。
在一种可能的实现方式中,上述的语义相似度确定子模块,具体用于若 所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量,则根据 所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量,确定所述待 测主诉与所述主诉样本集合边缘的相似度;若所述主诉样本集合的语义表征 向量为所述主诉样本集合的中心向量,则根据所述待测主诉的语义表征向量 和所述主诉样本集合的中心向量,确定所述待测主诉与所述主诉样本集合中 心的相似度;若所述主诉样本集合的语义表征向量为所述主诉样本集合的中 心向量和所述边缘向量,则根据所述待测主诉的语义表征向量和所述主诉样 本集合的中心向量,确定所述待测主诉与所述主诉样本集合中心的相似度, 并根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量,确定 所述待测主诉与所述主诉样本集合边缘的相似度。
在一种可能的实现方式中,上述实施例中的一致性确定模块,具体用于 根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主诉与 所述待测诊断的一致性得分;根据所述待测主诉与所述待测诊断的一致性得 分,确定所述待测主诉与所述待测诊断是否一致。
本申请实施例还提供了一种主诉与诊断的一致性检测设备,请参阅图8, 示出了该检测设备的结构示意图,该检测设备可以包括:至少一个处理器801, 至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804 的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804 完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序 用于:
获取与待测诊断的目标类别匹配的主诉样本集合,其中,所述主诉样本 集合中包含,能够推导出所述目标类别的诊断的主诉样本;
确定所述待测主诉与所述主诉样本集合的语义相似度;
根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主 诉与所述待测诊断是否一致。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于 处理器执行的程序,所述程序用于:
获取与待测诊断的目标类别匹配的主诉样本集合,其中,所述主诉样本 集合中包含,能够推导出所述目标类别的诊断的主诉样本;
确定所述待测主诉与所述主诉样本集合的语义相似度;
根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主 诉与所述待测诊断是否一致。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包 括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括 没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种主诉与诊断一致性检测方法,其特征在于,包括:
获取与待测诊断的目标类别匹配的主诉样本集合,其中,所述主诉样本集合中包含,能够推导出所述目标类别的诊断的主诉样本;
确定待测主诉与所述主诉样本集合的语义相似度;
根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主诉与所述待测诊断是否一致。
2.根据权利要求1所述的主诉与诊断一致性检测方法,所述获取与待测诊断的目标类别匹配的主诉样本集合,包括:
从预先构建的、与多个不同类别分别匹配的主诉样本集合中,获取与所述待测诊断的目标类别匹配的主诉样本集合;
其中,构建所述与多个不同类别分别匹配的主诉样本集合的过程,包括:
根据预置的主诉样本总集中各主诉样本分别对应的诊断标签,对所述主诉样本总集中的主诉样本进行聚类,得到多个主诉样本集合;
根据每个所述主诉样本集合中各主诉样本的诊断标签,确定每个所述主诉样本集合匹配的类别,得到与多个不同类别分别匹配的主诉样本集合。
3.根据权利要求1所述的主诉与诊断一致性检测方法,其特征在于,所述确定待测主诉与所述主诉样本集合的语义相似度,包括:
确定所述待测主诉的语义表征向量,并确定所述主诉样本集合的语义表征向量;
根据所述待测主诉的语义表征向量,以及所述主诉样本集合的语义表征向量,确定所述待测主诉与所述主诉样本集合的语义相似度。
4.根据权利要求3所述的主诉与诊断一致性检测方法,其特征在于,所述确定所述待测主诉的语义表征向量,包括:
根据预先构建的词图,以及预先确定的、所述词图中各个词分别对应的特征向量,确定所述待测主诉中各个词分别对应的特征向量;
根据所述待测主诉中各个词分别对应的特征向量,确定所述待测主诉中各个词分别对应的权重,并根据所述待测主诉中各个词分别对应的权重和特征向量,确定所述待测主诉的语义表征向量。
5.根据权利要求4所述的主诉与诊断一致性检测方法,其特征在于,预先构建所述词图,以及预先确定所述词图中各个词分别对应的特征向量,包括:
对构建的主诉样本总集中的各主诉样本进行分词和去重处理,由得到的词组成语料库;
根据所述语料库以及所述语料库中任意两个词的共现情况构建词图,其中,所述词图以所述语料库中的各个词为节点,节点间的连线表示,基于两个节点对应的词对在语料库中的共现情况所确定的词对间存在联系;
根据所述词图和所述词图中各个词的词向量,确定所述词图中各个词分别对应的特征向量。
6.根据权利要求3所述的主诉与诊断一致性检测方法,其特征在于,所述确定所述主诉样本集合的语义表征向量,包括:
获取所述主诉样本集合的离散度,其中,所述主诉样本集合的离散度能够反映所述主诉样本集合中主诉样本的差异和分布;
根据所述主诉样本集合的离散度,确定所述主诉样本集合的语义表征向量。
7.根据权利要求6所述的主诉与诊断一致性检测方法,其特征在于,所述根据所述主诉样本集合的离散度,确定所述主诉样本集合的语义表征向量,包括:
若所述主诉样本集合的离散度大于预设的离散度阈值,则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量,其中,所述主诉样本集合的边缘向量为根据所述待测主诉的语义表征向量和所述主诉样本集合中各主诉样本的语义表征向量确定的、能够表征所述主诉样本集合边缘的向量;
若所述主诉样本集合的离散度小于所述离散度阈值,则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量,其中,所述主诉样本集合的中心向量为根据所述主诉样本集合中各主诉样本的语义表征向量确定的、能够表征所述主诉样本集合中心的向量;
若所述主诉样本集合的离散度等于所述离散度阈值,则确定所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和边缘向量。
8.根据权利要求7所述的主诉与诊断一致性检测方法,其特征在于,所述根据所述待测主诉的语义表征向量,以及所述主诉样本集合的语义表征向量,确定所述待测主诉与所述主诉样本集合的语义相似度,包括:
若所述主诉样本集合的语义表征向量为所述主诉样本集合的边缘向量,则根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量,确定所述待测主诉与所述主诉样本集合边缘的相似度;
若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量,则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量,确定所述待测主诉与所述主诉样本集合中心的相似度;
若所述主诉样本集合的语义表征向量为所述主诉样本集合的中心向量和所述边缘向量,则根据所述待测主诉的语义表征向量和所述主诉样本集合的中心向量,确定所述待测主诉与所述主诉样本集合中心的相似度,并根据所述待测主诉的语义表征向量和所述主诉样本集合的边缘向量,确定所述待测主诉与所述主诉样本集合边缘的相似度。
9.根据权利要求1所述的主诉与诊断一致性检测方法,其特征在于,所述根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主诉与所述待测诊断是否一致,包括:
根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主诉与所述待测诊断的一致性得分;
根据所述待测主诉与所述待测诊断的一致性得分,确定所述待测主诉与所述待测诊断是否一致。
10.一种主诉与诊断一致性检测装置,其特征在于,包括:主诉样本集合获取模块、语义相似度确定模块和一致性确定模块;
所述主诉样本集合获取模块,用于获取与待测诊断的目标类别匹配的主诉样本集合,其中,所述主诉样本集合中包含,能够推导出所述目标类别的诊断的主诉样本;
所述语义相似度确定模块,用于确定所述待测主诉与所述主诉样本集合的语义相似度;
所述一致性确定模块,用于根据所述待测主诉与所述主诉样本集合的语义相似度,确定所述待测主诉与所述待测诊断是否一致。
11.一种主诉与诊断一致性检测设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~9中任一项所述的主诉与诊断一致性检测方法的各个步骤。
12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9中任一项所述的主诉与诊断一致性检测方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010017803.3A CN111383769B (zh) | 2020-01-08 | 2020-01-08 | 主诉与诊断一致性检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010017803.3A CN111383769B (zh) | 2020-01-08 | 2020-01-08 | 主诉与诊断一致性检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111383769A true CN111383769A (zh) | 2020-07-07 |
CN111383769B CN111383769B (zh) | 2024-04-12 |
Family
ID=71217061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010017803.3A Active CN111383769B (zh) | 2020-01-08 | 2020-01-08 | 主诉与诊断一致性检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111383769B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883251A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 医疗误诊检测方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302779A (zh) * | 2015-10-23 | 2016-02-03 | 北京慧点科技有限公司 | 一种文本相似度比对方法及装置 |
JP2016122397A (ja) * | 2014-12-25 | 2016-07-07 | キヤノン株式会社 | 診断支援装置、診断支援方法及びプログラム |
CN108564177A (zh) * | 2018-04-25 | 2018-09-21 | 攀枝花学院 | 基于数据分布特征的保序学习机 |
US20190005026A1 (en) * | 2016-10-28 | 2019-01-03 | Boe Technology Group Co., Ltd. | Information extraction method and apparatus |
CN109697286A (zh) * | 2018-12-18 | 2019-04-30 | 众安信息技术服务有限公司 | 一种基于词向量的诊断标准化方法及装置 |
CN110136788A (zh) * | 2019-05-14 | 2019-08-16 | 清华大学 | 一种基于自动检测的病历质检方法、装置、设备及存储介质 |
US20190354422A1 (en) * | 2018-05-16 | 2019-11-21 | Nec Laboratories America, Inc. | Joint semantic and format similarity for large scale log retrieval |
CN110598200A (zh) * | 2018-06-13 | 2019-12-20 | 北京百度网讯科技有限公司 | 语义识别方法及装置 |
-
2020
- 2020-01-08 CN CN202010017803.3A patent/CN111383769B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016122397A (ja) * | 2014-12-25 | 2016-07-07 | キヤノン株式会社 | 診断支援装置、診断支援方法及びプログラム |
CN105302779A (zh) * | 2015-10-23 | 2016-02-03 | 北京慧点科技有限公司 | 一种文本相似度比对方法及装置 |
US20190005026A1 (en) * | 2016-10-28 | 2019-01-03 | Boe Technology Group Co., Ltd. | Information extraction method and apparatus |
CN108564177A (zh) * | 2018-04-25 | 2018-09-21 | 攀枝花学院 | 基于数据分布特征的保序学习机 |
US20190354422A1 (en) * | 2018-05-16 | 2019-11-21 | Nec Laboratories America, Inc. | Joint semantic and format similarity for large scale log retrieval |
CN110598200A (zh) * | 2018-06-13 | 2019-12-20 | 北京百度网讯科技有限公司 | 语义识别方法及装置 |
CN109697286A (zh) * | 2018-12-18 | 2019-04-30 | 众安信息技术服务有限公司 | 一种基于词向量的诊断标准化方法及装置 |
CN110136788A (zh) * | 2019-05-14 | 2019-08-16 | 清华大学 | 一种基于自动检测的病历质检方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
KHALID KHAWAJI: "Similarity Matching for Workflows in Medical Domain Using Topic Modeling", 《2018 IEEE WORLD CONGRESS ON SERVICES (SERVICES)》, 25 October 2018 (2018-10-25) * |
王景中;杨彬彬;何云华;: "基于多谓词语义框架的长短语文本相似度计算", 计算机工程与设计, no. 04, 16 April 2018 (2018-04-16) * |
郑金龙;穆大力;解芳;史亚坤;宫辉;李昊;连九峥;王越;朱萧;党军红;: "电子病历临床决策系统的建立与应用", no. 10 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883251A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 医疗误诊检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111383769B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Whale | Identification of program similarity in large populations | |
CN110928764B (zh) | 移动应用众包测试报告自动化评估方法及计算机存储介质 | |
KR102019207B1 (ko) | 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법 | |
Sinharay | Assessing convergence of the Markov chain Monte Carlo algorithms: A review | |
CN110472082B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
Zhang | Conditional covariance theory and detect for polytomous items | |
CA2749664A1 (en) | Methods and systems for automatic clustering of defect reports | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
CN111612038A (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
Argamon | Computational forensic authorship analysis: Promises and pitfalls | |
CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Sebti et al. | A new word sense similarity measure in WordNet | |
WO2023093116A1 (zh) | 企业的产业链节点确定方法、装置、终端及存储介质 | |
Shamir et al. | Leveraging pattern recognition consistency estimation for crowdsourcing data analysis | |
Boguslav et al. | Inter-annotator agreement and the upper limit on machine performance: evidence from biomedical natural language processing | |
CN107784069B (zh) | 一种用于智能诊断学生知识能力的方法 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN111383769B (zh) | 主诉与诊断一致性检测方法、装置、设备及存储介质 | |
Liu et al. | Identifying effortful individuals with mixture modeling response accuracy and response time simultaneously to improve item parameter estimation | |
CN111739599B (zh) | 一种教学病历生成方法和装置 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN112131354A (zh) | 答案筛选方法、装置、终端设备和计算机可读存储介质 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 | |
CN112926315B (zh) | 一种医疗术语自动标准化方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |