CN115019958A - 一种病例异常检测方法及设备 - Google Patents

一种病例异常检测方法及设备 Download PDF

Info

Publication number
CN115019958A
CN115019958A CN202210664662.3A CN202210664662A CN115019958A CN 115019958 A CN115019958 A CN 115019958A CN 202210664662 A CN202210664662 A CN 202210664662A CN 115019958 A CN115019958 A CN 115019958A
Authority
CN
China
Prior art keywords
symptom
fre
items
result
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210664662.3A
Other languages
English (en)
Inventor
徐泽宽
骆冰清
夏彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hanbo Network Technology Co ltd
Original Assignee
Nanjing Hanbo Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hanbo Network Technology Co ltd filed Critical Nanjing Hanbo Network Technology Co ltd
Priority to CN202210664662.3A priority Critical patent/CN115019958A/zh
Publication of CN115019958A publication Critical patent/CN115019958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种病例异常检测方法及设备。该方法包括基于症状提取模型从病例中提取症状集合,并将症状集合中的症状识别成症状实体及其对应的症状状态,对每一症状实体和症状状态进行文本情感分析获得正异常倾向结果;对症状相关的体检报告的各项指标进行异常检测,以获得每一症状的异常检测结果;判断正异常倾向结果与异常检测结果是否一致;基于判别模型获得体检报告的各项指标的判别结果,判断判别结果与诊断结果是否一致。若正异常倾向结果与异常检测结果不一致或判别结果与诊断结果不一致,则输出检测结果为病例异常,否则输出检测结果为病例正常。本发明为针对不同病种误诊情况的异常检测奠定理论和技术基础。

Description

一种病例异常检测方法及设备
技术领域
本发明涉及病例异常检测技术领域,具体涉及一种病例异常检测方法及设备。
背景技术
在2021年5月21日国家远程医疗与互联网医学中心和健康界联合发布了《2021中国互联网医院发展报告》,其中指出,近年来我国互联网医院发展较为迅速,服务模式逐步丰富,“互联网”和“医院”两大元素的融合进一步加速。
不论是心脏病、胃癌或是其他高发生率的疾病,它们都具有较高的研究价值。随着互联网的发展,医院更趋向于智能化建设。电子化存储的医学病例是一种十分宝贵的资源,电子医学病例的填报内容可以被再次利用,一定的异常检测和可解释性分析有助于医生诊断病情和深入研究病理。以往的异常病例判断更依赖于医生的专业能力,对病症进行分析,根据自己掌握的专业知识,对前来问诊的患者给出自己的判断;而对于致病因素复杂的病例,需要研讨商榷给出解释。当经验不足的医生面对没有充分把握的病况或者医生在疲劳状态下,面对患者刚刚做好的一份体检报告,对于病情的诊断可能会产生偏差,从而造成或大或小的误诊。用于存档的电子病例,包括医生给出的诊断结果、病症等,可以通过人工智能的方法,采用特定的处理流程,对诊断结果进核实。
现有技术具有以下缺陷:首先,现有技术只能预测某种具体病种的受伤部位或患病情况,不具有普适性;其次,现有技术给出的可解释性方案存在不够具体准确,如不具备时序特征等问题;最后,现有技术不能精确到医生对于病例误诊是由哪一部分病症误判而造成的。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种病例异常检测方法及设备。
为实现上述目的,在第一方面,本发明提供了一种病例异常检测方法,包括:
基于症状提取模型从病例中提取医生给出的症状集合,所述症状集合包括若干症状,并将所述症状识别成症状实体及其对应的症状状态;
对每一症状实体的症状状态分别进行文本情感分析,以获得每一症状实体的正异常倾向结果;
基于异常检测模型对体检报告的各项指标进行异常检测,以获得每一症状的异常检测结果;
判断每一症状实体的正异常倾向结果与异常检测结果是否一致;
基于判别模型对体检报告的各项指标进行判别,以获得判别结果;
判断所述判别结果与病例中的诊断结果是否一致;
若任一症状实体的正异常倾向结果与异常检测结果不一致或所述判别结果与病例中的诊断结果不一致,则输出检测结果为病例异常,否则输出检测结果为病例正常。
进一步的,还基于异常检测模型从每一症状实体获得支持度最高的可解释性序列;
将所述支持度最高的可解释性序列与利用专家知识预先构建的知识图谱进行对比,以判断所述支持度最高的可解释性序列与知识图谱是否一致,如不一致,则重构异常检测模型,并重新对每一症状实体进行异常检测。
进一步的,若所述支持度最高的可解释性序列与知识图谱一致,且经专家证实确认该症状实体的最佳可解释性序列可靠,对所述知识图谱进行知识融合。
进一步的,所述支持度最高的可解释性序列的获取方式如下:
导入单个病例样本经由随机森林模型预测为异常的决策树路径集合pathsab,其中,pathsab=[path0,path1,……pathm],每条路径pathx来自随机森林中不同的决策树,0≤x≤m,m为大于1的自然数;
对pathsab的特征使用FP-Growth算法挖掘频繁项集fre_items,所述频繁项集fre_items包括支持度support、具体项itemsets、长度length等信息,得到可解释性序列的雏形;
将fre_items按指定优先级排序,使用shap对该样本进行预测,获得各特征featurey的特征重要性,y为特征的序号,过滤掉fre_items中的不含有最重要特征的子集,然后根据异常路径间强弱联系更新fre_items中各特征值范围,再使用频繁模式下的PrefixSpan算法从该病例样本中抽取频繁子序列fre_subseqs,并对比fre_subseqs和fre_items中的特征,若无共同特征,则fre_items保持原序;否则,按照fre_subseqs中特征的顺序遍历找出两者间的共同特征放入新建的sort_index列表中,若sort_index长度为1,则fre_items保持原序;否则,根据sort_index调整fre_items中各特征顺序。
进一步的,根据异常路径间强弱联系更新fre_items中各特征值范围具体包括:
对排名靠前的若干fre_items分别进行初始化;
判断每一fre_items是否在相应的路径中,若不在,则直接过滤此路径,若在,则判断该fre_items中的特征是否在相应的路径中出现多次,若是,则将此路径中该特征的不同值取交集作为该特征的特征范围,否则,将初始化后的特征范围与上一次得到的特征范围取并集,若该过程产生冲突,则直接过滤此路径。
进一步的,对每一症状实体的症状状态分别进行文本情感分析具体包括:
根据每一症状实体的症状状态定义两个态度极性的词列表;
识别每一症状实体的每个症状状态的态度极性;
计算每一症状实体的所有症状状态两种态度极性出现的次数,若积极词出现次数大于消极词出现次数,则判断该症状实体的正异常倾向结果为正常,否则,判断该症状实体的正异常倾向结果为异常。
在第二方面,本发明提供了一种病例异常检测设备,包括:
提取模块,用以基于症状提取模型从病例中提取医生给出的症状集合,所述症状集合包括若干症状,并将所述症状识别成症状实体及其对应的症状状态;
情感分析模块,用以对每一症状实体的症状状态分别进行文本情感分析,以获得每一症状实体的正异常倾向结果;
异常检测模块,用以基于异常检测模型对体检报告的各项指标进行异常检测,以获得每一指标的异常检测结果;
第一比对模块,用以判断每一症状实体的正异常倾向结果与异常检测结果是否一致;
判别模块,用以基于判别模型对体检报告的各项指标进行判别,以获得判别结果;
第二比对模块,用以判断所述判别结果与病例中的诊断结果是否一致;
输出模块,用以在任一症状实体的正异常倾向结果与异常检测结果不一致或所述判别结果与病例中的诊断结果不一致时,输出检测结果为病例异常,否则输出检测结果为病例正常。
进一步的,所述异常检测模块还用以基于异常检测模型从每一症状实体获得支持度最高的可解释性序列;
还包括第三比对模块,用以将所述支持度最高的可解释性序列与利用专家知识预先构建的知识图谱进行对比,以判断所述支持度最高的可解释性序列与知识图谱是否一致,如不一致,则触发重构异常检测模型,并重新对每一症状实体进行异常检测。
进一步的,若所述支持度最高的可解释性序列与知识图谱一致,且经专家证实确认该症状实体的最佳可解释性序列可靠,则触发对所述知识图谱进行知识融合。
进一步的,所述支持度最高的可解释性序列的获取方式如下:
导入单个病例样本经由随机森林模型预测为异常的决策树路径集合pathsab,其中,pathsab=[path0,path1,……pathm],每条路径pathx来自随机森林中不同的决策树,0≤x≤m,m为大于1的自然数;
对pathsab的特征使用FP-Growth算法挖掘频繁项集fre_items,所述频繁项集fre_items包括支持度support、具体项itemsets、长度length等信息,得到可解释性序列的雏形;
将fre_items按指定优先级排序,使用shap对该样本进行预测,获得各特征featurey的特征重要性,y为特征的序号,过滤掉fre_items中的不含有最重要特征的子集,然后根据异常路径间强弱联系更新fre_items中各特征值范围,再使用频繁模式下的PrefixSpan算法从该病例样本中抽取频繁子序列fre_subseqs,并对比fre_subseqs和fre_items中的特征,若无共同特征,则fre_items保持原序;否则,按照fre_subseqs中特征的顺序遍历找出两者间的共同特征放入新建的sort_index列表中,若sort_index长度为1,则fre_items保持原序;否则,根据sort_index调整fre_items中各特征顺序。
进一步的,根据异常路径间强弱联系更新fre_items中各特征值范围具体包括:
对排名靠前的若干fre_items分别进行初始化;
判断每一fre_items是否在相应的路径中,若不在,则直接过滤此路径,若在,则判断该fre_items中的特征是否在相应的路径中出现多次,若是,则将此路径中该特征的不同值取交集作为该特征的特征范围,否则,将初始化后的特征范围与上一次得到的特征范围取并集,若该过程产生冲突,则直接过滤此路径。
进一步的,对每一症状实体的症状状态分别进行文本情感分析具体包括:
根据每一症状实体的症状状态定义两个态度极性的词列表;
识别每一症状实体的每个症状状态的态度极性;
计算每一症状实体的所有症状状态两种态度极性出现的次数,若积极词出现次数大于消极词出现次数,则判断该症状实体的正异常倾向结果为正常,否则,判断该症状实体的正异常倾向结果为异常。
有益效果:本发明通过从医生给出的病例中提取含有若干症状的症状集合,并将症状识别成症状实体及其对应的症状状态,然后对每一症状实体和症状状态进行文本情感分析获得正异常倾向结果,并与基于异常检测模型获得的每一指标的异常检测结果进行对比,可以检测是否存在小误诊现象。并通过将体检报告经过深度神经网络的训练结果与病例中医生的诊断结果对比,可以给出大误诊异常判别结果,最后综合小误诊和大误诊的判别结果来判断病例是否正常。同时利用支持度最高的可解释性序列与知识图谱的对比提升该异常检测模型的可信度,若没有小误诊情况的发生且该支持度最高的可解释性序列得到认可,即足够准确、合理,则进行知识融合,不断更新迭代知识图谱,从而得到一份宝贵的医学研究资源。本发明可以深化我国医学学术领域对于该病种病理学的研究,提高我国医疗建设水平,从而提升国民对于医疗救治的满意度和幸福感;为针对不同病种误诊情况的异常检测奠定理论和技术基础,对提高我国诊疗水平、推动“互联网+医疗”设想、改善国民健康状况具有重大而深远的意义。
附图说明
图1是基于NER的病症提取的流程图;
图2是病症异常检测的流程图;
图3是基于FP-Growth的可解释性序列提取流程图;
图4是对频繁项集增加时序属性的流程图;
图5是根据异常路径间强弱联系更新频繁项集中各特征值范围的流程图;
图6是诊断结果判别的流程图;
图7是对症状状态分别进行文本情感分析的流程图;
图8是本发明实施例的病例异常检测设备的原理框图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1至图7所示,本发明实施例提供了一种病例异常检测方法,其特征在于,包括:
基于症状提取模型从病例中提取医生给出的症状集合,症状集合包括若干症状,并将症状识别成症状实体及其对应的症状状态。电子病例中医生所写的症状经常以文本(即非结构化数据形式)呈现,因此,需要采用症状提取模型来挖掘病例中的可用信息实体。该方法可以充分利用病例这种非结构化数据资源,不遗漏任何一种医学方面的异常检测,为后续检测症状实体是否异常做数据支持。
具体可参见图1,首先,使用基于Attention方法的命名实体识别方法(Named-entity recognition,NER),即使用BERT+BiLSTM+CRF的模型来训练一个NER模型。使用具有更强文本特征表示能力的预训练模型BERT(Bidirectional Encoder Representationfrom Transformers,基于变换器的双向编码器)作为特征表示层,对大规模的文本数据训练,深度挖掘文本序列之间的潜在特征,结合BiLSTM(Bi-directional Long Short-TermMemory,双向长短是记忆网络模型)提取文本全局特征和局部特征,在BiLSTM网络的隐藏层后加一层线性层,即CRF(Conditional Random Fields,条件随机场),考虑标签序列全局信息,选择概率最大的实体。该基于Attention方法的NER有助于重点表示和高概率提取实体,最终将病例由非结构化数据转换为结构化数据。具体呈现形式为:症状集合包括若干症状,每个症状被识别为症状实体和症状状态。原始数据形式:症状集合={症状1,症状2,……,症状n};目标数据形式:症状i—>{症状实体i+症状状态1+症状状态2+……+症状状态g},1≤i≤n,n、g均为大于2的自然数。
参见图2,对每一症状实体的症状状态分别进行文本情感分析,以获得每一症状实体的正异常倾向结果。正异常倾向结果有两种,一种是正常,另一种是异常。参见图7,本发明采用的是基于规则的情感分析,具体的,对每一症状实体的症状状态分别进行文本情感分析包括:根据每一症状实体的症状状态定义两个态度极性(积极、消极)的词列表,识别每一症状实体的每个症状状态的态度极性。计算每一症状实体的所有症状状态两种态度极性出现的次数,若积极词出现次数大于消极词出现次数,则判断该症状实体的正异常倾向结果为正常,否则,判断该症状实体的正异常倾向结果为异常。
基于异常检测模型对体检报告的各项指标进行异常检测,以获得每一指标的异常检测结果。异常检测结果包括异常和正常。具体的,以体检报告为样本针对每个症状独立构建基于随机森林(Random Forest,RF)的异常检测模型,最终得到森林中得每棵树的训练结果和路径。若该树检测结果为异常,则将预测为异常的路径取出,放入到该病例样本的异常路径集合中;否则,不予考虑。
判断每一症状实体的正异常倾向结果与异常检测结果是否一致。当正异常倾向结果和异常检测结果均为正常或均为异常时,就判断为一致,否则判断为不一致。当出现不一致时,可视为出现小误诊现象。
医生对于症状集合中的所有症状的诊断是正确的,也不能说明就不存在误诊现象,还须从大方向上把握是否发生更加严重的误诊,即对于诊断结果的误诊,这是最为致命的错误。因此,本发明还对医生在病例中给出的诊断结果进行检测,从而在一定程度上规避大误诊风险。具体可参见图6,将病例中的体检报告的各项指标输入至判别模型中,基于判别模型对体检报告的各项指标进行判别,以获得判别结果。然后再将判别模型的输出结果与病例中的诊断结果进行对比,从而判断判别结果与病例中的诊断结果是否一致。具体的,为了充分利用结构化数据,即存档的体检报告,包括有限个指标项{指标1,指标2,指标3,……,指标j},j为大于3的自然数,使用Sigmoid激活函数+交叉熵损失函数+随机梯度下降算法训练一个深度神经网络(Deep Neural Networks,DNN)作为判别模型,可定义DNN输出大于0.7为异常,将新的体检报告输入其中,得到一个判别结果。然后,进行大误诊的判别。具体如下,将病例中的诊断结果与DNN给出的判别结果进行对比,若一致,则医生对于诊断结果的判断正确;否则,判断错误,发生大误诊。
综合以上小误诊和大误诊的判断结果,输出检测结果。具体的,若任一症状实体的正异常倾向结果与异常检测结果不一致或所述判别结果与病例中的诊断结果不一致,则输出检测结果为病例异常,否则输出检测结果为病例正常。在出现检测结果为病例异常时,可同时反馈最佳可解释性序列和医生做出的病因解释给相关人员,方便其及时纠正改错,加深其相关病种知识的积累,引起足够的重视,从而降低该病种的误诊率。
为了提高异常检测模型的可信度和完善知识图谱做准备,作为优选实施例,本发明还基于异常检测模型获取针对每一症状实体的支持度最高的可解释性序列,并将支持度最高的可解释性序列与利用专家知识预先构建的知识图谱进行对比,以判断支持度最高的可解释性序列与知识图谱是否一致,如不一致,则重构异常检测模型,并重新对每一症状实体进行异常检测。若支持度最高的可解释性序列与知识图谱一致,且经专家证实确认该症状实体的最佳可解释性序列可靠,对知识图谱进行知识融合。不断重复上述过程,直至病例中症状实体被检测完毕,从而不断更新迭代知识图谱。
参见图3和图4,上述支持度最高的可解释性序列优选基于FP-Growth提取,先得到一系列准确的、具体的、时序的可解释性序列,然后取支持度最高的可解释性序列为最佳可解释性序列,为进行模型可信度的判断和知识融合做准备。具体包括:导入单个病例样本经由随机森林模型预测为异常的决策树路径集合pathsab,其中,pathsab=[path0,path1,……pathm],每条路径pathx来自随机森林中不同的决策树,0≤x≤m,m为大于1的自然数。对pathsab的特征使用FP-Growth算法挖掘频繁项集fre_items,频繁项集fre_items包括支持度support、具体项itemsets、长度length等信息,得到可解释性序列的雏形。将fre_items按指定优先级排序,保证可解释性特征数目优先,弱化随机森林多棵决策树对可解释性的干扰。使用shap对该样本进行预测,获得各特征featurey的特征重要性,y为特征的序号,取值为大于0的自然数,根据特征的重要性可得到一个最重要特征,过滤掉fre_items中的不含有该最重要特征的子集,然后根据异常路径间强弱联系更新fre_items中各特征值范围,再使用频繁模式下的PrefixSpan算法从该病例样本中抽取频繁子序列fre_subseqs,并对比fre_subseqs和fre_items中的特征,若无共同特征,则fre_items保持原序;否则,按照fre_subseqs中特征的顺序遍历找出两者间的共同特征放入新建的sort_index列表中,若sort_index长度为1,则fre_items保持原序;否则,根据sort_index调整fre_items中各特征顺序。至此,可以将频繁子结构具有的时序属性赋予频繁项集fre_items,将原本无序的频繁项集特征按照时间排序,更加贴合医疗领域对于病症出现的先后顺序的一贯认知,最后一步优化可解释性方案。
参见图5,上述根据异常路径间强弱联系更新fre_items中各特征值范围具体包括:
对排名靠前的若干fre_items分别进行初始化。判断每一fre_items是否在相应的路径中,若不在,则直接过滤此路径,若在,则判断该fre_items中的特征是否在相应的路径中出现多次,若是,则将此路径中该特征的不同值取交集作为该特征的特征范围,否则,将初始化后的特征范围与上一次得到的特征范围取并集,若该过程产生冲突,则直接过滤此路径。以fre_items[0]=[feature0,feature1,feature2]为例说明,在初始化以后,该频繁项集的范围scope0={feature0:[0,inf],feature1:[0,inf],feature2:[0,inf]},inf为预设的范围上限,可取值为无穷大。然后判断fre_items[0]是否在path0中,若不在,则直接过滤此路径;若在,以特征feature0为例,则判断feature0是否在path0中出现多次。若是,则将此路径中该特征的不同值取交集得到feature0新的特征范围scope0_feature0_new;否则,与上一次得到的feature0的特征范围scope0_feature0_old取并集(若是第1遍迭代则取feature0的初始化值scope0_feature0)。若该过程产生冲突,则直接过滤此条路径path0。同理,对fre_items[0]中每个特征进行遍历判断。每次过滤路径pathx后,都需要重新更新fre_items。重复上述步骤直至遍历全部的异常路径pathsab
结合图1至图8,基于以上实施例,本领域技术人员可以轻易理解,本发明还提供了一种病例异常检测设备,包括提取模块1、情感分析模块2、异常检测模块3、第一比对模块4、判别模块5、第二比对模块6和输出模块7。
其中,提取模块1用以基于症状提取模型从病例中提取医生给出的症状集合,症状集合包括若干症状,并将症状识别成症状实体及其对应的症状状态。电子病例中医生所写的症状经常以文本(即非结构化数据形式)呈现,因此,需要采用症状提取模型来挖掘病例中的可用信息实体。该方法可以充分利用病例这种非结构化数据资源,不遗漏任何一种医学方面的异常检测,为后续检测病症实体是否异常做数据支持。
具体可参见图1,首先,使用基于Attention方法的命名实体识别方法(Named-entity recognition,NER),即使用BERT+BiLSTM+CRF的模型来训练一个NER模型。使用具有更强文本特征表示能力的预训练模型BERT(Bidirectional Encoder Representationfrom Transformers,基于变换器的双向编码器)作为特征表示层,对大规模的文本数据训练,深度挖掘文本序列之间的潜在特征,结合BiLSTM(Bi-directional Long Short-TermMemory,双向长短是记忆网络模型)提取文本全局特征和局部特征,在BiLSTM网络的隐藏层后加一层线性层,即CRF(Conditional Random Fields,条件随机场),考虑标签序列全局信息,选择概率最大的实体。该基于Attention方法的NER有助于重点表示和高概率提取实体,最终将病例由非结构化数据转换为结构化数据。具体呈现形式为:症状集合包括若干症状,每个症状被识别为症状实体和症状状态。原始数据形式:症状集合={症状1,症状2,……,症状n};目标数据形式:症状i—>{症状实体i+症状状态1+症状状态2+……+症状状态g},1≤i≤n,n、g均为大于2的自然数。
参见图2,情感分析模块2用以对每一症状实体和症状状态进行文本情感分析,以获得正异常倾向结果。正异常倾向结果有两种,一种是正常,另一种是异常。参见图7,本发明采用的是基于规则的情感分析,具体的,对每一症状实体的症状状态分别进行文本情感分析包括:根据每一症状实体的症状状态定义两个态度极性(积极、消极)的词列表,识别每一症状实体的每个症状状态的态度极性。计算每一症状实体的所有症状状态两种态度极性出现的次数,若积极词出现次数大于消极词出现次数,则判断该症状实体的正异常倾向结果为正常,否则,判断该症状实体的正异常倾向结果为异常。
异常检测模块3用以基于异常检测模型对体检报告的各项指标进行异常检测,以获得每一指标的异常检测结果。异常检测结果包括异常和正常。具体的,以体检报告为样本针对每个症状独立构建基于随机森林(Random Forest,RF)的异常检测模型,最终得到森林中得每棵树的训练结果和路径。若该树检测结果为异常,则将预测为异常的路径取出,放入到该病例样本的异常路径集合中;否则,不予考虑。
第一比对模块4用以判断每一症状实体的正异常倾向结果与异常检测结果是否一致。当正异常倾向结果和异常检测结果均为正常或均为异常时,就判断为一致,否则判断为不一致。当出现不一致时,可视为出现小误诊现象。
医生对于症状集合中的所有症状的诊断是正确的,也不能说明就不存在误诊现象,还须从大方向上把握是否发生更加严重的误诊,即对于诊断结果的误诊,这是最为致命的错误。因此,本发明还对医生在病例中给出的诊断结果进行检测,从而在一定程度上规避大误诊风险。具体可参见图6,将病例中的体检报告的各项指标输入至判别模型中,判别模块5基于判别模型对体检报告的各项指标进行判别,以获得判别结果。然后第二比对模块6再将判别模型的输出结果与病例中的诊断结果进行对比,从而判断判别结果与病例中的诊断结果是否一致。具体的,为了充分利用结构化数据,即存档的体检报告,包括有限个指标项{指标1,指标2,指标3,……,指标j},j为大于3的自然数,使用Sigmoid激活函数+交叉熵损失函数+随机梯度下降算法训练一个深度神经网络(Deep Neural Networks,DNN)作为判别模型,可定义DNN输出大于0.7为异常,将新的体检报告输入其中,得到一个判别结果。然后,进行大误诊的判别。具体如下,将病例中的诊断结果与DNN给出的判别结果进行对比,若一致,则医生对于诊断结果的判断正确;否则,判断错误,发生大误诊。
输出模块7用以综合以上小误诊和大误诊的判断结果,输出检测结果。具体的,若任一症状实体的正异常倾向结果与异常检测结果不一致或所述判别结果与病例中的诊断结果不一致,则输出检测结果为病例异常,否则输出检测结果为病例正常。在出现检测结果为病例异常时,可同时反馈最佳可解释性序列和医生做出的病症解释给相关人员,方便其及时纠正改错,加深其相关病种知识的积累,引起足够的重视,从而降低该病种的误诊率。
为了提高异常检测模型的可信度和完善知识图谱做准备,作为优选实施例,本发明的异常检测模块3还基于异常检测模型从每一症状实体获得支持度最高的可解释性序列,还包括第三比对模块8,第三比对模块8用以将支持度最高的可解释性序列与利用专家知识预先构建的知识图谱进行对比,以判断支持度最高的可解释性序列与知识图谱是否一致,如不一致,则重构异常检测模型,并重新对每一症状实体进行异常检测。若支持度最高的可解释性序列与知识图谱一致,且经专家证实确认该症状实体的最佳可解释性序列可靠,对知识图谱进行知识融合。不断重复上述过程,直至病例中病症实体被检测完毕,从而不断更新迭代知识图谱。
参见图3和图4,上述支持度最高的可解释性序列优选基于FP-Growth提取,先得到一系列准确的、具体的、时序的可解释性序列,然后取支持度最高的可解释性序列为最佳可解释性序列,为进行模型可信度的判断和知识融合做准备。具体包括:导入单个病例样本经由随机森林模型预测为异常的决策树路径集合pathsab,其中,pathsab=[path0,path1,……pathm],每条路径pathx来自随机森林中不同的决策树,0≤x≤m,m为大于1的自然数。对pathsab的特征使用FP-Growth算法挖掘频繁项集fre_items,频繁项集fre_items包括支持度support、具体项itemsets、长度length等信息,得到可解释性序列的雏形。将fre_items按指定优先级排序,保证可解释性特征数目优先,弱化随机森林多棵决策树对可解释性的干扰。使用shap对该样本进行预测,获得各特征featurey的特征重要性,y为特征的序号,取值为大于0的自然数,根据特征的重要性可得到一个最重要特征,过滤掉fre_items中的不含有该最重要特征的子集,然后根据异常路径间强弱联系更新fre_items中各特征值范围,再使用频繁模式下的PrefixSpan算法从该病例样本中抽取频繁子序列fre_subseqs,并对比fre_subseqs和fre_items中的特征,若无共同特征,则fre_items保持原序;否则,按照fre_subseqs中特征的顺序遍历找出两者间的共同特征放入新建的sort_index列表中,若sort_index长度为1,则fre_items保持原序;否则,根据sort_index调整fre_items中各特征顺序。至此,可以将频繁子结构具有的时序属性赋予频繁项集fre_items,将原本无序的频繁项集特征按照时间排序,更加贴合医疗领域对于病症出现的先后顺序的一贯认知,最后一步优化可解释性方案。
参见图5,上述根据异常路径间强弱联系更新fre_items中各特征值范围具体包括:
对排名靠前的若干fre_items分别进行初始化。判断每一fre_items是否在相应的路径中,若不在,则直接过滤此路径,若在,则判断该fre_items中的特征是否在相应的路径中出现多次,若是,则将此路径中该特征的不同值取交集作为该特征的特征范围,否则,将初始化后的特征范围与上一次得到的特征范围取并集,若该过程产生冲突,则直接过滤此路径。以fre_items[0]=[feature0,feature1,feature2]为例说明,在初始化以后,该频繁项集的范围scope0={feature0:[0,inf],feature1:[0,inf],feature2:[0,inf]},inf为预设的范围上限,可取值为无穷大。然后判断fre_items[0]是否在path0中,若不在,则直接过滤此路径;若在,以特征feature0为例,则判断feature0是否在path0中出现多次。若是,则将此路径中该特征的不同值取交集得到feature0新的特征范围scope0_feature0_new;否则,与上一次得到的feature0的特征范围scope0_feature0_old取并集(若是第1遍迭代则取feature0的初始化值scope0_feature0)。若该过程产生冲突,则直接过滤此条路径path0。同理,对fre_items[0]中每个特征进行遍历判断。每次过滤路径pathx后,都需要重新更新fre_items。重复上述步骤直至遍历全部的异常路径pathsab
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种病例异常检测方法,其特征在于,包括:
基于症状提取模型从病例中提取医生给出的症状集合,所述症状集合包括若干症状,并将所述症状识别成症状实体及其对应的症状状态;
对每一症状实体的症状状态分别进行文本情感分析,以获得每一症状实体的正异常倾向结果;
基于异常检测模型对体检报告的各项指标进行异常检测,以获得每一症状的异常检测结果;
判断每一症状实体的正异常倾向结果与异常检测结果是否一致;
基于判别模型对体检报告的各项指标进行判别,以获得判别结果;
判断所述判别结果与病例中的诊断结果是否一致;
若任一症状实体的正异常倾向结果与异常检测结果不一致或所述判别结果与病例中的诊断结果不一致,则输出检测结果为病例异常,否则输出检测结果为病例正常。
2.根据权利要求1所述的病例异常检测方法,其特征在于,还基于异常检测模型从每一症状实体获得支持度最高的可解释性序列;
将所述支持度最高的可解释性序列与利用专家知识预先构建的知识图谱进行对比,以判断所述支持度最高的可解释性序列与知识图谱是否一致,如不一致,则重构异常检测模型,并重新对每一症状实体进行异常检测。
3.根据权利要求2所述的病例异常检测方法,其特征在于,若所述支持度最高的可解释性序列与知识图谱一致,且经专家证实确认该症状实体的最佳可解释性序列可靠,对所述知识图谱进行知识融合。
4.根据权利要求2所述的病例异常检测方法,其特征在于,所述支持度最高的可解释性序列的获取方式如下:
导入单个病例样本经由随机森林模型预测为异常的决策树路径集合pathsab,其中,pathsab=[path0,path1,……pathm],每条路径pathx来自随机森林中不同的决策树,0≤x≤m,m为大于1的自然数;
对pathsab的特征使用FP-Growth算法挖掘频繁项集fre_items,所述频繁项集fre_items包括支持度support、具体项itemsets、长度length等信息,得到可解释性序列的雏形;
将fre_items按指定优先级排序,使用shap对该样本进行预测,获得各特征featurey的特征重要性,y为特征的序号,过滤掉fre_items中的不含有最重要特征的子集,然后根据异常路径间强弱联系更新fre_items中各特征值范围,再使用频繁模式下的PrefixSpan算法从该病例样本中抽取频繁子序列fre_subseqs,并对比fre_subseqs和fre_items中的特征,若无共同特征,则fre_items保持原序;否则,按照fre_subseqs中特征的顺序遍历找出两者间的共同特征放入新建的sort_index列表中,若sort_index长度为1,则fre_items保持原序;否则,根据sort_index调整fre_items中各特征顺序。
5.根据权利要求4所述的病例异常检测方法,其特征在于,根据异常路径间强弱联系更新fre_items中各特征值范围具体包括:
对排名靠前的若干fre_items分别进行初始化;
判断每一fre_items是否在相应的路径中,若不在,则直接过滤此路径,若在,则判断该fre_items中的特征是否在相应的路径中出现多次,若是,则将此路径中该特征的不同值取交集作为该特征的特征范围,否则,将初始化后的特征范围与上一次得到的特征范围取并集,若该过程产生冲突,则直接过滤此路径。
6.根据权利要求1所述的病例异常检测方法,其特征在于,对每一症状实体的症状状态分别进行文本情感分析具体包括:
根据每一症状实体的症状状态定义两个态度极性的词列表;
识别每一症状实体的每个症状状态的态度极性;
计算每一症状实体的所有症状状态两种态度极性出现的次数,若积极词出现次数大于消极词出现次数,则判断该症状实体的正异常倾向结果为正常,否则,判断该症状实体的正异常倾向结果为异常。
7.一种病例异常检测设备,其特征在于,包括:
提取模块,用以基于症状提取模型从病例中提取医生给出的症状集合,所述症状集合包括若干症状,并将所述症状识别成症状实体及其对应的症状状态;
情感分析模块,用以对每一症状实体的症状状态分别进行文本情感分析,以获得每一症状实体的正异常倾向结果;
异常检测模块,用以基于异常检测模型对体检报告的各项指标进行异常检测,以获得每一指标的异常检测结果;
第一比对模块,用以判断每一症状实体的正异常倾向结果与异常检测结果是否一致;
判别模块,用以基于判别模型对体检报告的各项指标进行判别,以获得判别结果;
第二比对模块,用以判断所述判别结果与病例中的诊断结果是否一致;
输出模块,用以在任一症状实体的正异常倾向结果与异常检测结果不一致或所述判别结果与病例中的诊断结果不一致时,输出检测结果为病例异常,否则输出检测结果为病例正常。
8.根据权利要求7所述的病例异常检测设备,其特征在于,所述异常检测模块还用以基于异常检测模型从每一症状实体获得支持度最高的可解释性序列;
还包括第三比对模块,用以将所述支持度最高的可解释性序列与利用专家知识预先构建的知识图谱进行对比,以判断所述支持度最高的可解释性序列与知识图谱是否一致,如不一致,则触发重构异常检测模型,并重新对每一症状实体进行异常检测。
9.根据权利要求8所述的病例异常检测设备,其特征在于,若所述支持度最高的可解释性序列与知识图谱一致,且经专家证实确认该症状实体的最佳可解释性序列可靠,则触发对所述知识图谱进行知识融合。
10.根据权利要求8所述的病例异常检测设备,其特征在于,所述支持度最高的可解释性序列的获取方式如下:
导入单个病例样本经由随机森林模型预测为异常的决策树路径集合pathsab,其中,pathsab=[path0,path1,……pathm],每条路径pathx来自随机森林中不同的决策树,0≤x≤m,m为大于1的自然数;
对pathsab的特征使用FP-Growth算法挖掘频繁项集fre_items,所述频繁项集fre_items包括支持度support、具体项itemsets、长度length等信息,得到可解释性序列的雏形;
将fre_items按指定优先级排序,使用shap对该样本进行预测,获得各特征featurey的特征重要性,y为特征的序号,过滤掉fre_items中的不含有最重要特征的子集,然后根据异常路径间强弱联系更新fre_items中各特征值范围,再使用频繁模式下的PrefixSpan算法从该病例样本中抽取频繁子序列fre_subseqs,并对比fre_subseqs和fre_items中的特征,若无共同特征,则fre_items保持原序;否则,按照fre_subseqs中特征的顺序遍历找出两者间的共同特征放入新建的sort_index列表中,若sort_index长度为1,则fre_items保持原序;否则,根据sort_index调整fre_items中各特征顺序。
11.根据权利要求10所述的病例异常检测设备,其特征在于,根据异常路径间强弱联系更新fre_items中各特征值范围具体包括:
对排名靠前的若干fre_items分别进行初始化;
判断每一fre_items是否在相应的路径中,若不在,则直接过滤此路径,若在,则判断该fre_items中的特征是否在相应的路径中出现多次,若是,则将此路径中该特征的不同值取交集作为该特征的特征范围,否则,将初始化后的特征范围与上一次得到的特征范围取并集,若该过程产生冲突,则直接过滤此路径。
12.根据权利要求7所述的病例异常检测设备,其特征在于,对每一症状实体的症状状态分别进行文本情感分析具体包括:
根据每一症状实体的症状状态定义两个态度极性的词列表;
识别每一症状实体的每个症状状态的态度极性;
计算每一症状实体的所有症状状态两种态度极性出现的次数,若积极词出现次数大于消极词出现次数,则判断该症状实体的正异常倾向结果为积极,否则,判断该症状实体的正异常倾向结果为异常。
CN202210664662.3A 2022-06-13 2022-06-13 一种病例异常检测方法及设备 Pending CN115019958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210664662.3A CN115019958A (zh) 2022-06-13 2022-06-13 一种病例异常检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210664662.3A CN115019958A (zh) 2022-06-13 2022-06-13 一种病例异常检测方法及设备

Publications (1)

Publication Number Publication Date
CN115019958A true CN115019958A (zh) 2022-09-06

Family

ID=83075517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210664662.3A Pending CN115019958A (zh) 2022-06-13 2022-06-13 一种病例异常检测方法及设备

Country Status (1)

Country Link
CN (1) CN115019958A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631820A (zh) * 2022-10-11 2023-01-20 浙江大学 一种乳腺肿瘤患者随访数据的快捷式处理方法
CN118116584A (zh) * 2024-04-23 2024-05-31 鼎泰(南京)临床医学研究有限公司 一种基于大数据的可调整医疗辅助诊断系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631820A (zh) * 2022-10-11 2023-01-20 浙江大学 一种乳腺肿瘤患者随访数据的快捷式处理方法
CN115631820B (zh) * 2022-10-11 2023-09-26 浙江大学 一种乳腺肿瘤患者随访数据的快捷式处理方法
CN118116584A (zh) * 2024-04-23 2024-05-31 鼎泰(南京)临床医学研究有限公司 一种基于大数据的可调整医疗辅助诊断系统及方法

Similar Documents

Publication Publication Date Title
Revathi et al. Early detection of cognitive decline using machine learning algorithm and cognitive ability test
US7630947B2 (en) Medical ontologies for computer assisted clinical decision support
Al Jarullah Decision tree discovery for the diagnosis of type II diabetes
US20220172841A1 (en) Methods of identifying individuals at risk of developing a specific chronic disease
WO2023078025A1 (zh) 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN115019958A (zh) 一种病例异常检测方法及设备
Liu et al. Predicting heart failure readmission from clinical notes using deep learning
CN107247881A (zh) 一种多模态智能分析方法及系统
Hripcsak et al. Mining complex clinical data for patient safety research: a framework for event discovery
CN112635011A (zh) 疾病诊断方法、疾病诊断系统和可读存储介质
CN108231146B (zh) 一种基于深度学习的医疗记录模型构建方法、系统及装置
WO2022060949A1 (en) Systems and methods for automatically identifying a candidate patient for enrollment in a clinical trial
CN110097975A (zh) 一种基于多模型融合的医院感染智能诊断方法及系统
CN116779190B (zh) 一种基于物联网的医疗平台用户随访管理系统及方法
CN110085314A (zh) 医学检验数据的智能分析方法、系统以及设备
Sankaranarayanan et al. A predictive approach for diabetes mellitus disease through data mining technologies
Yang et al. Disease prediction model based on bilstm and attention mechanism
Halpern et al. Clinical tagging with joint probabilistic models
Teng et al. Few-shot ICD coding with knowledge transfer and evidence representation
Srimedha et al. A comprehensive machine learning based pipeline for an accurate early prediction of sepsis in ICU
Hasan et al. Predicting the outcome of patient-provider communication sequences using recurrent neural networks and probabilistic models
Stempsey Applying Medical Knowledge: Diagnosing
Tyagi et al. NeuraHealth: an automated screening pipeline to detect undiagnosed cognitive impairment in electronic health records with deep learning and natural language processing
Boger Artificial neural networks methods for identification of the most relevant genes from gene expression array data
Hougham et al. Artificial Intelligence and Its Potential to Improve the Health of Older Adults

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination