CN112365987B - 诊断数据异常检测方法、装置、计算机设备及存储介质 - Google Patents

诊断数据异常检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112365987B
CN112365987B CN202011161090.4A CN202011161090A CN112365987B CN 112365987 B CN112365987 B CN 112365987B CN 202011161090 A CN202011161090 A CN 202011161090A CN 112365987 B CN112365987 B CN 112365987B
Authority
CN
China
Prior art keywords
medical
candidate information
data
disease
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011161090.4A
Other languages
English (en)
Other versions
CN112365987A (zh
Inventor
唐蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011161090.4A priority Critical patent/CN112365987B/zh
Publication of CN112365987A publication Critical patent/CN112365987A/zh
Priority to PCT/CN2021/083622 priority patent/WO2021180242A1/zh
Application granted granted Critical
Publication of CN112365987B publication Critical patent/CN112365987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了诊断数据异常检测方法、装置、计算机设备及存储介质,属于智能医疗领域。本发明可将目标患者的诊断数据分别与预设医疗规则和医疗挖掘规则两种规则进行匹配,以得到两种候选信息,通过将两种候选信息进行融合以得到结合了医疗规则以及医疗挖掘规则的多维度的第三候选信息;采用疾病识别模型对诊断数据进行识别获取第四候选信息,提升了识别诊断数据的灵活性,且识别的速度快;通过结合第四候选信息和第三候选信息确定目标患者的疑似疾病信息,以便于根据疑似疾病信息判断诊断数据是否异常,从而达到快速有效确认误诊的目的。

Description

诊断数据异常检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及智能医疗领域,尤其涉及一种诊断数据异常检测方法、装置、计算机设备及存储介质。
背景技术
误诊是指医生由于各种原因,对病人给出错误的诊断。误诊的发生非常普遍,据调查数据显示,疾病的误诊率通常在30%左右。误诊会导致严重的后果,例如错误的治疗方案、病人治疗的延迟。所以,对误诊进行及时的检测是非常必要的。
现有的误诊检测方法是基于医生根据医学知识针对每种疾病编写医学规则对患者的诊断进行误诊检测,通过判断该次诊断的疾病是否满足该疾病对应的医学规则,如果不满足规则,则说明本次诊断存在误诊。然而,现有的误诊检测方法存在:医学规则是由医生根据医学知识整理得到的,耗费精力大、时间成本高、灵活性低、误诊检测的精度低等问题。
发明内容
针对现有的误诊检测方法灵活性差、检测精度低的问题,现提供一种旨在可提高误诊检测的灵活性以及检测精度的诊断数据异常检测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明提供一种诊断数据异常检测方法,包括:
获取目标患者的诊断数据;
将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息;
将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息;
将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息;
采用疾病识别模型对所述诊断数据进行识别获取第四候选信息;
对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常。
可选的,获取目标患者的诊断数据,包括:
接收用户终端发送的目标患者的医疗数据,所述医疗数据包括:目标患者的基本信息、目标疾病类型和多个医学实体;
提取所述医疗数据中的所述医学实体,生成所述诊断数据。
可选的,所述预设医疗规则为根据医学知识预先设定的规则,包括多条医疗规则,每一条所述医疗规则包括至少一个所述医学实体,每一条所述医疗规则对应一种疾病类型;
将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息,包括:
将所述诊断数据中的多个所述医学实体分别与所述预设医疗规则中的每一条所述医疗规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度;
提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第一候选信息。
可选的,将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息,之前还包括:
根据历史样本数据生成所述医疗挖掘规则:
所述历史样本数据包括多条历史医疗数据,每一条所述历史医疗数据包括历史患者的疾病类型和多个所述医学实体;
所述医疗挖掘规则包括多条挖掘规则,每一条所述挖掘规则包括至少一个所述医学实体,每一条所述挖掘规则对应一种疾病类型;
根据疾病类型对历史样本数据中的所述历史医疗数据进行分类,生成疾病类型集合;
采用频繁集挖掘算法对所述疾病类型集合中的所述历史医疗数据进行筛选,生成与疾病类型对应的挖掘规则。
可选的,将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息,包括:
将所述诊断数据中的多个所述医学实体分别与所述医疗挖掘规则中的每一条所述挖掘规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度;
提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第二候选信息。
可选的,将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息,包括:
根据所述第一候选信息中的疾病类型和所述第二候选信息中的疾病类型,对同一疾病类型在所述第一候选信息中对应的匹配度和在所述第二候选信息中对应的匹配度计算匹配平均值,生成包括疾病类型匹配平均值的所述第三候选信息。
可选的,所述第四候选信息包括疾病类型的匹配值;
对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常,包括:
对同一疾病类型在所述第三候选信息中对应的匹配平均值和在所述第四候选信息中对应的匹配值计算疑似值;
提取所述疑似值符合预设条件的疾病类型,生成所述疑似疾病信息;
将所述诊断数据中的所述目标疾病类型与所述疑似疾病信息中所述疾病类型进行匹配,若匹配,则表示所述诊断数据正常,若不匹配,则表示所述诊断数据异常。
为实现上述目的,本发明还提供一种诊断数据异常检测装置,包括:
获取单元,用于获取目标患者的诊断数据;
第一匹配单元,用于将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息;
第二匹配单元,用于将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息;
融合单元,用于将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息;
识别单元,用于采用疾病识别模型对所述诊断数据进行识别获取第四候选信息;
处理单元,用于对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的诊断数据异常检测方法、装置、计算机设备及存储介质,可将目标患者的诊断数据分别与预设医疗规则和医疗挖掘规则两种规则进行匹配,以得到两种候选信息,通过将两种候选信息进行融合以得到结合了医疗规则以及医疗挖掘规则的多维度的第三候选信息;采用疾病识别模型对诊断数据进行识别获取第四候选信息,提升了识别诊断数据的灵活性,且识别的速度快;通过结合第四候选信息和第三候选信息确定目标患者的疑似疾病信息,以便于根据疑似疾病信息判断诊断数据是否异常,从而达到快速有效确认误诊的目的。
附图说明
图1为本发明所述的诊断数据异常检测方法的一种实施例的流程图;
图2为本发明获取目标患者诊断数据的一种实施例的流程图;
图3为本发明获取第一候选信息的一种实施例的流程图;
图4为本发明根据历史样本数据生成所述医疗挖掘规则的一种实施例的流程图;
图5为本发明获取第二候选信息的一种实施例的流程图;
图6为对第三候选信息和第四候选信息进行融合以获取疑似疾病信息的一种实施例的流程图;
图7为本发明所述的诊断数据异常检测装置的一种实施例的模块图;
图8为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的诊断数据异常检测方法、装置、计算机设备及存储介质,适用于智能医疗业务领域。本发明可将目标患者的诊断数据分别与预设医疗规则和医疗挖掘规则两种规则进行匹配,以得到两种候选信息,通过将两种候选信息进行融合以得到结合了医疗规则以及医疗挖掘规则的多维度的第三候选信息;采用疾病识别模型对诊断数据进行识别获取第四候选信息,提升了识别诊断数据的灵活性,且识别的速度快;通过结合第四候选信息和第三候选信息确定目标患者的疑似疾病信息,以便于判断疑似疾病信息中是否包含诊断数据中的疾病类型,即鉴别诊断数据是否异常,若是,则表示诊断数据正常;若否,则表示诊断数据异常存在误诊,从而达到快速有效确认误诊的目的。
实施例一
请参阅图1,本实施例的一种诊断数据异常检测方法包括以下步骤:
S1.获取目标患者的诊断数据。
进一步地,参阅图2所示步骤S1可包括以下步骤:
S11.接收用户终端发送的目标患者的医疗数据,所述医疗数据包括:目标患者的基本信息、目标疾病类型和多个医学实体。
其中,目标患者的基本信息可包括:标识目标患者身份的编号(如:身份证、医保卡编号等)、年龄、性别、主诉、现病史、家族史等信息;目标疾病类型可以是疾病分类编号;医学实体可以是检测项目的编号,例如:血液的检查项目(如:血压、血红蛋白、血小板等指标),尿液的检查项目(如:蛋白、酮体、葡萄糖)等。
S12.提取所述医疗数据中的所述医学实体,生成所述诊断数据。
本实施例中,诊断数据由医学实体的编号(ID)组成,如:[医学实体X1,医学实体X2,医学实体X3,……],医学实体中的X表示医学实体的ID。
S2.将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息。
其中,所述预设医疗规则为根据医学知识(医生从医学知识中整理得到的)预先设定的规则,包括多条医疗规则,每一条所述医疗规则包括至少一个所述医学实体,每一条所述医疗规则对应一种疾病类型。
作为举例而非限定,医疗规则的呈现方式一般为,例如,疾病1→(医学实体1,医学实体3):表示诊断数据中同时出现医学实体1和医学实体3即可将疾病1添加到目标患者的第一候选信息中;疾病2→(医学实体1,医学实体5,医学实体10):表示诊断数据中同时出现医学实体1、医学实体5和医学实体10即可将疾病2添加到目标患者的第一候选信息中。
进一步地,参阅图3所示步骤S2可包括以下步骤:
S21.将所述诊断数据中的多个所述医学实体分别与所述预设医疗规则中的每一条所述医疗规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度。
本实施例中,在件医疗规则匹配时,将诊断数据中的所有医学实体分别与每一条医疗规则中的所有实体进行匹配,若医疗规则中的所有实体与诊断数据中的全部或部分实体匹配,则可确认该诊断数据与该医疗规则对应的疾病类型匹配,若医疗规则中的部分实体与诊断数据中的全部或部分实体匹配,则表示该诊断数据与该医疗规则对应的疾病类型不匹配。
例如:将目标患者的诊断数据(包含多个医学实体),匹配到预设医疗规则中,得到如下结果。假设一共有5条规则,对应3种疾病类型参阅表1:
表1
医疗规则 疾病类型 规则匹配结果 匹配度
规则1 疾病1 匹配 1
规则2 疾病1 不匹配 0
规则3 疾病2 不匹配 0
规则4 疾病2 不匹配 0
规则5 疾病3 匹配 1
在预设医疗规则中,将匹配到的医疗规则对应的疾病类型的匹配度置为1。如果一种疾病类型有多条医疗规则,只要诊断数据匹配到任意一条,诊断数据对该疾病的匹配度就置为1,例如上表中规则1和规则2都对应疾病1,虽然诊断数据只匹配到了规则1,但也将该诊断数据对疾病1的匹配度置为1。
S22.提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第一候选信息。
结合表1所示,提取匹配度为1的疾病类型,第一候选信息为:{疾病1:1,疾病3:1}。
在一实施例中,执行步骤S3之前还可包括:根据历史样本数据生成所述医疗挖掘规则。
需要说明的是:所述历史样本数据包括多条历史医疗数据,每一条所述历史医疗数据包括历史患者的疾病类型和多个所述医学实体。所述医疗挖掘规则包括多条挖掘规则,每一条所述挖掘规则包括至少一个所述医学实体,每一条所述挖掘规则对应一种疾病类型。
进一步地,参阅图4所示根据历史样本数据生成所述医疗挖掘规则包括以下步骤:
A1.根据疾病类型对历史样本数据中的所述历史医疗数据进行分类,生成疾病类型集合。
具体地,计算每一个所述医学实体与相应的所述疾病类型的权重值;逐条提取历史样本数据中权重值大于或等于权重阈值的医学实体。
将历史医疗数据根据疾病类型进行分类,对每种疾病类型对应的历史医疗数据中的每个医学实体计算权重值。过滤掉权重值小于权重阈值(权重阈值在0到1之间,[0,1])的医学实体。对每种疾病类型的医学实体进行过滤的目的是为了降低干扰,移除频繁出现但是区分度较低以及重要性较低的医学实体的干扰,提升数据的质量。
其中,权重值的计算公式:weight[医学实体i,疾病j]=(医学实体i在疾病j中出现的次数)/(医学实体i出现在多少种疾病)。i表示医学实体的ID;j表示医学实体的ID。如果weight[医学实体i,疾病j]<threshold,移除该医学实体。
A2.采用频繁集挖掘算法对所述疾病类型集合中的所述历史医疗数据进行筛选,生成与疾病类型对应的挖掘规则。
采用频繁集挖掘算法基于预设的支持度(min_support)和置信度(min_confidence)两个阈值,对过滤后的每种疾病类型对应的多条历史样本数据进行筛选,得到每种疾病类型对应的挖掘规则,例如:对于疾病1,在满足两个阈值后得到3条基于数据的规则,即:{[医学实体1,医学实体3,医学实体9],[医学实体1,医学实体3,医学实体5,医学实体7],[医学实体1,医学实体5,医学实体7,医学实体9,医学实体10]}。对每种疾病类型对应的挖掘规则,按照支持度从大到小排列。
频繁集挖掘算法(Frequent-Pattern Growth,FP-growth)是一种称作逐层搜索的迭代方法,例如:采用k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合,将该集合记作L1,采用集合L1用于找频繁2-项集的集合L2,再采用集合L2用于找L3,以此类推,直到不能找到频繁k-项集,其中找每个Lk需要进行一次数据库扫描。S3.将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息。
进一步地,参阅图5所示步骤S3可包括以下步骤:
S31.将所述诊断数据中的多个所述医学实体分别与所述医疗挖掘规则中的每一条所述挖掘规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度。
将诊断数据分别和所有挖掘规则进行匹配,对于一个疾病类型,若匹配到该疾病类型的某条规则,则该条规则对应的支持度作为该条数据对这个疾病的匹配度;若没有匹配到该疾病类型的任何规则,则将历史医疗数据对这个疾病类型的匹配度置为0。以此类推,得到诊断数据对所有疾病类型的可能性列表,将列表中的疾病类型根据匹配度由大到小进行排序。注意,如果一条数据匹配到一个疾病的多条规则,取匹配到的匹配度最大的规则。
例如:对于疾病1,将支持度阈值为0.7,对应表2中的3条挖掘规则,每条挖掘规则对应的支持度如下:
表2
Figure BDA0002744254180000091
Figure BDA0002744254180000101
当诊断数据包含4个医学实体:[医学实体1,医学实体2,医学实体3,医学实体9]时,对于疾病1而言该诊断数据对应表2中的规则1(该条数据包含规则1中的全部三个医学实体),即该诊断数据对应到疾病1的可能性为0.80。
S32.提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第二候选信息。
以10种疾病类型为例:将诊断数据与所有疾病类型对应的挖掘规则进行匹配,如表3所示:
表3
编号 规则匹配结果 支持度
疾病1 匹配到某条规则 0.80
疾病2 没有匹配到任何规则 0
疾病3 没有匹配到任何规则 0
疾病4 匹配到某条规则 0.85
疾病5 没有匹配到任何规则 0
疾病6 没有匹配到任何规则 0
疾病7 匹配到某条规则 0.70
疾病8 没有匹配到任何规则 0
疾病9 没有匹配到任何规则 0
疾病10 没有匹配到任何规则 0
得到3种疾病类型,提取匹配的每种疾病类型的支持度(匹配度),第二候选信息为:{疾病1:0.82,疾病4:0.85,疾病7:0.70}。
需要强调的是,为进一步保证上述预设医疗规则和医疗挖掘规则的私密和安全性,上述预设医疗规则和医疗挖掘规则还可以存储于一区块链的节点中。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S4.将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息。
进一步地,步骤S4可包括:根据所述第一候选信息中的疾病类型和所述第二候选信息中的疾病类型,对同一疾病类型在所述第一候选信息中对应的匹配度和在所述第二候选信息中对应的匹配度计算匹配平均值,生成包括疾病类型匹配平均值的所述第三候选信息。
在实施例中,将第一候选信息和第二候选信息中的匹配度进行权重融合,得到融合后的第三候选信息,例如诊断数据对应的第三候选信息Lrule={疾病4:0.95,疾病2:0.90,疾病1:0.5,……}。
S5.采用疾病识别模型对所述诊断数据进行识别获取第四候选信息。
其中,所述第四候选信息包括疾病类型的匹配值。
本实施例中的,疾病识别模型采用BERT(Bidirectional EncoderRepresentations from Transformers)模型,BERT的输入为诊断数据,输出为第四候选信息。
BERT模型是一个自然语言处理领域里的一个语言模型,能够对自然语言不需要转换直接进行处理。然而,病人的就诊数据不仅包含了非结构化数据即自由文本数据,还包含了大量结构化数据,而BERT模型只能对自由文本数据进行处理。为了使得BERT模型能够同时对结构化和非结构化数据进行处理,本实施例对BERT模型进行了改进。将非结构化数据和结构化数据进行拼接,然后输入到BERT模型中,其中,非结构化数据的每个词(word,w)对应输入到一个token中,结构化数据的每个编码(code,c)对应输入到一个token中。对BERT模型进行改进,移除了BERT模型中原有的segementembedding层,并对原有的positionembedding层进行改进。非结构化的数据即文本是有顺序的,所以非结构化数据对应的positionembedding的token有位置的嵌入式表达。但是,结构化的数据是没有顺序的,所有对所有结构化的数据的positionembedding的token置为相同的嵌入式表达。
基于中文预训练的BERT模型,将结构化的数据加入到字典中进行扩展。在这个中文预训练模型的基础上,再进行预训练(pre-training)更新结构化数据的嵌入式表达(embeddingrepresentation)以及模型的参数。在预训练模型的基础上,进行疑似疾病判断的下游任务对模型进行微调(fine-tuning),,其中FC为全连接层(fullyconnetedlayer),output输出为疑似疾病列表,例如:第四候选信息Ldeep={疾病2:0.98,疾病4:0.80,疾病1:0.2,……}。
S6.对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常。
进一步地,参阅图6所示步骤S6可包括以下步骤:
S61.提取所述疑似值符合预设条件的疾病类型,生成所述疑似疾病信息。
S62.将所述诊断数据中的所述目标疾病类型与所述疑似疾病信息中所述疾病类型进行匹配,若匹配,则表示所述诊断数据正常,若不匹配,则表示所述诊断数据异常。
将第三候选信息Lrule和第四候选信息Ldeep进行权重融合,公式为疑似疾病信息L=wrule×Lrule+wdeep×Ldeep,其中,wrule和wdeep为预设系数,wrule+wdeep=1。例如:Lrule的值为0.8,Ldeep的值为0.5,那么在L中的这个疾病的值为wrule×0.8+wdeep×0.5。取前K(正整数)个可能性值最高的疾病类型构成目标患者的疑似疾病信息。如果目标患者的目标疾病类型(实际疾病类型)不在疑似疾病信息中,那么说明目标患者的诊断数据出现误诊。
在本实施例中,诊断数据异常检测方法可将目标患者的诊断数据分别与预设医疗规则和医疗挖掘规则两种规则进行匹配,以得到两种候选信息,通过将两种候选信息进行融合以得到结合了医疗规则以及医疗挖掘规则的多维度的第三候选信息;采用疾病识别模型对诊断数据进行识别获取第四候选信息,提升了识别诊断数据的灵活性,且识别的速度快;通过结合第四候选信息和第三候选信息确定目标患者的疑似疾病信息,以便于根据疑似疾病信息判断诊断数据是否异常,从而达到快速有效确认误诊的目的。
实施例二
请参阅图7,本实施例的一种诊断数据异常检测装置1,包括:获取单元11、第一匹配单元12、第二匹配单元13、融合单元14、识别单元15和处理单元16。
获取单元11,用于获取目标患者的诊断数据。
进一步地,获取单元11用于接收用户终端发送的目标患者的医疗数据,所述医疗数据包括:目标患者的基本信息、目标疾病类型和多个医学实体。
其中,目标患者的基本信息可包括:标识目标患者身份的编号(如:身份证、医保卡编号等)、年龄、性别、主诉、现病史、家族史等信息;目标疾病类型可以是疾病分类编号;医学实体可以是检测项目的编号,例如:血液的检查项目(如:血压、血红蛋白、血小板等指标),尿液的检查项目(如:蛋白、酮体、葡萄糖)等。
获取单元11还用于提取所述医疗数据中的所述医学实体,生成所述诊断数据。
本实施例中,诊断数据由医学实体的编号(ID)组成,如:[医学实体X1,医学实体X2,医学实体X3,……],医学实体中的X表示医学实体的ID。
第一匹配单元12,用于将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息。
其中,所述预设医疗规则为根据医学知识(医生从医学知识中整理得到的)预先设定的规则,包括多条医疗规则,每一条所述医疗规则包括至少一个所述医学实体,每一条所述医疗规则对应一种疾病类型。
进一步地,第一匹配单元12用于将所述诊断数据中的多个所述医学实体分别与所述预设医疗规则中的每一条所述医疗规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度。第一匹配单元12还用于提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第一候选信息。
第二匹配单元13,用于将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息。
进一步地,第二匹配单元13用于将所述诊断数据中的多个所述医学实体分别与所述医疗挖掘规则中的每一条所述挖掘规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度;第二匹配单元13还用于提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第二候选信息。
本实施例中,医疗挖掘规则是根据历史样本数据获取的具体的获取过程为(参阅图4):
A1.根据疾病类型对历史样本数据中的所述历史医疗数据进行分类,生成疾病类型集合。
A2.采用频繁集挖掘算法对所述疾病类型集合中的所述历史医疗数据进行筛选,生成与疾病类型对应的挖掘规则。
融合单元14,用于将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息。
进一步地,融合单元14可根据所述第一候选信息中的疾病类型和所述第二候选信息中的疾病类型,对同一疾病类型在所述第一候选信息中对应的匹配度和在所述第二候选信息中对应的匹配度计算匹配平均值,生成包括疾病类型匹配平均值的所述第三候选信息。
识别单元15,用于采用疾病识别模型对所述诊断数据进行识别获取第四候选信息。
其中,所述第四候选信息包括疾病类型的匹配值。
本实施例中的,疾病识别模型采用BERT(Bidirectional EncoderRepresentations from Transformers)模型,BERT的输入为诊断数据,输出为第四候选信息。
处理单元16,用于对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常。
进一步地,通过处理单元16提取所述疑似值符合预设条件的疾病类型,生成所述疑似疾病信息;将所述诊断数据中的所述目标疾病类型与所述疑似疾病信息中所述疾病类型进行匹配,若匹配,则表示所述诊断数据正常,若不匹配,则表示所述诊断数据异常。
在本实施例中,诊断数据异常检测装置1通过第一匹配单元12将目标患者的诊断数据与预设医疗规则进行匹配,通过和第二匹配单元13将目标患者的诊断数据与医疗挖掘规则两种规则进行匹配,以得到两种候选信息;采用融合单元14将两种候选信息进行融合以得到结合了医疗规则以及医疗挖掘规则的多维度的第三候选信息;采用识别单元15中的疾病识别模型对诊断数据进行识别获取第四候选信息,提升了识别诊断数据的灵活性,且识别的速度快;通过处理单元16结合第四候选信息和第三候选信息确定目标患者的疑似疾病信息,以便于根据疑似疾病信息判断诊断数据是否异常,从而达到快速有效确认误诊的目的。
实施例三
为实现上述目的,本发明还提供一种计算机设备2,该计算机设备2包括多个计算机设备2,实施例二的诊断数据异常检测装置1的组成部分可分散于不同的计算机设备2中,计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及诊断数据异常检测装置1(参考图8)。需要指出的是,图8仅示出了具有组件-的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例一的诊断数据异常检测方法的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的诊断数据异常检测装置1等。
所述网络接口22可包括无线网络接口或有线网络接口,该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如,所述网络接口22用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图8仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述诊断数据异常检测装置1还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器23)所执行,以完成本发明。
实施例四
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储诊断数据异常检测装置1,被处理器23执行时实现实施例一的诊断数据异常检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种诊断数据异常检测方法,其特征在于,包括:
获取目标患者的诊断数据;
将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息;
将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息;
将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息;
采用疾病识别模型对所述诊断数据进行识别获取第四候选信息;
对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常。
2.根据权利要求1所述的诊断数据异常检测方法,其特征在于,获取目标患者的诊断数据,包括:
接收用户终端发送的目标患者的医疗数据,所述医疗数据包括:目标患者的基本信息、目标疾病类型和多个医学实体;
提取所述医疗数据中的所述医学实体,生成所述诊断数据。
3.根据权利要求2所述的诊断数据异常检测方法,其特征在于,所述预设医疗规则为根据医学知识预先设定的规则,包括多条医疗规则,每一条所述医疗规则包括至少一个所述医学实体,每一条所述医疗规则对应一种疾病类型;
将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息,包括:
将所述诊断数据中的多个所述医学实体分别与所述预设医疗规则中的每一条所述医疗规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度;
提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第一候选信息。
4.根据权利要求3所述的诊断数据异常检测方法,其特征在于,将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息,之前还包括:
根据历史样本数据生成所述医疗挖掘规则:
所述历史样本数据包括多条历史医疗数据,每一条所述历史医疗数据包括历史患者的疾病类型和多个所述医学实体;
所述医疗挖掘规则包括多条挖掘规则,每一条所述挖掘规则包括至少一个所述医学实体,每一条所述挖掘规则对应一种疾病类型;
根据疾病类型对历史样本数据中的所述历史医疗数据进行分类,生成疾病类型集合;
采用频繁集挖掘算法对所述疾病类型集合中的所述历史医疗数据进行筛选,生成与疾病类型对应的挖掘规则。
5.根据权利要求4所述的诊断数据异常检测方法,其特征在于,将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息,包括:
将所述诊断数据中的多个所述医学实体分别与所述医疗挖掘规则中的每一条所述挖掘规则进行匹配,以获取与所述诊断数据匹配的疾病类型的匹配度;
提取与所述诊断数据匹配的所有疾病类型的匹配度,生成所述第二候选信息。
6.根据权利要求5所述的诊断数据异常检测方法,其特征在于,将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息,包括:
根据所述第一候选信息中的疾病类型和所述第二候选信息中的疾病类型,对同一疾病类型在所述第一候选信息中对应的匹配度和在所述第二候选信息中对应的匹配度计算匹配平均值,生成包括疾病类型匹配平均值的所述第三候选信息。
7.根据权利要求5所述的诊断数据异常检测方法,其特征在于,所述第四候选信息包括疾病类型的匹配值;
对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常,包括:
对同一疾病类型在所述第三候选信息中对应的匹配平均值和在所述第四候选信息中对应的匹配值计算疑似值;
提取所述疑似值符合预设条件的疾病类型,生成所述疑似疾病信息;
将所述诊断数据中的所述目标疾病类型与所述疑似疾病信息中所述疾病类型进行匹配,若匹配,则表示所述诊断数据正常,若不匹配,则表示所述诊断数据异常。
8.一种诊断数据异常检测装置,其特征在于,包括:
获取单元,用于获取目标患者的诊断数据;
第一匹配单元,用于将所述诊断数据与预设医疗规则进行匹配,获取第一候选信息;
第二匹配单元,用于将所述诊断数据与医疗挖掘规则进行匹配,获取第二候选信息;
融合单元,用于将所述第一候选信息和所述第二候选信息进行融合生成第三候选信息;
识别单元,用于采用疾病识别模型对所述诊断数据进行识别获取第四候选信息;
处理单元,用于对所述第三候选信息和所述第四候选信息进行融合,以获取疑似疾病信息,根据所述疑似疾病信息判断所述诊断数据是否异常。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202011161090.4A 2020-10-27 2020-10-27 诊断数据异常检测方法、装置、计算机设备及存储介质 Active CN112365987B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011161090.4A CN112365987B (zh) 2020-10-27 2020-10-27 诊断数据异常检测方法、装置、计算机设备及存储介质
PCT/CN2021/083622 WO2021180242A1 (zh) 2020-10-27 2021-03-29 诊断数据异常检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011161090.4A CN112365987B (zh) 2020-10-27 2020-10-27 诊断数据异常检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112365987A CN112365987A (zh) 2021-02-12
CN112365987B true CN112365987B (zh) 2023-06-06

Family

ID=74510908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011161090.4A Active CN112365987B (zh) 2020-10-27 2020-10-27 诊断数据异常检测方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112365987B (zh)
WO (1) WO2021180242A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365987B (zh) * 2020-10-27 2023-06-06 平安科技(深圳)有限公司 诊断数据异常检测方法、装置、计算机设备及存储介质
CN112885479B (zh) * 2021-02-23 2023-05-16 武汉大学 一种对医疗数据中数据项对比验证的实现方法及装置
CN113096752B (zh) * 2021-03-01 2023-09-29 北京联袂义齿技术有限公司 一种口腔医学数据整理分析系统
CN113051373B (zh) * 2021-04-19 2024-02-13 讯飞医疗科技股份有限公司 文本分析方法、装置、电子设备和存储介质
CN113096799B (zh) * 2021-04-25 2024-04-02 北京百度网讯科技有限公司 质控方法和装置
CN113241135B (zh) * 2021-04-30 2023-05-05 山东大学 一种基于多模态融合的疾病风险预测方法和系统
CN113823414B (zh) * 2021-08-23 2024-04-05 杭州火树科技有限公司 主诊断与主手术匹配检测方法、装置、计算设备和存储介质
CN113850499B (zh) * 2021-09-23 2024-04-09 平安银行股份有限公司 一种数据处理方法、装置、电子设备和存储介质
CN114334167A (zh) * 2021-12-31 2022-04-12 医渡云(北京)技术有限公司 医学数据挖掘方法及装置、存储介质、电子设备
CN114400091B (zh) * 2022-01-22 2022-11-08 深圳市携康网络科技有限公司 一种基于信息化的医疗预防融合系统
CN114496131B (zh) * 2022-01-22 2022-10-04 深圳市携康网络科技有限公司 一种家庭医生信息化系统
CN116798636B (zh) * 2022-03-14 2024-03-26 数坤(北京)网络科技股份有限公司 医学诊断方法以及相关设备
CN114783581B (zh) * 2022-06-22 2022-09-06 北京惠每云科技有限公司 一种单病种数据的上报方法及上报装置
CN114822865B (zh) * 2022-06-27 2022-11-11 天津幸福生命科技有限公司 诊断数据识别方法及装置、电子设备、存储介质
CN116682551B (zh) * 2023-07-27 2023-12-22 腾讯科技(深圳)有限公司 疾病预测方法、疾病预测模型训练方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636623A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常检测方法、装置、设备及存储介质
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8412541B2 (en) * 2003-08-14 2013-04-02 Edda Technology, Inc. Method and system for intelligent qualitative and quantitative analysis for medical diagnosis
US7624030B2 (en) * 2005-05-20 2009-11-24 Carlos Feder Computer-implemented medical analytics method and system employing a modified mini-max procedure
CN109659035A (zh) * 2018-12-13 2019-04-19 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN112365987B (zh) * 2020-10-27 2023-06-06 平安科技(深圳)有限公司 诊断数据异常检测方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636623A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常检测方法、装置、设备及存储介质
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质

Also Published As

Publication number Publication date
CN112365987A (zh) 2021-02-12
WO2021180242A1 (zh) 2021-09-16

Similar Documents

Publication Publication Date Title
CN112365987B (zh) 诊断数据异常检测方法、装置、计算机设备及存储介质
US11922348B2 (en) Generating final abnormality data for medical scans based on utilizing a set of sub-models
US20200357118A1 (en) Medical scan viewing system with enhanced training and methods for use therewith
CN112132624A (zh) 医疗理赔数据预测系统
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN110808095B (zh) 诊断结果识别、模型训练的方法、计算机设备及存储介质
US20220051114A1 (en) Inference process visualization system for medical scans
CN109545319B (zh) 基于知识关系分析的处方告警方法及终端设备
US20220005566A1 (en) Medical scan labeling system with ontology-based autocomplete and methods for use therewith
CN112711579A (zh) 医疗数据的质量检测方法及装置、存储介质及电子设备
CN112329461A (zh) 相似病历确定方法、计算机设备及计算机存储介质
CN111667922A (zh) 一种临床诊疗数据录入系统和方法
EP3920190A1 (en) Bias detection in sensor signals
CN117174285A (zh) 基于循证医学的第二诊疗意见生成系统及方法
CN115222166A (zh) 服刑人员住院风险预测方法、装置、电子设备及存储介质
CN113782216A (zh) 一种失能权重确定方法及装置、电子设备、存储介质
EP3651159A1 (en) Method and system for analyzing data in the healthcare domain
CN117290509A (zh) 电子病历文本分类模型训练方法、装置、电子设备及介质
CN116825383A (zh) 耐药性识别模型的训练方法、识别方法、终端及存储介质
CN116703616A (zh) 核保方法、装置、终端设备以及存储介质
CN114706939A (zh) 文本实体关系分析方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040596

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant