CN108986918A - 辅助诊断方法、装置、终端设备和计算机存储介质 - Google Patents

辅助诊断方法、装置、终端设备和计算机存储介质 Download PDF

Info

Publication number
CN108986918A
CN108986918A CN201810690457.8A CN201810690457A CN108986918A CN 108986918 A CN108986918 A CN 108986918A CN 201810690457 A CN201810690457 A CN 201810690457A CN 108986918 A CN108986918 A CN 108986918A
Authority
CN
China
Prior art keywords
disease type
data
diagnostic model
disease
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810690457.8A
Other languages
English (en)
Inventor
王晓婷
栾欣泽
何光宇
孟健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201810690457.8A priority Critical patent/CN108986918A/zh
Publication of CN108986918A publication Critical patent/CN108986918A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明实施例提供一种辅助诊断方法、装置、终端设备和计算机存储介质。本发明的辅助诊断方法,包括:获取待确定的病例报告表CRF数据;根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型;其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。本发明实施例可以实现利用历史CRF数据获取诊断模型,使用诊断模型进行疾病类型的辅助诊断。

Description

辅助诊断方法、装置、终端设备和计算机存储介质
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种辅助诊断方法、装置、终端设备和计算机存储介质。
背景技术
数据挖掘(Data mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。与传统的统计分析技术相比,数据挖掘有着自身的本质特征。数据挖掘是在没有明确假设的前提下去挖掘信息并发现知识。
随着信息时代的到来,数据挖掘被越来越多地应用于临床实践。利用信息技术,医疗记录和随访数据可以更有效地被存储和提取。同时,从医学数据中寻找潜在的关系或规律,从而获得有效的对病人进行诊断、治疗的知识,增加对疾病的预测准确性,在早期发现疾病,提高治愈率。
需要设计一种可以应用于医疗领域的数据挖掘方法,以实现对临床疾病的辅助诊断过程。
发明内容
本发明实施例提供一种辅助诊断方法、装置、终端设备和计算机存储介质,以实现利用历史CRF数据获取诊断模型,使用诊断模型进行疾病类型的辅助诊断。
第一方面,本发明实施例提供一种辅助诊断方法,包括:
获取待确定的病例报告表CRF数据;
根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型;
其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。
结合第一方面,在第一方面的一种可能的实现方式中,所述方法还包括:
获取每个疾病类型的多个历史CRF数据和非所述疾病类型的多个历史CRF数据;
删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据;
删除非所述疾病类型的多个历史CRF数据中的离群数据,获取非所述疾病类型的可用数据;
将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型。
结合第一方面或第一方面的一种可能的实现,在第一方面的另一种可能的实现方式中,所述方法还包括:分别对所述疾病类型的可用数据和非所述疾病类型的可用数据进行多次伪随机处理,获取所述疾病类型的训练数据库和验证数据库,所述训练数据库包括多组所述疾病类型的训练数据,所述验证数据库包括多组所述疾病类型的验证数据;
其中,每组所述疾病类型的训练数据包括所述疾病类型的第一部分的可用数据和非所述疾病类型的第一部分的可用数据,每组所述疾病类型的验证数据包括所述疾病类型的第二部分的可用数据和非所述疾病类型的第二部分的可用数据。
结合第一方面或第一方面的任一种可能的实现,在第一方面的另一种可能的实现方式中,将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型,包括:
将多组所述疾病类型的训练数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的中间诊断模型;
将多组所述疾病类型的验证数据输入所述疾病类型的中间诊断模型,获取所述疾病类型的中间诊断模型输出的测试结果;
根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据库进行更新;
使用更新后的训练数据对所述疾病类型的中间诊断模型进行训练,获取所述疾病类型的诊断模型。
结合第一方面或第一方面的任一种可能的实现,在第一方面的另一种可能的实现方式中,所述根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据进行更新,包括:
当任一所述疾病类型的验证数据对应的疾病类型与所述疾病类型的中间诊断模型输出的测试结果不同,则将所述疾病类型的验证数据添加至所述疾病类型的训练数据库中。
结合第一方面或第一方面的任一种可能的实现,在第一方面的另一种可能的实现方式中,所述删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据,包括:
通过聚类算法检测所述疾病类型的多个历史CRF数据中的离群数据,并删除所述疾病类型的多个历史CRF数据中的离群数据。
结合第一方面或第一方面的任一种可能的实现,在第一方面的另一种可能的实现方式中,所述获取所述疾病类型的可用数据,包括:
对删除所述离群数据后的所述疾病类型的历史CRF数据进行归一化处理,获取所述疾病类型的可用数据。
第二方面,本发明实施例提供一种辅助诊断装置,包括:
获取模块,用于获取待确定的病例报告表CRF数据;
类型确定模块,用于根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型;
其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。
结合第二方面,在第二方面的一种可能的实现方式中,所述装置还包括:数据预处理模块和数据挖掘模块;
所述数据预处理模块,用于获取每个疾病类型的多个历史CRF数据和非所述疾病类型的多个历史CRF数据对应的疾病类型;
所述数据预处理模块,还用于删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据;
所述数据挖掘模块,用于将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型。
结合第二方面或第二方面的一种可能的实现,在第二方面的另一种可能的实现方式中,所述装置还包括伪随机处理模块,用于:
分别对所述疾病类型的可用数据和非所述疾病类型的可用数据进行多次伪随机处理,获取所述疾病类型的训练数据库和验证数据库,所述训练数据库包括多组所述疾病类型的训练数据,所述验证数据库包括多组所述疾病类型的验证数据;
其中,每组所述疾病类型的训练数据包括所述疾病类型的第一部分的可用数据和非所述疾病类型的第一部分的可用数据,每组所述疾病类型的验证数据包括所述疾病类型的第二部分的可用数据和非所述疾病类型的第二部分的可用数据。
结合第二方面或第二方面的任一种可能的实现,在第二方面的另一种可能的实现方式中,所述数据挖掘模块用于:
将多组所述疾病类型的训练数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的中间诊断模型;
将多组所述疾病类型的验证数据输入所述疾病类型的中间诊断模型,获取所述疾病类型的中间诊断模型输出的测试结果;
根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据库进行更新;
使用更新后的训练数据对所述疾病类型的中间诊断模型进行训练,获取所述疾病类型的诊断模型。
结合第二方面或第二方面的任一种可能的实现,在第二方面的另一种可能的实现方式中,所述数据挖掘模块用于:
当任一所述疾病类型的验证数据对应的疾病类型与所述疾病类型的中间诊断模型输出的测试结果不同,则将所述疾病类型的验证数据添加至所述疾病类型的训练数据库中。
结合第二方面或第二方面的任一种可能的实现,在第二方面的另一种可能的实现方式中,所述数据预处理模块,用于:
通过聚类算法检测所述疾病类型的多个历史CRF数据中的离群数据,并删除所述疾病类型的多个历史CRF数据中的离群数据。
结合第二方面或第二方面的任一种可能的实现,在第二方面的另一种可能的实现方式中,所述数据预处理模块,用于:
对删除所述离群数据后的所述疾病类型的历史CRF数据进行归一化处理,获取所述疾病类型的可用数据。
第三方面,本发明实施例提供一种终端设备,所述终端设备包括:处理器、存储器、收发器和通信总线,所述处理器、所述存储器和所述收发器通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述第一方面或第一方面的任一种可能的实现方式所述的辅助诊断方法。
第三方面,本发明实施例提供一种计算机存储介质,其上存储有计算机程序或指令,当所述计算机程序或指令被处理器或计算机执行时,实现如上述第一方面或第一方面的任一种可能的实现方式所述的辅助诊断方法。
本发明实施例的辅助诊断方法、装置、终端设备和计算机存储介质,通过获取待确定的病例报告表CRF数据,根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型,该至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别,实现有效利用历史CRF数据获取诊断模型,使用诊断模型进行疾病类型的辅助诊断。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的辅助诊断方法实施例一的流程图;
图2为本发明的疾病类型的诊断模型的获取方法实施例一的流程图;
图3为本发明的疾病类型的诊断模型的获取方法实施例二的流程图;
图4为本发明的小儿肺炎的诊断模型的获取方法的示意图;
图5为本发明的辅助诊断装置实施例一的结构示意图;
图6为本发明的辅助诊断装置实施例二的结构示意图;
图7为本发明的辅助诊断装置实施例三的结构示意图;
图8为本发明的终端设备实施例一的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文所涉及的“病例报告表(Case Report Form,CRF)数据”包括各项检查测定项目的数值、图像等,检查测定项目例如血常规、B超等项目。
每个医疗机构存在大量的历史CRF数据。本发明实施例的辅助诊断方法,利用数据挖掘方法对大量的历史CRF数据进行处理,获得至少一个疾病类型的诊断模型,使用该诊断模型可以确定待确定的CRF数据对应的疾病类型。
本文所涉及的“疾病类型”包括肺炎、支气管炎等各种类型的疾病。本发明实施例不一一举例说明。
本发明实施例的辅助诊断方法可以应用于终端设备中,该终端设备也可以称为终端(Terminal)、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality,VR)终端、增强现实(Augmented Reality,AR)终端、工业控制(industrial control)中的无线终端、远程手术(remote medicalsurgery)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。
图1为本发明的辅助诊断方法实施例一的流程图,本实施例的执行主体可以是辅助诊断装置,该辅助诊断装置可以是上述终端设备,也可以是上述终端设备的内部芯片,如图1所示,本实施例的方法可以包括:
步骤101、获取待确定的病例报告表CRF数据。
其中,该待确定的CRF数据具体指未确定疾病类型的CRF数据,该待确定的CRF数据如上所述也包括各项检查测定项目的数值、图像等。
步骤102、根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型。
其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。该学科类别可以是科室类别。
举例而言,疾病类型为小儿肺炎,非所述疾病类型为非小儿肺炎,该非小儿肺炎的历史CRF数据即来源于儿内科的CRF数据。
具体的,每一个疾病类型的诊断模型可以是任一种机器学习算法模型,例如,K均值(K-means)聚类算法、模糊C均值(FCM)聚类算法等,其可以根据需求进行灵活设置。
其中,每一个疾病类型的诊断模型可以确定该待确定的CRF数据对应的疾病类型,是否是该诊断模型的疾病类型,从而确定该待确定的CRF数据对应的疾病类型。
本实施例,通过获取待确定的病例报告表CRF数据,根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型,该至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,实现有效利用历史CRF数据获取诊断模型,使用诊断模型进行疾病类型的辅助诊断。
下面采用几个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
图2为本发明的疾病类型的诊断模型的获取方法实施例一的流程图,如图2所示,本实施例在上述图1所示实施例的基础上,还可以通过本实施例的方法获取上述步骤102中的至少一个疾病类型的诊断模型,本实施例的方法可以包括:
步骤201、获取每个疾病类型的多个历史CRF数据和非所述疾病类型的多个历史CRF数据。
具体的,所述疾病类型与非所述疾病类型属于相同学科类别,可以获取数据库中存储的多个历史CRF数据和历史CRF数据对应的疾病类型。每个历史CRF数据如上所述也包括各项检查测定项目的数值、图像等。
步骤202、删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据。
步骤203、删除非所述疾病类型的多个历史CRF数据中的离群数据,获取非所述疾病类型的可用数据。
具体的,离群数据会对诊断模型输出结果的准确率造成影响,本实施例在对诊断模型进行训练前,对离群数据进行筛选并删除,以使用处理后的历史CRF数据对诊断模型进行训练。其中,通过步骤202和步骤203分别对疾病类型的多个历史CRF数据中的离群数据和非所述疾病类型的多个历史CRF数据中的离群数据进行筛选和删除。
一种可实现方式,可以使用聚类算法对离群数据进行筛选并删除,具体的,以对该疾病类型的多个历史CRF数据中的离群数据进行筛选并删除为例进行说明,可以通过聚类算法检测所述疾病类型的多个历史CRF数据中的离群数据,并删除所述疾病类型的多个历史CRF数据中的离群数据。
该聚类算法可以是K均值(K-means)聚类算法、模糊C均值(FCM)聚类算法等。
以该聚类算法为K均值(K-means)聚类算法为例,n个历史CRF数据为例,进行举例说明,K-means聚类算法的优化目标可以表示为公式(1)。
其中,xn表示历史CRF数据n,μk表示中心点,rnk在历史CRF数据n分配到类别k的时候为1,没有分配到类别k的时候为0。整个聚类算法通过迭代计算,找到合适的rnk和μk,使得J最小。使得所获得的聚类结果满足:同一聚类中的历史CRF数据相似度较高;而不同聚类中的历史CRF数据相似度较小。
具体的迭代计算过程:固定μk,更新rnk,将每个历史CRF数据放到与其最近的聚类中心的类别中,保证在固定μk的情况下,J的值降到了最小。固定rnk,更新μk,此时J对μk(实际上是对μk(k取0至n)分别求导)求导并令结果等于零,得到如下式的聚类中心。
即,当新的中心点取每个类别中的中心值的时候,每个类别内部的标准距离下降最多。J是所有类别距离内部的距离之和,因此保证了的固定rnk的情况下,J的值降到了最小。
随着迭代次数增加J的值会下降到一个极小值。在满足K-Means迭代的条件时,停止迭代。该迭代条件可以有如下几个:每个聚类内部元素不在变化;前后两次迭代,J的值相差小于某个阈值;迭代超过一定的次数。
其中,通过K均值(K-means)聚类算法可以对该疾病类型的n个历史CRF数据进行聚类,并剔除其中的离群数据,获取该疾病类型的可用数据。
对非该疾病类型的多个CRF数据中的离群数据进行筛选并删除可以采用相同的处理方式,获取非该疾病类型的可用数据。
可选的,可以对删除离群数据后的该疾病类型的历史CRF数据进行归一化处理,获取该疾病类型的可用数据。
可以对删除离群数据后的非该疾病类型的历史CRF数据进行归一化处理,获取非该疾病类型的可用数据。使用归一化处理后的该疾病类型的可用数据和非该疾病类型的可用数据,对诊断模型进行训练,可以加速诊断模型的收敛,进而更快完成训练,获取该疾病类型的诊断模型。
其中,归一化处理可以使用最小-最大标准化(Min-max normalization)或者0-1标准化(0-1normalization),其中,0-1标准化也可以称为离差标准化。归一化处理是对删除离群数据后的该疾病类型或非该疾病类型的历史CRF数据的线性变换,使结果落到[0,1]区间,转换函数如下公式(2)。
其中,x为删除离群数据后的历史CRF数据,x*为可用数据,max为删除离群数据后的历史CRF数据的最大值,min为删除离群数据后的历史CRF数据的最小值。
步骤204、将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型。
具体的,将经过上述步骤201至步骤203处理后的数据输入诊断模型中,进行训练,以获取疾病类型的诊断模型,用于后续辅助诊断。
本实施例,通过获取每个疾病类型的多个历史CRF数据和非所述疾病类型的多个历史CRF数据,删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据,删除非所述疾病类型的多个历史CRF数据中的离群数据,获取非所述疾病类型的可用数据,将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型,实现有效利用历史CRF数据获取诊断模型,使用诊断模型进行疾病类型的辅助诊断。并且通过对历史CRF数据的预处理,删除离群数据,使用可用数据对诊断模型进行训练,可以提升训练后得到的诊断模型的诊断准确率。
图3为本发明的疾病类型的诊断模型的获取方法实施例二的流程图,如图3所示,本实施例对上述步骤204进行具体解释说明,本实施例的方法可以包括:
步骤301、分别对所述疾病类型的可用数据和非所述疾病类型的可用数据进行多次伪随机处理,获取所述疾病类型的训练数据库和验证数据库,所述训练数据库包括多组所述疾病类型的训练数据,所述验证数据库包括多组所述疾病类型的验证数据。
其中,每组所述疾病类型的训练数据包括所述疾病类型的第一部分的可用数据和非所述疾病类型的第一部分的可用数据,每组所述疾病类型的验证数据包括所述疾病类型的第二部分的可用数据和非所述疾病类型的第二部分的可用数据。该第一部分可以是80%,第二部分可以是20%,即每组所述疾病类型的训练数据包括所述疾病类型的80%的可用数据和非所述疾病类型的80%的可用数据。每组所述疾病类型的验证数据包括所述疾病类型的20%的可用数据和非所述疾病类型的20%的可用数据。
具体的,在上述步骤201至步骤203之后,还可以通过本实施例的步骤301对所述疾病类型的可用数据和非所述疾病类型的可用数据进行伪随机处理,获取所述疾病类型的训练数据库和验证数据库。
其中,伪随机处理具体指随机化选取部分作为训练数据,剩余部分作为验证数据。例如,选取该疾病类型的80%的可用数据和非该疾病类型的80%的可用数据作为该疾病类型的训练数据,剩余部分作为验证数据,该剩余部分包括该疾病类型的20%的可用数据和非该疾病类型的20%的可用数据。
多次伪随机处理,即获取多组该疾病类型的训练数据和多组所述疾病类型的验证数据,使用多组该疾病类型的训练数据对诊断模型进行训练,使用多组该疾病类型的验证数据对进行训练后获取的诊断模型进行效果验证。对次伪随机处理,可以实现对该疾病类型的可用数据和非该疾病类型的可用数据的充分挖掘,提升该疾病类型的诊断模型的诊断准确率。
步骤302、将多组所述疾病类型的训练数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的中间诊断模型。
步骤303、将多组所述疾病类型的验证数据输入所述疾病类型的中间诊断模型,获取所述疾病类型的中间诊断模型输出的测试结果。
通过步骤302得到训练后的诊断模型,本实施将其称之为中间诊断模型。通过步骤303对得到的中间诊断模型的效果进行验证。
步骤304、根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据库进行更新。
其中,当该疾病类型的验证数据对应的疾病类型与中间诊断模型输出的测试结果相同时,则无需更新训练数据库,否则需要对训练数据库进行更新。
当任一所述疾病类型的验证数据对应的疾病类型与所述疾病类型的中间诊断模型输出的测试结果不同,则将所述疾病类型的验证数据添加至所述疾病类型的训练数据库中,通过下述步骤305对该中间诊断模型进行重新训练。
步骤305、使用更新后的训练数据库对所述疾病类型的中间诊断模型进行训练,获取所述疾病类型的诊断模型。
具体的,可以通过上述方法步骤对诊断模型进行多次训练,直至该诊断模型的输出结果与效验数据对应的疾病类型相同,获取该疾病类型的诊断模型。
每个疾病类型的诊断模型都可以通过本实施例的步骤获取。
本实施例,通过分别对所述疾病类型的可用数据和非所述疾病类型的可用数据进行多次伪随机处理,获取所述疾病类型的训练数据库和验证数据库,所述训练数据库包括多组所述疾病类型的训练数据,所述验证数据库包括多组所述疾病类型的验证数据,将多组所述疾病类型的训练数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的中间诊断模型,将多组所述疾病类型的验证数据输入所述疾病类型的中间诊断模型,获取所述疾病类型的中间诊断模型输出的测试结果,根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据库进行更新,使用更新后的训练数据对所述疾病类型的中间诊断模型进行训练,获取所述疾病类型的诊断模型,实现有效利用历史CRF数据获取诊断模型,使用诊断模型进行疾病类型的辅助诊断。并且通过对历史CRF数据的预处理,删除离群数据,使用可用数据对诊断模型进行训练,可以提升训练后得到的诊断模型的诊断准确率。并且通过伪随机处理,可以实现对该疾病类型的可用数据和非该疾病类型的可用数据的充分挖掘,提升该疾病类型的诊断模型的诊断准确率。
下面采用历史CRF数据为小儿肺炎的CRF数据和非小儿肺炎的CRF数据为例,对上述方法实施例做进一步解释说明。
图4为本发明的小儿肺炎的诊断模型的获取方法的示意图,如图4所示,通过上述步骤201至步骤203对小儿肺炎的CRF数据和非小儿肺炎的CRF数据进行处理,获取小儿肺炎的可用CRF数据和非小儿肺炎的可用CRF数据。通过上述步骤301对小儿肺炎的可用CRF数据和非小儿肺炎的可用CRF数据分别进行伪随机处理,得到小儿肺炎的数据挖掘用数据库、非小儿肺炎的数据挖掘用数据库和验证用数据,进而得到小儿肺炎的训练数据库(例如80%小儿肺炎的可用CRF数据+80%非小儿肺炎的可用CRF数据)和小儿肺炎的验证数据库(20%小儿肺炎的可用CRF数据+20%非小儿肺炎的可用CRF数据),使用小儿肺炎的训练数据库(80%小儿肺炎的可用CRF数据+80%非小儿肺炎的可用CRF数据)和小儿肺炎的验证数据库(20%小儿肺炎的可用CRF数据+20%非小儿肺炎的可用CRF数据)对小儿肺炎的诊断模型进行训练,得到该小儿肺炎的诊断模型,在后续输入待确认的CRF数据时,该小儿肺炎的诊断模型可以输出该待确认的CRF数据对应的疾病类型是否为小儿肺炎。
图5为本发明的辅助诊断装置实施例一的结构示意图,如图5所示,本实施例的装置可以包括:获取模块11和类型确定模块12,其中,获取模块,用于获取待确定的病例报告表CRF数据;类型确定模块,用于根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型。
其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明的辅助诊断装置实施例二的结构示意图,如图6所示,本实施例的装置在图5所示装置结构的基础上,进一步地,还可以包括:数据预处理模块13和数据挖掘模块14,该数据预处理模块13,用于获取每个疾病类型的多个历史CRF数据和非所述疾病类型的多个历史CRF数据对应的疾病类型;该数据预处理模块13,还用于删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据;该数据挖掘模块14,用于将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型。
可选的,该数据预处理模块13用于:通过聚类算法检测所述疾病类型的多个历史CRF数据中的离群数据,并删除所述疾病类型的多个历史CRF数据中的离群数据。
可选的,该数据预处理模块13用于:对删除所述离群数据后的所述疾病类型的历史CRF数据进行归一化处理,获取所述疾病类型的可用数据。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明的辅助诊断装置实施例三的结构示意图,如图7所示,本实施例的装置在图6所示装置结构的基础上,进一步地,还可以包括:伪随机处理模块15,该伪随机处理模块15用于分别对所述疾病类型的可用数据和非所述疾病类型的可用数据进行多次伪随机处理,获取所述疾病类型的训练数据库和验证数据库,所述训练数据库包括多组所述疾病类型的训练数据,所述验证数据库包括多组所述疾病类型的验证数据;其中,每组所述疾病类型的训练数据包括所述疾病类型的第一部分的可用数据和非所述疾病类型的第一部分的可用数据,每组所述疾病类型的验证数据包括所述疾病类型的第二部分的可用数据和非所述疾病类型的第二部分的可用数据。
该数据挖掘模块14用于:将多组所述疾病类型的训练数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的中间诊断模型;将多组所述疾病类型的验证数据输入所述疾病类型的中间诊断模型,获取所述疾病类型的中间诊断模型输出的测试结果;根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据库进行更新;使用更新后的训练数据对所述疾病类型的中间诊断模型进行训练,获取所述疾病类型的诊断模型。
可选的,所述数据挖掘模块14用于:当任一所述疾病类型的验证数据对应的疾病类型与所述疾病类型的中间诊断模型输出的测试结果不同,则将所述疾病类型的验证数据添加至所述疾病类型的训练数据库中。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供一种计算机存储介质,其上存储有计算机程序或指令,当所述计算机程序或指令被处理器或计算机执行时,实现如上述任一个所实施例所述的方法。
需要说明的是,本发明实施例的上述辅助诊断装置可以是终端设备,也可以是终端设备中的一个部件,例如一个芯片。
图8为本发明的终端设备实施例一的结构示意图,如图8所示,本实施例的终端设备,包括:处理器211、存储器212、收发器213以及总线214。其中,处理器211、存储器212和收发器213通过总线214相互连接。其中,总线214可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。上述总线214可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在硬件实现上,以上图5至图7所示的各个功能模块可以以硬件形式内嵌于或独立于终端设备的处理器211中。
所述收发器213可以包括混频器等必要的射频通信器件。所述处理器211可以包括中央处理单元(Central Processing Unit,CPU)、数字信号处理器(digital signalprocessor,DSP)、微控制器(Microcontroller Unit,MCU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)或现场可编程逻辑门阵列(Field-ProgrammableGate Array,FPGA)中的至少一个。
存储器212用于存储程序指令,处理器211用于调用存储器212中的程序指令执行上述方案。
所述程序指令可以以软件功能单元的形式实现并能够作为独立的产品销售或使用,所述存储器212可以是任意形式的计算机可读取存储介质。基于这样的理解,本申请的技术方案的全部或部分可以以软件产品的形式体现出来,包括若干指令用以使得一台计算机设备,具体可以是处理器211,来执行本申请各个实施例中终端设备的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例以上所述的终端设备,可以用于执行上述各方法实施例中的技术方案,其实现原理和技术效果类似,其中各个器件的功能可以参考方法实施例中相应的描述,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种辅助诊断方法,其特征在于,包括:
获取待确定的病例报告表CRF数据;
根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型;
其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取每个疾病类型的多个历史CRF数据和非所述疾病类型的多个历史CRF数据;
删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据;
删除非所述疾病类型的多个历史CRF数据中的离群数据,获取非所述疾病类型的可用数据;
将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
分别对所述疾病类型的可用数据和非所述疾病类型的可用数据进行多次伪随机处理,获取所述疾病类型的训练数据库和验证数据库,所述训练数据库包括多组所述疾病类型的训练数据,所述验证数据库包括多组所述疾病类型的验证数据;
其中,每组所述疾病类型的训练数据包括所述疾病类型的第一部分的可用数据和非所述疾病类型的第一部分的可用数据,每组所述疾病类型的验证数据包括所述疾病类型的第二部分的可用数据和非所述疾病类型的第二部分的可用数据。
4.根据权利要求3所述的方法,其特征在于,将所述疾病类型的可用数据和非所述疾病类型的可用数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的诊断模型,包括:
将多组所述疾病类型的训练数据输入诊断模型中,对所述诊断模型进行训练,获取所述疾病类型的中间诊断模型;
将多组所述疾病类型的验证数据输入所述疾病类型的中间诊断模型,获取所述疾病类型的中间诊断模型输出的测试结果;
根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据库进行更新;
使用更新后的训练数据对所述疾病类型的中间诊断模型进行训练,获取所述疾病类型的诊断模型。
5.根据权利要求4所述的方法,其特征在于,所述根据多组所述疾病类型的验证数据对应的疾病类型和所述疾病类型的中间诊断模型输出的测试结果,对所述疾病类型的训练数据进行更新,包括:
当任一所述疾病类型的验证数据对应的疾病类型与所述疾病类型的中间诊断模型输出的测试结果不同,则将所述疾病类型的验证数据添加至所述疾病类型的训练数据库中。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述删除所述疾病类型的多个历史CRF数据中的离群数据,获取所述疾病类型的可用数据,包括:
通过聚类算法检测所述疾病类型的多个历史CRF数据中的离群数据,并删除所述疾病类型的多个历史CRF数据中的离群数据。
7.根据权利要求6所述的方法,其特征在于,所述获取所述疾病类型的可用数据,包括:
对删除所述离群数据后的所述疾病类型的历史CRF数据进行归一化处理,获取所述疾病类型的可用数据。
8.一种辅助诊断装置,其特征在于,包括:
获取模块,用于获取待确定的病例报告表CRF数据;
类型确定模块,用于根据所述待确定的CRF数据和至少一个疾病类型的诊断模型,确定所述待确定的CRF数据对应的疾病类型;
其中,所述至少一个疾病类型的诊断模型分别为使用多个历史CRF数据和所述多个历史CRF数据对应的疾病类型进行训练得到,每个疾病类型的诊断模型的多个历史CRF数据对应的疾病类型为所述疾病类型或非所述疾病类型,所述疾病类型与非所述疾病类型属于相同学科类别。
9.一种终端设备,其特征在于,所述终端设备包括:处理器、存储器、收发器和通信总线,所述处理器、所述存储器和所述收发器通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1至7任一项所述的辅助诊断方法。
10.一种计算机存储介质,其上存储有计算机程序或指令,其特征在于,当所述计算机程序或指令被处理器或计算机执行时,实现如权利要求1至7任一项所述的辅助诊断方法。
CN201810690457.8A 2018-06-28 2018-06-28 辅助诊断方法、装置、终端设备和计算机存储介质 Pending CN108986918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810690457.8A CN108986918A (zh) 2018-06-28 2018-06-28 辅助诊断方法、装置、终端设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810690457.8A CN108986918A (zh) 2018-06-28 2018-06-28 辅助诊断方法、装置、终端设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN108986918A true CN108986918A (zh) 2018-12-11

Family

ID=64539534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810690457.8A Pending CN108986918A (zh) 2018-06-28 2018-06-28 辅助诊断方法、装置、终端设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN108986918A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840932A (zh) * 2019-01-23 2019-06-04 平安科技(深圳)有限公司 心脑血管疾病展示方法、装置、设备及存储介质
CN109979589A (zh) * 2019-02-21 2019-07-05 歌尔科技有限公司 治愈率的分析方法、装置以及计算机可读存储介质
CN112185585A (zh) * 2020-11-03 2021-01-05 浙江大学滨海产业技术研究院 一种基于代谢组学的糖尿病早期预警方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204532A (zh) * 2016-06-24 2016-12-07 华南理工大学 基于特征数据挖掘及神经网络的肿瘤的分类方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204532A (zh) * 2016-06-24 2016-12-07 华南理工大学 基于特征数据挖掘及神经网络的肿瘤的分类方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHASINGDREAMLY: ""基于聚类的离群点检测"", 《BLOG.CSDN.NET/QQ_26591517/ARTICLE/DETAILS/50677889》 *
赵家英: ""面向健康评估的机器学习方法研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
隐士2018: ""训练集、验证集和测试集"", 《YQ.ALIYUN.COM/ARTICLES/382376》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840932A (zh) * 2019-01-23 2019-06-04 平安科技(深圳)有限公司 心脑血管疾病展示方法、装置、设备及存储介质
CN109979589A (zh) * 2019-02-21 2019-07-05 歌尔科技有限公司 治愈率的分析方法、装置以及计算机可读存储介质
CN109979589B (zh) * 2019-02-21 2023-04-25 歌尔科技有限公司 治愈率的分析方法、装置以及计算机可读存储介质
CN112185585A (zh) * 2020-11-03 2021-01-05 浙江大学滨海产业技术研究院 一种基于代谢组学的糖尿病早期预警方法

Similar Documents

Publication Publication Date Title
Geman et al. Visual turing test for computer vision systems
CN107292330A (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN108986918A (zh) 辅助诊断方法、装置、终端设备和计算机存储介质
WO2018133340A1 (zh) 数据分析方法和设备
CN110110754B (zh) 基于代价局部泛化误差的不平衡问题的分类方法
CN111080360B (zh) 行为预测方法、模型训练方法、装置、服务器及存储介质
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
CN111382275A (zh) 医疗知识图谱的构建方法、装置、介质及电子设备
US11854674B2 (en) Determining rate of recruitment information concerning a clinical trial
WO2021179630A1 (zh) 一种并发症风险预测系统、方法、装置、设备及介质
CN106529110A (zh) 一种用户数据分类的方法和设备
CN109448858A (zh) 结直肠癌医疗数据处理方法及装置、存储介质、电子设备
CN112201342A (zh) 基于联邦学习的医疗辅助诊断方法、装置、设备及存储介质
WO2021120587A1 (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN109948680A (zh) 病历数据的分类方法及系统
CN111785366A (zh) 患者治疗方案的确定方法、装置及计算机设备
GB2604683A (en) Machine learning techniques for predictive prioritization
IE20210178A1 (en) Machine Learning Techniques For Predictive Prioritization
Chen et al. A deep-learning based ultrasound text classifier for predicting benign and malignant thyroid nodules
CN109817328A (zh) 一种判别哮喘的方法及装置
CN112819045A (zh) 用于用户生理状态分类的方法、装置、电子设备及介质
CN111581969B (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
Karmen et al. Methods for a similarity measure for clinical attributes based on survival data analysis
CN109192226A (zh) 一种信号处理方法及装置
Martínez-Camblor Area under the ROC curve comparison in the presence of missing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication