CN106202968B - 癌症的数据分析方法及装置 - Google Patents

癌症的数据分析方法及装置 Download PDF

Info

Publication number
CN106202968B
CN106202968B CN201610608939.5A CN201610608939A CN106202968B CN 106202968 B CN106202968 B CN 106202968B CN 201610608939 A CN201610608939 A CN 201610608939A CN 106202968 B CN106202968 B CN 106202968B
Authority
CN
China
Prior art keywords
data
cancer
training
output value
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610608939.5A
Other languages
English (en)
Other versions
CN106202968A (zh
Inventor
刘奎
刘达
侯贝贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baihui Weikang Technology Co Ltd
Original Assignee
Beijing Baihui Weikang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baihui Weikang Technology Co Ltd filed Critical Beijing Baihui Weikang Technology Co Ltd
Priority to CN201610608939.5A priority Critical patent/CN106202968B/zh
Publication of CN106202968A publication Critical patent/CN106202968A/zh
Application granted granted Critical
Publication of CN106202968B publication Critical patent/CN106202968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明提供的癌症的数据分析方法及装置,通过采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。本发明提供的癌症的数据分析方法及装置通过利用现有的数据库中的数据对预设网络架构进行训练和测试,从而获得具有代表性意义的感受性曲线,再将癌症待分析数据的逻辑输出值与该感受性曲线进行比对,计算并生成相应的分析结果,从而为癌症分析提供更加客观的数据分析结果。

Description

癌症的数据分析方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种癌症的数据分析方法及装置。
背景技术
现有的癌症筛查分析是基于医疗测试,例如对待分析人进行癌症标记物的测试,医学影像测试等,医生根据测试结果对待分析人是否患有癌症进行判断。因此,现有的癌症分析是依靠于人工判断的,其主观性很强。
发明内容
本发明提供的一种癌症的数据分析方法及装置用于解决上述涉及的现有的癌症分析是依靠于人工判断的,其主观性很强的缺陷。
一方面,本发明提供的癌症的数据分析方法,包括:
采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;
采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;
将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;
将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。
进一步地,所述采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型之前,还包括:
选取数据库中的若干数据样本作为癌症训练数据集中的数据样本,形成所述预设的癌症训练数据集;
选取所述数据库中的剩余数据样本作为癌症测试数据集中的数据样本,形成所述预设的癌症测试数据集。
进一步地,每个数据样本中包括非结构数据、结构数据和诊断结果;所述预设的网络架构包括第一神经网络架构和第二神经网络架构;
相应的,所述采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型,包括:
采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数,所述第一特征参数用于标识所述非结构数据的特征信息;
采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型;
相应的,所述采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线,包括:
采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值;
根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线。
进一步地,所述非结构数据包括:组学数据、影像数据和信号数据;所述第一神经网络架构中包括深度信念网络、卷积神经网络和循环神经网络;
相应的,所述采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练之前,还包括:
根据所述非结构数据中的组学数据的数据类型,建立所述深度信念网络,所述深度信念网络用于提取所述组学数据的特征信息;
根据所述非结构数据中的影像数据的数据类型,建立所述卷积神经网络,所述卷积神经网络用于提取所述影像数据的特征信息;
根据所述非结构数据中的信号数据的数据类型,建立所述循环神经网络,所述循环神经网络用于提取所述信号数据的特征信息。
进一步地,所述第一特征参数包括组学数据特征参数、影像数据特征参数和信号数据特征参数;
相应的,所述采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数,所述第一特征参数用于标识所述非结构数据的特征信息,包括:
利用神经网络反向传播算法,在所述深度信念网络中对所述癌症训练数据集中的组学数据的特征信息进行提取,获得所述组学数据特征参数;
利用神经网络反向传播算法,在所述卷积神经网络中对所述癌症训练数据集中的影像数据的特征信息进行提取,获得所述影像数据特征参数;
利用神经网络反向传播算法,在所述循环神经网络中对所述癌症训练数据集中的信号数据的特征信息进行提取,获得所述信号数据特征参数;
相应的,所述根据所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型,包括:
利用神经网络反向传播算法和梯度下降算法,根据所述组学数据特征参数、所述影像数据特征参数、所述信号数据特征参数和所述癌症训练数据集中的结构数据,对所述第二神经网络架构中各节点参数进行计算,获得所述训练后的模型;其中,所述训练后的模型的输出值为逻辑输出值,所述逻辑输出值与所述预设的癌症训练数据集中的诊断结果误差最小。
进一步地,所述根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线,包括:
选取所述癌症测试数据集中的一个数据样本作为当前数据样本;
将所述当前数据样本的逻辑输出值作为判定阈值;
将所述判定阈值与所述癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得所述癌症测试数据集中的所述每个其他数据样本的判定结果;
根据所述癌症测试数据集中的所述每个其他数据样本的判定结果以及与所述每个其他数据样本对应的诊断结果,建立与所述当前数据样本的逻辑输出值对应的混淆矩阵;
根据所述与所述当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与所述当前数据样本的逻辑输出值对应的敏感度和特异性;
返回执行所述选取所述癌症测试数据集中的一个数据样本作为当前数据样本的步骤,直至计算获得与所述癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性;
根据所述癌症测试数据集中的每个数据样本的逻辑输出值,以及每个数据样本的逻辑输出值对应的敏感度和特异性,画出感受性曲线。
进一步地,所述将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果,包括:
将所述癌症待分析数据的逻辑输出值与所述感受性曲线中的所述癌症测试数据集中的每个数据样本的逻辑输出值进行比对,得到所述癌症待分析数据的敏感度和特异性;
根据所述癌症待分析数据的敏感度和特异性,计算并输出所述癌症待分析数据的患癌风险率、分数、虚警率和漏报率。
进一步地,所述癌症待分析数据包括非结构数据和结构数据;
相应的,所述将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值,包括:
将所述癌症待分析数据中的非结构数据和结构数据输入所述训练后的模型,获得所述癌症待分析数据的逻辑输出值。
另一方面,本发明还提供了一种癌症的数据分析装置,包括:
训练模块,用于采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;
测试模块,用于采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;
第一计算模块,用于将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;
第二计算模块,用于将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。
进一步地,该癌症的数据分析装置还包括:数据集建立模块;
所述数据集建立模块在训练模块采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型之前,还用于:选取数据库中的若干数据样本作为癌症训练数据集中的数据样本,形成所述预设的癌症训练数据集;选取所述数据库中的剩余数据样本作为癌症测试数据集中的数据样本,形成所述预设的癌症测试数据集。
进一步地,每个数据样本中包括非结构数据、结构数据和诊断结果;所述预设的网络架构包括第一神经网络架构和第二神经网络架构;
所述训练模块,还用于:采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数,所述第一特征参数用于标识所述非结构数据的特征信息;采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型;
所述测试模块,还用于:采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值;根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线。
进一步地,所述非结构数据包括:组学数据、影像数据和信号数据;所述第一神经网络架构中包括深度信念网络、卷积神经网络和循环神经网络;所述癌症的数据分析装置还包括:网络构建模块;
所述网络构建模块用于:在所述训练模块采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练之前,用于根据所述非结构数据中的组学数据的数据类型,建立所述深度信念网络,所述深度信念网络用于提取所述组学数据的特征信息;根据所述非结构数据中的影像数据的数据类型,建立所述卷积神经网络,所述卷积神经网络用于提取所述影像数据的特征信息;根据所述非结构数据中的信号数据的数据类型,建立所述循环神经网络,所述循环神经网络用于提取所述信号数据的特征信息。
进一步地,所述第一特征参数包括组学数据特征参数、影像数据特征参数和信号数据特征参数;所述训练模块包括:第一训练单元和第二训练单元;
其中,所述第一训练单元用于:利用神经网络反向传播算法,在所述深度信念网络中对所述癌症训练数据集中的组学数据的特征信息进行提取,获得所述组学数据特征参数;利用神经网络反向传播算法,在所述卷积神经网络中对所述癌症训练数据集中的影像数据的特征信息进行提取,获得所述影像数据特征参数;利用神经网络反向传播算法,在所述循环神经网络中对所述癌症训练数据集中的信号数据的特征信息进行提取,获得所述信号数据特征参数;
所述第二训练单元用于:利用神经网络反向传播算法和梯度下降算法,根据所述组学数据特征参数、所述影像数据特征参数、所述信号数据特征参数和所述癌症训练数据集中的结构数据,对所述第二神经网络架构中各节点参数进行计算,获得所述训练后的模型;其中,所述训练后的模型的输出值为逻辑输出值,所述逻辑输出值与所述预设的癌症训练数据集中的诊断结果误差最小。
进一步地,所述测试模块还用于:
选取所述癌症测试数据集中的一个数据样本作为当前数据样本;
将所述当前数据样本的逻辑输出值作为判定阈值;
将所述判定阈值与所述癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得所述癌症测试数据集中的所述每个其他数据样本的判定结果;
根据所述癌症测试数据集中的所述每个其他数据样本的判定结果以及与所述每个其他数据样本对应的诊断结果,建立与所述当前数据样本的逻辑输出值对应的混淆矩阵;
根据所述与所述当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与所述当前数据样本的逻辑输出值对应的敏感度和特异性;
返回执行所述选取所述癌症测试数据集中的一个数据样本作为当前数据样本的步骤,直至计算获得与所述癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性;
根据所述癌症测试数据集中的每个数据样本的逻辑输出值,以及每个数据样本的逻辑输出值对应的敏感度和特异性,画出感受性曲线。
进一步地,所述第二计算模块,还用于:
将所述癌症待分析数据的逻辑输出值与所述感受性曲线中的所述癌症测试数据集中的每个数据样本的逻辑输出值进行比对,得到所述癌症待分析数据的敏感度和特异性;
根据所述癌症待分析数据的敏感度和特异性,计算并输出所述癌症待分析数据的患癌风险率、分数、虚警率和漏报率。
进一步地,述癌症待分析数据包括非结构数据和结构数据;
所述第一计算模块还用于:将所述癌症待分析数据中的非结构数据和结构数据输入所述训练后的模型,获得所述癌症待分析数据的逻辑输出值。
本发明实施例提供的癌症的数据分析方法及装置,其通过采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。本发明提供的癌症的数据分析方法及装置通过利用现有的数据库中的数据对预设网络架构进行训练和测试,从而获得具有代表性意义的感受性曲线,再将癌症待分析数据的逻辑输出值与该感受性曲线进行比对,计算并生成相应的分析结果,从而为癌症分析提供更加客观的数据分析结果。
附图说明
图1为本发明实施例一提供的一种癌症的数据分析方法的流程示意图;
图2为本发明实施例二提供的一种癌症的数据分析方法的流程示意图;
图3为本发明实施例三提供的一种癌症的数据分析方法的流程示意图;
图4为本发明实施例四提供的一种癌症的数据分析方法的流程示意图;
图5为本发明实施例五提供的一种癌症的数据分析装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明实施例一提供的一种癌症的数据分析方法的流程示意图。针对现有的癌症分析是依靠于人工判断的问题,本发明提供了一种基于神经网络的癌症的数据分析方法,以实现对癌症进行更客观的数据分析。如图1所示,本发明实施例一提供的癌症的数据分析方法包括:
步骤101、采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型。
具体来说,采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型。其中,预设的网络架构具体可例如神经网络架构,分布式网络架构等,采用预设的癌症训练数据集对该预设的网络架构进行训练以得到符合测试需求和使用需求的训练后的模型。
优选地,在上述步骤101中的采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型之前,还可包括建立癌症训练数据集和建立癌症测试数据测试集的过程。具体来说,选取数据库中的若干数据样本作为癌症训练数据集中的数据样本,形成所述预设的癌症训练数据集;选取所述数据库中的剩余数据样本作为癌症测试数据集中的数据样本,形成所述预设的癌症测试数据集。例如,数据库可具体为某医院的病历数据库,其中包括有在该医院进行过体检或治疗的所有人的病历,其中病历可包括有个人信息,各项检测得到的数据,通过巡诊获得的病史以及诊断结果等的记录,其中每一个人的病历可称为一个数据样本。在建立本申请的癌症训练数据集和建立癌症测试数据测试集的过程中,可通过随机选取病历数据库的若干个病历以作为癌症训练数据集,并将选取的若干个病历以外的其他病历作为癌症测试数据集。其中,关于选取数据样本的选取规则以及选取的癌症训练数据集和症测试数据测试集中的数据样本数量,本领域技术人员可根据实际情况自行设定。
步骤102、采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线。
具体来说,采用预设的癌症测试数据集对训练后的模型进行测试,获得感受性曲线。其中,针对癌症数据分析来说,感受性曲线具体可为对癌症感受性曲线,其可反映癌症测试数据集内的各数据样本对癌症的感受性反应。
步骤103、将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值。
具体来说,癌症待分析数据具体可为待分析人的通过体检获得的相关数据以及通过询问获得的病史数据。将这些癌症待分析数据导入训练后的模型,并输出该癌症待分析数据的逻辑输出值。其中逻辑输出值具体为可0至1之间的实数。
步骤104、将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。
具体的,将获得癌症待分析数据的逻辑输出值与感受性曲线中各数据样本的相关数据进行比对,计算并输出癌症的分析结果,其中该分析结果具体可例如患癌风险率、分数、虚警率和漏报率等。进一步来说,患癌风险率可用于指示患有癌症的风险指数,如该待分析人的患癌风险是常人的倍数等;分数则可用于指示该待分析人当前的身体状况等,虚警率和漏报率均可用于指示该分析结果的可信度。
本发明实施例一提供了一种癌症的数据分析方法,其通过采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。本发明实施例一提供的癌症的数据分析方法通过利用现有的数据库中的数据对预设网络架构进行训练和测试,从而获得具有代表性意义的感受性曲线,再将癌症待分析数据的逻辑输出值与该感受性曲线进行比对,计算并生成相应的分析结果,从而为癌症分析提供更加客观的数据分析结果。
进一步地,在上述实施例一的基础上,图2为本发明实施例二提供的一种癌症的数据分析方法的流程示意图,如图2所示,该方法包括:
步骤201、采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数;
其中,所述第一特征参数用于标识所述非结构数据的特征信息。
步骤202、采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型。
上述步骤201-202是实现采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型的一种具体实施方式。具体来说,其中癌症训练数据集中的每个数据样本中包括非结构数据、结构数据和诊断结果,预设的网络架构具体可包括第一神经网络架构和第二神经网络架构。
相应的,采用所述癌症训练数据集中的非结构数据对第一神经网络架构进行训练,获得第一特征参数,该第一特征参数可用于标识所述非结构数据的特征信息,其中,该第一特征参数具体可理解为将非结构数据结构化后,其特征信息所对应的特征参数。利用获得的通过对获得非结构数据的第一特征参数以及癌症训练数据集中的结构数据对第二神经网络架构进行训练,获得所述训练后的模型。
需要说明的是,本实施例二中的第一神经网络架构和第二神经网络架构均为预设的,其可通过采用现有神经网络架构实现,具体来说,其第一神经网络架构可实现对非结构数据的特征信息提取,使该非结构数据结构化,而第二神经网络架构可利用结构化的非结构数据以及结构数据对自身网络进行训练,以形成训练后的模型。
优选地,在上述步骤201中的采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练之前,还可包括建立癌症训练数据集和建立癌症测试数据测试集的过程。具体来说,选取数据库中的若干数据样本作为癌症训练数据集中的数据样本,形成所述预设的癌症训练数据集;选取所述数据库中的剩余数据样本作为癌症测试数据集中的数据样本,形成所述预设的癌症测试数据集。例如,数据库可具体为某医院的病历数据库,其中包括有在该医院进行过体检或治疗的所有人的病历,其中病历可包括有个人信息,各项检测得到的数据,通过巡诊获得的病史以及诊断结果等的记录,其中每一个人的病历可称为一个数据样本。在建立本申请的癌症训练数据集和建立癌症测试数据测试集的过程中,可通过随机选取病历数据库的若干个病历以作为癌症训练数据集,并将选取的若干个病历以外的其他病历作为癌症测试数据集。其中,关于选取数据样本的选取规则以及选取的癌症训练数据集和症测试数据测试集中的数据样本数量,本领域技术人员可根据实际情况自行设定。
步骤203、采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值。
步骤204、根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线。
上述步骤203-204是实现采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线的一种具体实施方式。具体来说,由于训练后的模型是通过对非结构数据和结构数据训练获得的,其可实现对非结构数据和结构数据的处理。相应的,可利用癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,以获得癌症测试数据集的逻辑输出值,其中该逻辑输出值可为0至1之间的实数,针对癌症测试数据集中的每个数据样本,均有一个逻辑输出值与之对应。根据癌症测试数据集的逻辑输出值和癌症测试数据集中的诊断结果,画出感受性曲线,其中,针对癌症测试数据集中的每个数据样本来说,其对应一个逻辑输出值以及一个诊断结果,根据逻辑输出值和该诊断结构,可确定出每个数据样本在该感受型曲线上的数据点位置,并的到该癌症测试数据集中所有数据样本的感受性曲线。
步骤205、将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值。
具体来说,由于训练后的模型是通过对非结构数据和结构数据训练获得的,其可实现对非结构数据和结构数据的处理,因此,在癌症待分析数据中可包括非结构数据和结构数据,相应的,步骤205具体可为将所述癌症待分析数据中的非结构数据和结构数据输入所述训练后的模型,获得所述癌症待分析数据的逻辑输出值,其中该逻辑输出值可为0至1之间的实数。
步骤206、将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。
具体的,将获得癌症待分析数据的逻辑输出值与感受性曲线中各数据样本的相关数据进行比对,计算并输出癌症的分析结果,其中该分析结果具体可例如患癌风险率、分数、虚警率和漏报率等。进一步来说,患癌风险率可用于指示患有癌症的风险指数,如该待分析人的患癌风险是常人的倍数等;分数则可用于指示该待分析人当前的身体状况等,虚警率和漏报率均可用于指示该分析结果的可信度。
本发明实施例二提供了一种癌症的数据分析方法,其通过采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数,所述第一特征参数用于标识所述非结构数据的特征信息;采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型;采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值;根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线;将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。在本发明实施例二提供的癌症的数据分析方法中,由于训练后的模型是通过采用癌症训练数据集中的非结构数据对第一神经网络架构训练,以及通过采用第一特征参数和癌症训练数据集中的结构数据对第二神经网络架构训练得到的,该训练后的模型可以实现对非结构数据和结构数据的处理,因此,该训练后的模型所输出的逻辑输出值以及根据逻辑输出值获得的感受性曲线也更能体现真实情况,提高癌症待分析数据的分析结果的准确性。
进一步地,为了进一步描述本申请的技术方案,图3为本发明实施例三提供的一种癌症的数据分析方法的流程示意图,如图3所示,在上述实施例二的基础上,该实施例三提供的方法包括:
步骤301、利用神经网络反向传播算法,在所述深度信念网络中对所述癌症训练数据集中的组学数据的特征信息进行提取,获得所述组学数据特征参数。
步骤302、利用神经网络反向传播算法,在所述卷积神经网络中对所述癌症训练数据集中的影像数据的特征信息进行提取,获得所述影像数据特征参数。
步骤303、利用神经网络反向传播算法,在所述循环神经网络中对所述癌症训练数据集中的信号数据的特征信息进行提取,获得所述信号数据特征参数。
上述步骤301-303是实现采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数的一种具体实现方式。其中,非结构数据可具体包括组学数据、影像数据和信号数据,第一神经网络架构可具体包括深度信念网络、卷积神经网络和循环神经网络,相应的,该第一特征参数则具体可为组学数据特征参数、影像数据特征参数和信号数据特征参数。
具体来说,癌症训练数据集中的非结构数据对第一神经网络架构进行训练,获得第一特征参数具体可分为:利用神经网络反向传播算法,在深度信念网络中对癌症训练数据集中的组学数据的特征信息进行提取,获得组学数据特征参数,其中该组学数据特征参数的数量可由本领域技术人员根据实际情况自行设置;利用神经网络反向传播算法,在卷积神经网络中对癌症训练数据集中的影像数据的特征信息进行提取,获得影像数据特征参数,其中该影像数据特征参数的数量可由本领域技术人员根据实际情况自行设置;利用神经网络反向传播算法,在循环神经网络中对癌症训练数据集中的信号数据的特征信息进行提取,获得信号数据特征参数,其中该信号数据特征参数的数量可由本领域技术人员根据实际情况自行设置。
优选地,针对第一神经网络架构来说,在步骤301之前,还可包括对该第一神经网络的架构过程:由于第一特征参数包括组学数据特征参数、影像数据特征参数和信号数据特征参数。因此,根据所述非结构数据中的组学数据的数据类型,建立所述深度信念网络,所述深度信念网络用于提取所述组学数据的特征信息;根据所述非结构数据中的影像数据的数据类型,建立所述卷积神经网络,所述卷积神经网络用于提取所述影像数据的特征信息;根据所述非结构数据中的信号数据的数据类型,建立所述循环神经网络,所述循环神经网络用于提取所述信号数据的特征信息。
进一步来说,上述涉及的组学数据具体可为基因组序列数据、蛋白质组数据以及微阵列基因表达数据中的一种或一种以上种类的数据;影像数据具体可为X射线成像、电子计算机断层扫描成像、正电子发射断层扫描成像、核磁共振成像、超声成像中的一种或一种以上种类的成像;循环数据具体可为心电图、脑电图、脑皮层电图以及肌电图中的一种或一种以上种类的信号电图。本领域技术人员可根据实际情况对上述的非结构数据中的组学数据的数据种类、影像数据的数据种类以及信号数据的数据种类进行选择,并根据各数据的数据种类采用相应的网络架构第一神经网络,并利用第一神经网络中的相应网络对该数据种类的数据的特征信息进行逐层提取,以实现对非结构数据结构化的目的,提高训练后的模型对非结构数据的辨识度,进一步提高对非结构数据的特征信息提取的准确度。
步骤304、利用神经网络反向传播算法和梯度下降算法,根据所述组学数据特征参数、所述影像数据特征参数、所述信号数据特征参数和所述癌症训练数据集中的结构数据,对所述第二神经网络架构中各节点参数进行计算,获得所述训练后的模型;
其中,所述训练后的模型的输出值为逻辑输出值,所述逻辑输出值与所述预设的癌症训练数据集中的诊断结果误差最小。
上述步骤304是采用第一特征参数和癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得训练后的模型的一种具体实现方式。由于该第一特征参数则具体可为组学数据特征参数、影像数据特征参数和信号数据特征参数。在第二神经网络架构的训练过程中,利用神经网络反向传播算法和梯度下降算法,根据组学数据特征参数、影像数据特征参数、信号数据特征参数和癌症训练数据集中的结构数据,对所述第二神经网络架构中各节点参数进行计算,获得训练后的模型。训练后的模型的输出值为逻辑输出值,逻辑输出值与预设的癌症训练数据集中的诊断结果误差最小,其中,逻辑输出值为0至1之间的实数,而诊断结果则可用0或1进行标识,例如若患有癌症则诊断结果标识为1,若不患有癌症则诊断结果标识为0,因此,当利用神经网络反向传播算法和梯度下降算法训练获得的模型所输出的逻辑输出值与诊断结果标识之间的误差最小时,则训练完成,该模型则为训练后的模型。
需要说明的是,该结构数据具体可理解为通过相关参数直接进行标识的数据,例如其可包括:人口统计学数据、血常规、尿常规、癌症标记物、常规体检数据等中的一种或一种以上数据。
其中,人口统计学数据可例如性别、年龄、种族;血常规可例如白细胞计数、红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均红细胞血红蛋白浓度、红细胞体积分布宽度变异稀疏、红细胞体积分布宽度标准差、血小板、平均血小板体积、血小板容积分布宽度、中间细胞百分比、中间细胞绝对值、中性粒细胞绝对值、淋巴细胞绝对值、中性粒细胞百分比、淋巴细胞百分比等;尿常规可例如尿素、肌酐、尿酸、总胆固醇、甘油三酯、空腹血糖、比重、PH值、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质、葡萄糖;癌症标记物可例如癌胚抗原CEA、甲胎蛋白AFP、癌抗原CA724、癌抗原CA242、神经元特异性烯醇化酶NSE、游离前列腺特异性抗原FPSA、前列腺特异性抗原TPSA、癌抗原CA153、癌抗原CA125、癌抗原CA199以及a岩藻糖苷酶等;常规体检数据可例如家族史、吸烟史、体重指数、收缩压、舒张压、骨密度检测、疲劳检测、血清总胆汁酸、血沉、三碘甲状腺原氨酸(T3)电发光、甲状腺素(T4)电发光、促甲状腺素(TSH)电发光、游离三碘甲状腺原氨酸(F-T3)电发光、游离甲状腺素(F-T4)电发光、铜、铁、锌、钙、镁、幽门螺杆菌抗体检测、丙氨酸氨基转移酶、γ-谷氨酰转移酶、天门冬氨酸氨基转移酶、乳酸脱氢酶、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、空腹血糖、肌酸激酶、肌酸激酶同工酶、α-羟丁酸脱氢酶、乙肝表面抗原、乙肝表面抗体、乙肝e抗原、乙肝e抗体、乙肝核心抗体等。
步骤305、采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值。
具体来说,与癌症训练数据集中的数据类型相似的是,癌症测试数据集中也包括有非结构数据和结构数据,其中,非结构数据可具体包括组学数据、影像数据和信号数据,例如组学数据具体可为基因组序列数据、蛋白质组数据以及微阵列基因表达数据中的一种或一种以上种类的数据;影像数据具体可为X射线成像、电子计算机断层扫描成像、正电子发射断层扫描成像、核磁共振成像、超声成像中的一种或一种以上种类的成像;循环数据具体可为心电图、脑电图、脑皮层电图以及肌电图中的一种或一种以上种类的信号电图;该结构数据具体可理解为通过相关参数直接进行标识的数据,例如其可包括:人口统计学数据、血常规、尿常规、癌症标记物、常规体检数据等中的一种或一种以上数据。在对训练后的模型进行测试的过程中,可通过将癌症测试数据集中的非结构数据和结构数据导入所训练后的模型中,以获得所述癌症测试数据集的逻辑输出值。
步骤306、根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线。
具体来说,针对癌症测试数据集中的每个数据样本,均有一个逻辑输出值与之对应。根据癌症测试数据集的逻辑输出值和癌症测试数据集中的诊断结果,画出感受性曲线,其中,针对癌症测试数据集中的每个数据样本来说,其对应一个逻辑输出值以及一个诊断结果,根据逻辑输出值和该诊断结构,可确定出每个数据样本在该感受型曲线上的数据点位置,并的到该癌症测试数据集中所有数据样本的感受性曲线。
步骤307、将所述癌症待分析数据中的非结构数据和结构数据输入所述训练后的模型,获得所述癌症待分析数据的逻辑输出值。
与步骤305和306类似的是,癌症待分析数据中也包括有非结构数据和结构数据,其中,非结构数据可具体包括组学数据、影像数据和信号数据,例如组学数据具体可为基因组序列数据、蛋白质组数据以及微阵列基因表达数据中的一种或一种以上种类的数据;影像数据具体可为X射线成像、电子计算机断层扫描成像、正电子发射断层扫描成像、核磁共振成像、超声成像中的一种或一种以上种类的成像;循环数据具体可为心电图、脑电图、脑皮层电图以及肌电图中的一种或一种以上种类的信号电图;该结构数据具体可理解为通过相关参数直接进行标识的数据,例如其可包括:人口统计学数据、血常规数据、尿常规数据、癌症标记物数据、家族史、吸烟史、体重指数、收缩压、舒张压、骨密度检测、疲劳检测、血清总胆汁酸、血沉、三碘甲状腺原氨酸电发光、甲状腺素电发光、促甲状腺素电发光、游离三碘甲状腺原氨酸电发光、游离甲状腺素电发光、铜、铁、锌、钙、镁、幽门螺杆菌抗体检测、丙氨酸氨基转移酶、γ-谷氨酰转移酶、天门冬氨酸氨基转移酶、乳酸脱氢酶、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、空腹血糖、肌酸激酶、肌酸激酶同工酶、α-羟丁酸脱氢酶、乙肝表面抗原、乙肝表面抗体、乙肝e抗原、乙肝e抗体和乙肝核心抗体中一种或一种以上数据。其中,所述人口统计学数据包括:性别、年龄和种族;所述血常规数据包括:白细胞计数、红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均红细胞血红蛋白浓度、红细胞体积分布宽度变异稀疏、红细胞体积分布宽度标准差、血小板、平均血小板体积、血小板容积分布宽度、中间细胞百分比、中间细胞绝对值、中性粒细胞绝对值、淋巴细胞绝对值、中性粒细胞百分比和淋巴细胞百分比中的一种或一种以上的数据;所述尿常规数据包括:尿素、肌酐、尿酸、总胆固醇、甘油三酯、空腹血糖、比重、氢离子浓度指数、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质和葡萄糖中的一种或一种以上的数据;所述癌症标记物包括:癌胚抗原CEA、甲胎蛋白AFP、癌抗原CA724、癌抗原CA242、神经元特异性烯醇化酶NSE、游离前列腺特异性抗原FPSA、前列腺特异性抗原TPSA、癌抗原CA153、癌抗原CA125、癌抗原CA199以及a岩藻糖苷酶中的一种或一种以上的数据。。通过将癌症待分析数据中的非结构数据和结构数据导入训练后的模型中,以获得癌症待分析数据的逻辑输出值,其中该逻辑输出值可为0至1之间的实数。
步骤308、将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。
具体的,将获得癌症待分析数据的逻辑输出值与感受性曲线中各数据样本的相关数据进行比对,计算并输出癌症的分析结果,其中该分析结果具体可例如患癌风险率、分数、虚警率和漏报率等。进一步来说,患癌风险率可用于指示患有癌症的风险指数,如该待分析人的患癌风险是常人的倍数等;分数则可用于指示该待分析人当前的身体状况等,虚警率和漏报率均可用于指示该分析结果的可信度。
本发明实施例三提供了一种癌症的数据分析方法,其将非结构数据分为组学数据、影像数据和信号数据,相应的,第一神经网络架构可包括深度信念网络、卷积神经网络和循环神经网络,并利用第一神经网络中的各网络架构对相应的数据种类的非结构数据的特征信息进行逐层提取,以实现对非结构数据结构化的目的,提高训练后的模型对非结构数据的辨识度,提高对分析结果的准确度。
进一步地,为了进一步提高分析结果的客观性和准确度,图4为本发明实施例四提供的一种癌症的数据分析方法的流程示意图,在上述实施例二和三的基础上,如图4所示,该实施例四提供的方法包括:
步骤401、采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数;
其中,所述第一特征参数用于标识所述非结构数据的特征信息。
步骤402、采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型。
步骤403、采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值。
上述步骤401-403的具体实现方式可参见实施例二中的步骤201-203或实施例三中的步骤301-305,本实施例四在此不做赘述。
为了实现癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线,可通过采用选取所述癌症测试数据集中的一个数据样本作为当前数据样本;将所述当前数据样本的逻辑输出值作为判定阈值;将所述判定阈值与所述癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得所述癌症测试数据集中的所述每个其他数据样本的判定结果;根据所述癌症测试数据集中的所述每个其他数据样本的判定结果以及与所述每个其他数据样本对应的诊断结果,建立与所述当前数据样本的逻辑输出值对应的混淆矩阵;根据所述与所述当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与所述当前数据样本的逻辑输出值对应的敏感度和特异性;返回执行所述选取所述癌症测试数据集中的一个数据样本作为当前数据样本的步骤,直至计算获得与所述癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性。
具体来说,可通过采用如下步骤404-410来实现:
步骤404、选取所述癌症测试数据集中的一个数据样本作为当前数据样本。
步骤405、将所述当前数据样本的逻辑输出值作为判定阈值。
步骤406、将所述判定阈值与所述癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得所述癌症测试数据集中的所述每个其他数据样本的判定结果。
步骤407、根据所述癌症测试数据集中的所述每个其他数据样本的判定结果以及与所述每个其他数据样本对应的诊断结果,建立与所述当前数据样本的逻辑输出值对应的混淆矩阵。
步骤408、根据所述与所述当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与所述当前数据样本的逻辑输出值对应的敏感度和特异性。
步骤409、判断是否获得与所述癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性;
若是,则执行步骤410;若否则执行步骤404。
步骤410、根据所述癌症测试数据集中的每个数据样本的逻辑输出值,以及每个数据样本的逻辑输出值对应的敏感度和特异性,画出感受性曲线。
具体来说,在步骤403中获取到了癌症测试数据集的逻辑输出值,也就是说获取到了癌症测试数据集中的每一个数据样本的逻辑输出值。选取癌症测试数据集中的一个数据样本作为当前数据样本,并将该当前数据样本的逻辑输出值作为判定阈值。将判定阈值与癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得癌症测试数据集中的每个其他数据样本的判定结果,例如,若当前数据样本的逻辑输出值为0.5,则将0.5作为判定阈值对其他数据样本的逻辑输出值进行比对,若其他数据样本的逻辑输出值大于等于0.5,则可判定出该数据样本为患癌症数据样本,若若其他数据样本的逻辑输出值小于0.5,本发明实施例四对判定规则不进行限制,本领域技术人员可根据实际情况自行设置。根据在该判定阈值下的每个其他数据样本的判定结果以及与每个其他数据样本对应的诊断结果,建立与当前数据样本的逻辑输出值对应的混淆矩阵,根据与当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与当前数据样本的逻辑输出值对应的敏感度和特异性。因此,在上述过程中,针对选出的当前数据样本来说,该逻辑输出值则与根据对应的混淆矩阵计算出的敏感度和特异性对应。
重复执行上述选取数据样本并计算与该数据样本的逻辑输出值对应的敏感度和特异性的过程,直至获得与癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性。根据该每个数据样本的逻辑输出值,以及每个数据样本的逻辑输出值对应的敏感度和特异性,描出每个数据样本所对应的坐标点,并画出感受性曲线,其中感受性曲线的横坐标可为1-特异性值,而纵坐标可为敏感度值。
步骤411、将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值。
上述步骤411的具体实现方式可参见实施例二中的步骤205或实施例三中的步骤307,本实施例四在此不做赘述。
步骤412、将所述癌症待分析数据的逻辑输出值与所述感受性曲线中的所述癌症测试数据集中的每个数据样本的逻辑输出值进行比对,得到所述癌症待分析数据的敏感度和特异性。
具体来说,将癌症待分析数据的逻辑输出值与感受性曲线中的每个数据样本的逻辑输出值进行比对,获得癌症待分析数据的敏感度和特异性。例如,将待分析数据的逻辑输出值与每个数据样本的逻辑输出值进行比对,获得逻辑输出值与待分析数据的逻辑输出值差值最小的数据样本,并将与该数据样本的逻辑输出值对应的敏感度和特异性作为癌症待分析数据的逻辑输出值对应的敏感度和特异性;或者,将待分析数据的逻辑输出值与每个数据样本的逻辑输出值进行比对,获得逻辑输出值与待分析数据的逻辑输出值最接近的两个数据样本,也就是说待分析数据的逻辑输出值位于该两个数据样本的逻辑输出值之间,将与该两个数据样本的逻辑输出值对应的敏感度和特异性进行均值计算,将获得的敏感度均值以及特异性均值作为待分析数据的逻辑输出值所对应的敏感度和特异性。需要说明的是,本领域技术人员可根据实际需要自行设定该获得过程,本发明对此不进行限制。
步骤413、根据所述癌症待分析数据的敏感度和特异性,计算并输出所述癌症待分析数据的患癌风险率、分数、虚警率和漏报率。
例如:
Figure GDA0002245905650000201
其中,P(Y=1)表示患有癌症的概率,其具体可根据数据库中的癌症测试数据集中的诊断结果为患有癌症的数据样本数量与癌症测试数据集中的总数据样本数量之比获得。
此外,分数=100*逻辑输出值、虚警率=1-特异性、漏报率=1-敏感度,其具体计算方法也可参见现有技术中的相关内容,本申请对此不进行限制。
本发明实施例四提供的一种癌症的数据分析方法,通过采用循环比对的方法,对癌症测试数据集中的每个数据样本进行比对,以获得每个数据样本的逻辑输出值对应的敏感度和特异性,并根据该每个数据样本的逻辑输出值对应的敏感度和特定性画出感受性曲线,从而使得获得的感受性曲线更加准确,符合真实癌症患病情况。进而使得根据该感受性曲线获得的癌症待分析数据的敏感度和特异性以及其分析结果更加准确和客观。
图5为本发明实施例五提供的一种癌症的数据分析装置的结构示意图,如图5所示,该装置包括:训练模块10、测试模块20、第一计算模块30和第二计算模块40。
训练模块10,用于采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;
测试模块20,用于采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;
第一计算模块30,用于将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;
第二计算模块40,用于将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。
优选地,该装置还包括数据集建立模块,该所述数据集建立模块在训练模块采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型之前,还用于:选取数据库中的若干数据样本作为癌症训练数据集中的数据样本,形成所述预设的癌症训练数据集;选取所述数据库中的剩余数据样本作为癌症测试数据集中的数据样本,形成所述预设的癌症测试数据集。
进一步地,每个数据样本中包括非结构数据、结构数据和诊断结果;所述预设的网络架构包括第一神经网络架构和第二神经网络架构;所述训练模块10,还用于:采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数,所述第一特征参数用于标识所述非结构数据的特征信息;采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型;所述测试模块20,还用于:采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值;根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线。
优选地,所述非结构数据包括:组学数据、影像数据和信号数据;所述第一神经网络架构中包括深度信念网络、卷积神经网络和循环神经网络;所述癌症的数据分析装置还包括:网络构建模块;所述网络构建模块用于:在所述训练模块采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练之前,用于根据所述非结构数据中的组学数据的数据类型,建立所述深度信念网络,所述深度信念网络用于提取所述组学数据的特征信息;根据所述非结构数据中的影像数据的数据类型,建立所述卷积神经网络,所述卷积神经网络用于提取所述影像数据的特征信息;根据所述非结构数据中的信号数据的数据类型,建立所述循环神经网络,所述循环神经网络用于提取所述信号数据的特征信息。
更优地,上述涉及的组学数据具体可包括:基因组序列数据、蛋白质组数据和微阵列基因表达数据其中的一种或一种以上;上述涉及的影像数据包括:X射线成像、电子计算机断层扫描成像、正电子发射断层扫描成像、核磁共振成像和超声成像其中的一种或一种以上;上述涉及的信号数据包括:心电图、脑电图、脑皮层电图和肌电图其中的一种或一种以上。
更优地,上述涉及的结构数据包括:人口统计学数据、血常规数据、尿常规数据、癌症标记物数据、家族史、吸烟史、体重指数、收缩压、舒张压、骨密度检测、疲劳检测、血清总胆汁酸、血沉、三碘甲状腺原氨酸电发光、甲状腺素电发光、促甲状腺素电发光、游离三碘甲状腺原氨酸电发光、游离甲状腺素电发光、铜、铁、锌、钙、镁、幽门螺杆菌抗体检测、丙氨酸氨基转移酶、γ-谷氨酰转移酶、天门冬氨酸氨基转移酶、乳酸脱氢酶、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、空腹血糖、肌酸激酶、肌酸激酶同工酶、α-羟丁酸脱氢酶、乙肝表面抗原、乙肝表面抗体、乙肝e抗原、乙肝e抗体和乙肝核心抗体中一种或一种以上数据;其中,人口统计学数据包括:性别、年龄和种族;血常规数据包括:白细胞计数、红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均红细胞血红蛋白浓度、红细胞体积分布宽度变异稀疏、红细胞体积分布宽度标准差、血小板、平均血小板体积、血小板容积分布宽度、中间细胞百分比、中间细胞绝对值、中性粒细胞绝对值、淋巴细胞绝对值、中性粒细胞百分比和淋巴细胞百分比中的一种或一种以上的数据;尿常规数据包括:尿素、肌酐、尿酸、总胆固醇、甘油三酯、空腹血糖、比重、氢离子浓度指数、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质和葡萄糖中的一种或一种以上的数据;癌症标记物包括:癌胚抗原CEA、甲胎蛋白AFP、癌抗原CA724、癌抗原CA242、神经元特异性烯醇化酶NSE、游离前列腺特异性抗原FPSA、前列腺特异性抗原TPSA、癌抗原CA153、癌抗原CA125、癌抗原CA199以及a岩藻糖苷酶中的一种或一种以上的数据。
进一步地,所述第一特征参数包括组学数据特征参数、影像数据特征参数和信号数据特征参数;所述训练模块10包括:第一训练单元和第二训练单元;其中,所述第一训练单元用于:利用神经网络反向传播算法,在所述深度信念网络中对所述癌症训练数据集中的组学数据的特征信息进行提取,获得所述组学数据特征参数;利用神经网络反向传播算法,在所述卷积神经网络中对所述癌症训练数据集中的影像数据的特征信息进行提取,获得所述影像数据特征参数;利用神经网络反向传播算法,在所述循环神经网络中对所述癌症训练数据集中的信号数据的特征信息进行提取,获得所述信号数据特征参数;所述第二训练单元用于:利用神经网络反向传播算法和梯度下降算法,根据所述组学数据特征参数、所述影像数据特征参数、所述信号数据特征参数和所述癌症训练数据集中的结构数据,对所述第二神经网络架构中各节点参数进行计算,获得所述训练后的模型;其中,所述训练后的模型的输出值为逻辑输出值,所述逻辑输出值与所述预设的癌症训练数据集中的诊断结果误差最小。
进一步地,所述测试模块20还用于:选取所述癌症测试数据集中的一个数据样本作为当前数据样本;将所述当前数据样本的逻辑输出值作为判定阈值;将所述判定阈值与所述癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得所述癌症测试数据集中的所述每个其他数据样本的判定结果;根据所述癌症测试数据集中的所述每个其他数据样本的判定结果以及与所述每个其他数据样本对应的诊断结果,建立与所述当前数据样本的逻辑输出值对应的混淆矩阵;根据所述与所述当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与所述当前数据样本的逻辑输出值对应的敏感度和特异性;返回执行所述选取所述癌症测试数据集中的一个数据样本作为当前数据样本的步骤,直至计算获得与所述癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性;根据所述癌症测试数据集中的每个数据样本的逻辑输出值,以及每个数据样本的逻辑输出值对应的敏感度和特异性,画出感受性曲线。
进一步地,所述第二计算模块40,还用于:将所述癌症待分析数据的逻辑输出值与所述感受性曲线中的所述癌症测试数据集中的每个数据样本的逻辑输出值进行比对,得到所述癌症待分析数据的敏感度和特异性;根据所述癌症待分析数据的敏感度和特异性,计算并输出所述癌症待分析数据的患癌风险率、分数、虚警率和漏报率。
进一步地,癌症待分析数据包括非结构数据和结构数据;所述第一计算模块30还用于:将所述癌症待分析数据中的非结构数据和结构数据输入所述训练后的模型,获得所述癌症待分析数据的逻辑输出值。
本发明实施例五提供了一种癌症的数据分析装置,其通过采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果。本发明实施例五提供的癌症的数据分析装置通过利用现有的数据库中的数据对预设网络架构进行训练和测试,从而获得具有代表性意义的感受性曲线,再将癌症待分析数据的逻辑输出值与该感受性曲线进行比对,计算并生成相应的分析结果,从而为癌症分析提供更加客观的数据分析结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种癌症的数据分析装置,其特征在于,包括:
训练模块,用于采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型;
测试模块,用于采用预设的癌症测试数据集对所述训练后的模型进行测试,获得感受性曲线;
第一计算模块,用于将癌症待分析数据导入所述训练后的模型,输出癌症待分析数据的逻辑输出值;
第二计算模块,用于将所述癌症待分析数据的逻辑输出值在所述感受性曲线中进行比对,计算并输出分析结果;
所述测试模块,具体用于:
选取所述癌症测试数据集中的一个数据样本作为当前数据样本;
将所述当前数据样本的逻辑输出值作为判定阈值;
将所述判定阈值与所述癌症测试数据集中的每个其他数据样本的逻辑输出值依次进行比对,以获得所述癌症测试数据集中的所述每个其他数据样本的判定结果;
根据所述癌症测试数据集中的所述每个其他数据样本的判定结果以及与所述每个其他数据样本对应的诊断结果,建立与所述当前数据样本的逻辑输出值对应的混淆矩阵;
根据所述与所述当前数据样本的逻辑输出值对应的混淆矩阵,计算获得与所述当前数据样本的逻辑输出值对应的敏感度和特异性;
返回执行所述选取所述癌症测试数据集中的一个数据样本作为当前数据样本的步骤,直至计算获得与所述癌症测试数据集中的每个数据样本的逻辑输出值对应的敏感度和特异性;
根据所述癌症测试数据集中的每个数据样本的逻辑输出值,以及每个数据样本的逻辑输出值对应的敏感度和特异性,画出感受性曲线。
2.根据权利要求1所述的癌症的数据分析装置,其特征在于,还包括:数据集建立模块;
所述数据集建立模块在训练模块采用预设的癌症训练数据集对预设的网络架构进行训练,获得训练后的模型之前,还用于:选取数据库中的若干数据样本作为癌症训练数据集中的数据样本,形成所述预设的癌症训练数据集;选取所述数据库中的剩余数据样本作为癌症测试数据集中的数据样本,形成所述预设的癌症测试数据集。
3.根据权利要求2所述的癌症的数据分析装置,其特征在于,
每个数据样本中包括非结构数据、结构数据和诊断结果;所述预设的网络架构包括第一神经网络架构和第二神经网络架构;
所述训练模块,还用于:采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练,获得第一特征参数,所述第一特征参数用于标识所述非结构数据的特征信息;采用所述第一特征参数和所述癌症训练数据集中的结构数据对所述第二神经网络架构进行训练,获得所述训练后的模型;
所述测试模块,还用于:采用所述癌症测试数据集中的非结构数据和结构数据对所述训练后的模型进行测试,获得所述癌症测试数据集的逻辑输出值;根据所述癌症测试数据集的逻辑输出值和所述癌症测试数据集中的诊断结果,画出感受性曲线。
4.根据权利要求3所述的癌症的数据分析装置,其特征在于,所述非结构数据包括:组学数据、影像数据和信号数据;所述第一神经网络架构中包括深度信念网络、卷积神经网络和循环神经网络;所述癌症的数据分析装置还包括:网络构建模块;
所述网络构建模块用于:在所述训练模块采用所述癌症训练数据集中的非结构数据对所述第一神经网络架构进行训练之前,用于根据所述非结构数据中的组学数据的数据类型,建立所述深度信念网络,所述深度信念网络用于提取所述组学数据的特征信息;根据所述非结构数据中的影像数据的数据类型,建立所述卷积神经网络,所述卷积神经网络用于提取所述影像数据的特征信息;根据所述非结构数据中的信号数据的数据类型,建立所述循环神经网络,所述循环神经网络用于提取所述信号数据的特征信息。
5.根据权利要求4所述的癌症的数据分析装置,其特征在于,所述第一特征参数包括组学数据特征参数、影像数据特征参数和信号数据特征参数;所述训练模块包括:第一训练单元和第二训练单元;
其中,所述第一训练单元用于:利用神经网络反向传播算法,在所述深度信念网络中对所述癌症训练数据集中的组学数据的特征信息进行提取,获得所述组学数据特征参数;利用神经网络反向传播算法,在所述卷积神经网络中对所述癌症训练数据集中的影像数据的特征信息进行提取,获得所述影像数据特征参数;利用神经网络反向传播算法,在所述循环神经网络中对所述癌症训练数据集中的信号数据的特征信息进行提取,获得所述信号数据特征参数;
所述第二训练单元用于:利用神经网络反向传播算法和梯度下降算法,根据所述组学数据特征参数、所述影像数据特征参数、所述信号数据特征参数和所述癌症训练数据集中的结构数据,对所述第二神经网络架构中各节点参数进行计算,获得所述训练后的模型;其中,所述训练后的模型的输出值为逻辑输出值,所述逻辑输出值与所述预设的癌症训练数据集中的诊断结果误差最小。
6.根据权利要求5所述的癌症的数据分析装置,其特征在于,所述第二计算模块,还用于:
将所述癌症待分析数据的逻辑输出值与所述感受性曲线中的所述癌症测试数据集中的每个数据样本的逻辑输出值进行比对,得到所述癌症待分析数据的敏感度和特异性;
根据所述癌症待分析数据的敏感度和特异性,计算并输出所述癌症待分析数据的患癌风险率、所述待分析数据对应的人当前身体状况的分数、虚警率和漏报率。
7.根据权利要求3-6任一项所述的癌症的数据分析装置,其特征在于,所述癌症待分析数据包括非结构数据和结构数据;
所述第一计算模块还用于:将所述癌症待分析数据中的非结构数据和结构数据输入所述训练后的模型,获得所述癌症待分析数据的逻辑输出值。
8.根据权利要求4或5所述的癌症的数据分析装置,其特征在于,所述组学数据包括:基因组序列数据、蛋白质组数据和微阵列基因表达数据其中的一种或一种以上;
所述影像数据包括:X射线成像、电子计算机断层扫描成像、正电子发射断层扫描成像、核磁共振成像和超声成像其中的一种或一种以上;
所述信号数据包括:心电图、脑电图、脑皮层电图和肌电图其中的一种或一种以上。
9.根据权利要求4或5所述的癌症的数据分析装置,其特征在于,所述结构数据包括:人口统计学数据、血常规数据、尿常规数据、癌症标记物数据、家族史、吸烟史、体重指数、收缩压、舒张压、骨密度检测、疲劳检测、血清总胆汁酸、血沉、三碘甲状腺原氨酸电发光、甲状腺素电发光、促甲状腺素电发光、游离三碘甲状腺原氨酸电发光、游离甲状腺素电发光、铜、铁、锌、钙、镁、幽门螺杆菌抗体检测、丙氨酸氨基转移酶、γ-谷氨酰转移酶、天门冬氨酸氨基转移酶、乳酸脱氢酶、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、空腹血糖、肌酸激酶、肌酸激酶同工酶、α-羟丁酸脱氢酶、乙肝表面抗原、乙肝表面抗体、乙肝e抗原、乙肝e抗体和乙肝核心抗体中一种或一种以上的数据;
其中,所述人口统计学数据包括:性别、年龄和种族;
所述血常规数据包括:白细胞计数、红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均红细胞血红蛋白浓度、红细胞体积分布宽度变异稀疏、红细胞体积分布宽度标准差、血小板、平均血小板体积、血小板容积分布宽度、中间细胞百分比、中间细胞绝对值、中性粒细胞绝对值、淋巴细胞绝对值、中性粒细胞百分比和淋巴细胞百分比中的一种或一种以上的数据;
所述尿常规数据包括:尿素、肌酐、尿酸、总胆固醇、甘油三酯、空腹血糖、比重、氢离子浓度指数、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质和葡萄糖中的一种或一种以上的数据;
所述癌症标记物包括:癌胚抗原CEA、甲胎蛋白AFP、癌抗原CA724、癌抗原CA242、神经元特异性烯醇化酶NSE、游离前列腺特异性抗原FPSA、前列腺特异性抗原TPSA、癌抗原CA153、癌抗原CA125、癌抗原CA199以及a岩藻糖苷酶中的一种或一种以上的数据。
CN201610608939.5A 2016-07-28 2016-07-28 癌症的数据分析方法及装置 Active CN106202968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610608939.5A CN106202968B (zh) 2016-07-28 2016-07-28 癌症的数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610608939.5A CN106202968B (zh) 2016-07-28 2016-07-28 癌症的数据分析方法及装置

Publications (2)

Publication Number Publication Date
CN106202968A CN106202968A (zh) 2016-12-07
CN106202968B true CN106202968B (zh) 2020-02-07

Family

ID=57496314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610608939.5A Active CN106202968B (zh) 2016-07-28 2016-07-28 癌症的数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN106202968B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526946B (zh) * 2016-12-23 2021-07-06 南京理工大学 融合自学习和低秩表示的基因表达数据癌症分类方法
US20190049448A1 (en) * 2017-08-11 2019-02-14 Wipro Limited Method and device for identifying cancer
CN108030488A (zh) * 2017-11-30 2018-05-15 北京医拍智能科技有限公司 基于卷积神经网络的心律失常的检测系统
CN108108589B (zh) * 2017-12-29 2020-06-12 郑州轻工业学院 基于网络指标差异分析的食管鳞癌标记物的识别方法
CN109346183A (zh) * 2018-09-18 2019-02-15 山东大学 基于循环神经网络模型rnn的疾病诊断预测系统
CN110957033A (zh) * 2018-09-26 2020-04-03 金敏 疾病预测系统
JP2022505266A (ja) * 2018-10-18 2022-01-14 メディミューン,エルエルシー 癌患者の治療を決定する方法
CN110765908A (zh) * 2019-10-14 2020-02-07 三江学院 基于深度学习的级联式癌细胞检测系统
CN111276191B (zh) * 2020-01-15 2020-12-18 范时浩 胰腺癌血液中糖的分子量统计识别方法、系统、介质及装置
US11935627B2 (en) 2021-12-29 2024-03-19 Mujin, Inc. System and method for text-based biological information processing with analysis refinement

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011059721A1 (en) * 2009-10-29 2011-05-19 Tethys Bioscience, Inc. Protein and lipid biomarkers providing consistent improvement to the prediction of type 2 diabetes

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ315428A (en) * 1995-07-25 2000-02-28 Horus Therapeutics Inc Computer assisted methods for diagnosing diseases
CN102737153A (zh) * 2011-04-07 2012-10-17 中国人民解放军第三〇二医院 神经网络肝纤维化诊断方法及系统
CN102930163A (zh) * 2012-11-01 2013-02-13 北京理工大学 一种2型糖尿病风险状态判定方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011059721A1 (en) * 2009-10-29 2011-05-19 Tethys Bioscience, Inc. Protein and lipid biomarkers providing consistent improvement to the prediction of type 2 diabetes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
人工神经网络技术诊断附件包块良恶性的可行性研究;王黎明 等;《山东医药》;20070831(第22期);第19-21页 *

Also Published As

Publication number Publication date
CN106202968A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202968B (zh) 癌症的数据分析方法及装置
Qin et al. A machine learning methodology for diagnosing chronic kidney disease
Shan et al. Abnormal lung quantification in chest CT images of COVID‐19 patients with deep learning and its application to severity prediction
CN110957043A (zh) 疾病预测系统
JP2009535644A (ja) バイオマーカーを使用して疾患状況を同定するための方法および装置
KR102044094B1 (ko) 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치
CN113053535B (zh) 一种医疗信息预测系统及医疗信息预测方法
WO2015050921A1 (en) Algorithms to identify patients with hepatocellular carcinoma
JP2021522503A (ja) マイクロフローサイトメトリーを使用して疾患を診断する方法
CN115376706B (zh) 一种基于预测模型的乳腺癌药物方案的预测方法及装置
Mitani et al. Highly accurate and explainable detection of specimen mix-up using a machine learning model
CN107545133A (zh) 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN114864080A (zh) 一种肝癌诊断模型c-galad ii的建立方法、系统、设备及介质
CN107169264B (zh) 一种复杂疾病诊断系统
Li et al. Hepatitis C Virus Detection Model by Using Random Forest, Logistic-Regression and ABC Algorithm
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
Yağın et al. A computer-assisted diagnosis tool for classifying COVID-19 based on Chest X-Ray images
US20210117867A1 (en) Method and apparatus for subtyping subjects based on phenotypic information
CN117253625A (zh) 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质
WO2020163552A1 (en) Non-invasive method for diagnosing hepatocellular carcinoma
CN116978582A (zh) 一种前列腺癌预测模型的建模方法及预测系统
CN116047074A (zh) 一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法
TWI685854B (zh) 肝纖維化評估模型、肝纖維化評估系統及肝纖維化評估方法
JP2023545704A (ja) エクスポソーム臨床応用のためのシステム及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170210

Address after: 100191 Haidian District Garden North Road, No. 1201 health Valley, room 35, Chile

Applicant after: Beijing Baihui Wei Kang Technology Co.,Ltd.

Address before: Room 3, building No. 9, Garden Road, Beijing, Haidian District, No. 100191, No. 618

Applicant before: Beijing Boyuan Xingkang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100191 Room 501, floor 5, building 9, No. 35 Huayuan North Road, Haidian District, Beijing

Patentee after: Beijing Baihui Weikang Technology Co.,Ltd.

Address before: Room 1201, Healthy Intelligence Valley, No. 35, Huayuan North Road, Haidian District, Beijing 100191

Patentee before: Beijing Baihui Wei Kang Technology Co.,Ltd.