CN115082437A - 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用 - Google Patents

基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用 Download PDF

Info

Publication number
CN115082437A
CN115082437A CN202210860206.6A CN202210860206A CN115082437A CN 115082437 A CN115082437 A CN 115082437A CN 202210860206 A CN202210860206 A CN 202210860206A CN 115082437 A CN115082437 A CN 115082437A
Authority
CN
China
Prior art keywords
tumor marker
blood tumor
positive
tongue
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210860206.6A
Other languages
English (en)
Other versions
CN115082437B (zh
Inventor
程向东
袁莉
杨林
张士川
徐志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Cancer Hospital
Original Assignee
Zhejiang Cancer Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Cancer Hospital filed Critical Zhejiang Cancer Hospital
Priority to CN202310150145.9A priority Critical patent/CN117173083A/zh
Priority to CN202210860206.6A priority patent/CN115082437B/zh
Publication of CN115082437A publication Critical patent/CN115082437A/zh
Application granted granted Critical
Publication of CN115082437B publication Critical patent/CN115082437B/zh
Priority to PCT/CN2023/103812 priority patent/WO2024016989A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30092Stomach; Gastric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Abstract

本发明涉及肿瘤学诊断、预测、评估技术领域,具体涉及一种基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用,所述系统包括:舌象图像获取模块,其被配置为获取测试试样的舌象图像;血液肿瘤标志物获取模块,其被配制为获取测试试样的血液肿瘤标志物指标;数据处理模块,其被配置为通过下述操作来获得测试试样属于阳性的概率:依据自动学习获得的舌象图像与血液肿瘤标志物指标数据模态上可判别性的特征预测测试试样属于阳性的概率。应用AI深度学习模型,根据舌象图像和临床血液肿瘤标志物指标共同决策自动化预测不同测试试样属于肿瘤阳性的概率,是一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测系统。

Description

基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用
技术领域
本发明涉及肿瘤学诊断、预测、评估技术领域,更具体来说,具体涉及基于舌象图像和血液肿瘤标志物的肿瘤预测系统、方法及其应用,通过分析舌象图像和血液肿瘤标志物与肿瘤学的关联关系,从而实现经济的、非侵入性的且具有较高准确度的肿瘤预测。
背景技术
根据最新数据,胃癌(GC)是全球第三大癌症相关死亡原因,仅2020年即新增GC病例109万例,死亡77万例,其中,中国新增病例48万例,死亡病例37万例,约占世界病例的一半。我国是胃癌发病率和死亡率较高的国家,早期发现、早期诊断和早期治疗是降低胃癌死亡率的关键,但是目前全国早期胃癌的诊断率仍然不到20%。在人口基数极大的条件下,胃镜筛查也仅仅针对满足特定条件的目标人群,但由于其侵入性强、成本高以及需要专业的内镜医师,其应用受到很大限制。研究证实癌胚抗原、糖蛋白抗原等的表达与胃癌的生长、分期、分化、浸润及淋巴结转移等密切相关,在胃癌病情进展中起到重要作用,因此血液指标检测是目前临床应用的主要手段之一。
然而遗憾的是,在胃癌早期,因存在缺乏特异性症状,临床疾病标志物的特异性和敏感性较差,超过60%的患者在确诊时即发生局部或远处转移。局部早期GC患者的5年生存率超过60%,而局部、远处转移患者的5年生存率分别显著下降至30%和5%。因此,迫切需要新的GC诊断或筛查方法,以提高该人群的早期诊断率和预后效果。
中医药是几千年来中国人民经验应用和保留的医学科学和文化遗产,舌象诊断是中医诊断疾病的重要依据之一。中医理论认为,舌象的变化(舌的颜色、大小和形状,舌苔的颜色、厚度和含水量)可以反映人体的健康状况,尤其与胃病密切相关。但尚未有研究证实舌象变化与GC存在对应关系,以及舌象变化在GC诊断和筛查中的价值。
人工智能(AI)可用于筛查、诊断和治疗各种疾病,CheungCY等学者开发了一种深度学习系统(见参考文献),通过测量视网膜血管的口径来评估心血管疾病的风险,可以有效预测心血管疾病的风险。TakenakaK等学者开发了一种深度神经网络(见参考文献),用于评估溃疡性结肠炎患者的内窥镜图像,该网络以90.1%的准确度识别内镜缓解和组织学缓解的患者,准确率为92.9%。
福州数据技术研究院有限公司专利CN110251084A提供一种基于人工智能的舌像检测与识别方法,用于解决舌像采集过程中舌像舌体的实时检测拍摄、保存、上传,同时识别舌像舌色、舌形、苔质、苔色;其方案主要涉及了舌像的采集和识别技术,其中舌像识别更侧重于提取舌像颜色、纹理、舌苔区域或舌苔厚薄等特性,然而这些工作并没有将舌像信息与某一特殊胃病比如胃癌建立对应关系。 沈阳智朗科技有限公司专利CN111710394A提出一种人工智能辅助的早期胃癌筛查系统,以自动化代替人工分析胃镜切片图像来解决胃癌阳性确定工作量大的问题;然而此种基于胃镜图像分析的策略,仍然首先需要获得大量的专业仪器采集的胃镜图像用于模型的学习,在测试阶段仍然需要依据每个测试者的胃镜图像做出决策,而胃镜图像的获得仍然存在时间消耗大、物质成本高、测试人群标准高等缺陷,很难做到全国范围的普查筛选。
江苏天瑞精准医疗科技有限公司CN112133427A提供了一种基于人工智能的胃癌辅助诊断系统,包括:诊断选择模块、数据采集模块、预处理模块、诊断模块和显示输出模块,该系统能够根据采集到的就诊者的数据,个性化地给出诊断结果。该诊断系统诊断所依据的数据包括就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目等,其中临床症状和检验项目等数据的收集难度较大,而单独依靠基本信息、生活饮食、感染史、疾病史、家族史等信息则会影响前期的筛查诊断效果。
参考文献:
Cheung CY, Xu D, Cheng CY, et al. A deep-learning system for theassessment of cardiovascular disease risk via the measurement of retinal-vessel calibre. Nature biomedical engineering 2021;5(6):498-508. doi:10.1038/s41551-020-00626-4 [published Online First: 2020/10/14];
Takenaka K, Ohtsuka K, Fujii T, et al. Development and Validation ofa Deep Neural Network for Accurate Evaluation of Endoscopic Images FromPatients With Ulcerative Colitis. Gastroenterology 2020;158(8):2150-57. doi:10.1053/j.gastro.2020.02.012 [published Online First: 2020/02/16]。
本发明力图解决这些和本领域中的其他待解决的需要。
发明内容
为解决上述背景技术中提及的至少一种技术问题,本发明的目的旨在提供基于舌象图像和血液肿瘤标志物的肿瘤预测系统,旨在应用AI深度学习模型,根据舌象图像和临床血液肿瘤标志物指标共同决策自动化预测不同测试试样属于肿瘤阳性的概率,肿瘤预测系统操作简单,成本低廉,无痛无创,通过大量测试病例证实预测系统是一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测系统。
本发明针对一种基于舌象图像和血液肿瘤标志物的肿瘤预测系统,其包括:
舌象图像获取模块,其被配置为获取测试试样的舌象图像;
血液肿瘤标志物获取模块,其被配置为获取测试试样的血液肿瘤标志物指标;
数据处理模块,其被配置为通过下述操作来获得测试试样属于阳性的概率:
依据自动学习获得的舌象图像与血液肿瘤标志物指标数据模态上可判别性的特征预测测试试样属于阳性的概率。
在一个具体实施例中,所述舌象图像获取模块获取测试试样的舌象图像可通过拍摄获取、网络传输获取、导入获取等的至少一种方式获取。系统内部用于训练的舌象图像可采取预先存储、网络传输、导入等的至少一种方式获取,可以常规方式获得并导入本系统。
在一个具体实施例中,所述舌象图像是试样的完整舌部图像,且舌区域与背景区域区分明显。
在一个具体实施例中,所述血液肿瘤标志物获取模块获取测试试样的血液肿瘤标志物指标可通过网络传输、导入、本地存储、测试等的至少一种方式获取。血液肿瘤标志物获取模块旨在获取试样的血液肿瘤标志物指标,系统内部用于训练的血液肿瘤标志物指标可采取预先存储、网络传输、导入等的至少一种方式获取,可以常规方式获得并导入本系统。
在一个具体实施例中,所述血液肿瘤标志物选自甲胎蛋白(AFP)、癌胚抗原(CEA)、癌抗原125(CA125)、癌抗原15-3(CA15-3)、癌抗原199(CA199)、癌抗原72-4(CA72-4)、癌抗原242(CA242)、癌抗原50(CA50)、非小细胞肺癌相关抗原(CYFRA21-1)、小细胞肺癌相关抗原(神经元特异性烯醇化酶,NSE)、鳞状细胞癌抗原(SCC)、总前列腺特异性抗原(TPSA)、游离前列腺特异性抗原(FPSA)、α-L-岩藻糖苷酶(AFU)、EB病毒抗体(EBV-VCA)、肿瘤相关物质(TSGF)、铁蛋白(Ferritin)、β2-微球蛋(β2-MG)、胰胚胎抗原(POA)或胃泌素前体释放肽(PROGRP)中的至少一种,特别是选自CEA、CA242、CA72-4、CA125、CA199、CA50、AFP或Ferritin中的至少一种,更特别是选用上述CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin的组合。
在一个具体实施例中,所述肿瘤是胃癌、乳腺癌、结直肠癌、食道癌、肝胆胰腺癌、肺癌、前列腺癌、甲状腺癌、卵巢癌、神经母细胞瘤、滋养细胞肿瘤或头颈部鳞癌中的至少一种。
在一个具体实施例中,所述肿瘤是胃癌、乳腺癌、结直肠癌、食道癌、肝胆胰腺癌或肺癌中的至少一种。
在一个具体实施例中,所述系统还包括输出模块,其被配置为输出预测结果。
在一个具体实施例中,所述输出模块被配置为输出舌象图像与预测结果。
在一个具体实施例中,所述输出模块以电子显示、声音播报、打印、网络传输的至少一种模式输出。
在一个具体实施例中,所述可判别性的特征来自于舌象图像、血液肿瘤标志物指标数据模态上的阳性类别与阴性类别之间。
旨在通过充分对比、分析、学习阳性舌象图像、血液肿瘤标志物指标和/或阴性舌象图像、血液肿瘤标志物指标之间、之内的共性和差异,从而获得阳性类别和阴性类别之间可判别性的特征,通过深度判别测试试样可判别性的特征即可判断得出测试试样属于阳性的概率,从而即可实现通过舌象图像联合血液肿瘤标志物指标对测试试样进行肿瘤预测。所述可判别性的特征可以来自于阳性舌象图像、血液肿瘤标志物指标与阴性舌象图像、血液肿瘤标志物指标之间的共性和差异,也可以来自于单一舌象图像、血液肿瘤标志物指标数据模态上阳性类别与阴性类别之间的共性和差异,也即是从舌象图像、血液肿瘤标志物指标数据模态上获得阳性类别、阴性类别间的可判别性的特征即可用于预测测试试样属于阳性类别还是阴性类别。
前述所述可判别性的特征来自于成对输入交互式深度学习模型的阳性舌象图像、对应血液肿瘤标志物指标和阴性舌象图像、对应血液肿瘤标志物指标。
在一个具体实施例中,所述数据处理模块具体配置为通过下述操作来预测测试试样属于阳性的概率:
充分对比同时输入交互式深度学习模型的阳性舌象图像、对应血液肿瘤标志物指标和阴性舌象图像、对应血液肿瘤标志物指标,自动学习在舌象图像、血液肿瘤标志物指标数据模态上阳性类别和阴性类别之间的共性和差异,依据阳性类别和阴性类别之间可判别性的特征预测测试试样属于阳性的概率。
应当明确的是,本申请旨在通过分析、学习来自某机体的舌象图像和血液肿瘤标志物指标来分析、判断、预测该机体的肿瘤阳性、阴性概率,因此舌象图像、血液肿瘤标志物指标均是采集自同一个试样,更进一步的是采集自同一个机体,下文相应的表述均为此意;因此以采集自某一机体的舌象图像及采集自另一机体的血液肿瘤标志物为预测来源是不恰当的。
本方案旨在通过充分对比、分析、学习阳性舌象图像、对应血液肿瘤标志物指标和阴性舌象图像、对应血液肿瘤标志物指标之间的共性和差异,从而获得阳性类别和阴性类别之间可判别性的特征,依据所述可判别性的特征即可预测输入至模型中的测试试样属于阳性的概率,因此但凡能够通过对比、分析、学习阳性舌象图像、对应血液肿瘤标志物指标和阴性舌象图像、对应血液肿瘤标志物指标之间的共性和差异,进而能够获得阳性类别和阴性类别之间可判别性的特征的模型均能够应用于本部分方案,也被包含在本部分方案的保护范围中,特别的,本申请选用但不限于以APINet模型联合血液肿瘤标志物进行举例分析说明。
在一个具体实施例中,所述阳性舌象图像、对应血液肿瘤标志物指标采集自肿瘤阳性患者。
在一个具体实施例中,所述阴性舌象图像、对应血液肿瘤标志物指标采集自肿瘤阴性患者。
在一个具体实施例中,所述交互式深度学习模型是APINet模型。
在一个具体实施例中,所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率:
1)从预先获取的一对舌象图像和一对血液肿瘤标志物指标中提取得到阳性特征和阴性特征;
2)以阳性特征和阴性特征训练模型,输出特征分属各个类别的概率;
3)将测试试样舌象图像和血液肿瘤标志物指标输入训练完成的模型,输出测试试样属于阳性的概率。
在一个具体实施例中,前述步骤1)所述提取得到阳性特征和阴性特征的步骤包括:
编码器提取舌象图像的特征向量,与血液肿瘤标志物指标进行拼接,通过融合区的MLP进行融合,输出融合后的阳性特征f1和阴性特征f2
将f1和f2及其拼接后的特征fm同时输入特征选择区的MLP,对应输出两个控制向量g1和g2,分别对应f1和f2
g1分别激活f1和f2形成选择后的特征f1 +和f2 -,g2分别激活f1和f2形成选择后的特征f1 -和f2 +,获得两个阳性特征f1 +和f1 -与两个阴性特征f2 +和f2 -
在一个具体实施例中,特征选择区的MLP充分学习f1和fm的共性及差异并输出控制向量g1,同样地学习f2和fm的共性及差异并输出控制向量g2
在一个具体实施例中,前述步骤2)所述以阳性特征和阴性特征训练模型具体是将阳性特征和阴性特征输入到全连接层分类器中,输出这些特征分别属于各个类别的概率。
在一个具体实施例中,前述步骤2)所述输出特征分属各个类别的概率时,依据四个特征所述类别,最小化交叉熵损失函数:
Figure 98004DEST_PATH_IMAGE001
其中,y是该特征所对应的真实标签,函数φc代表了最后的全连接层分类器,fi k对应了输入的4个特征。
注意到,f1 +是由阳性特征所对应的控制向量g1所激活,因此包含了阳性特征信息,而f1 -则由阴性特征所对应的控制向量g2所激活,因此包含了阴性特征信息,同样的情况适用于f2 +和f2 -
在一个具体实施例中,前述步骤2)所述输出特征分属各个类别的概率时,考虑模型对特征fi +所输出的置信度应该高于特征fi -,最小化排序损失函数:
Figure DEST_PATH_IMAGE002
其中,pi -和pi +是特征fi -和fi +经过分类器所输出的在各个类别上的概率分布,ϵ∈[0,1]是指定的超参数,p(c)是指在指定类别c上的概率。
在一个具体实施例中,前述步骤3)所述将测试试样舌象图像和血液肿瘤标志物指标输入训练完成的模型是指将单个测试试样的舌象图像和其血液肿瘤标志物指标输入。
在一个具体实施例中,前述步骤3)所述输出测试试样分属类别的概率是指最终输出对应测试试样在各个类别上的概率分布,取概率最大所对应的类别为预测的类别。
在一个具体实施例中,仅应用舌象图像中舌面区域的外接矩形部分来训练和测试,可以有效地排除图像背景对模型的影响。
在一个具体实施例中,训练过程中,为了丰富训练集的样本空间,将训练集中的样本以一定概率进行随机翻转,然后在图像上的随机位置剪切子图,最后线性插值成固定大小的图像,标准化后输入交互式深度学习模型。
高质量的样品数据是获得高泛化性深度模型的前提,因此预先分别从肿瘤患者和非肿瘤人群中获得阳性和阴性舌象图像及对应的血液肿瘤标志物指标数据,本部分方案中,只有充分对比两对样本(包括一阳性舌象图像、及其血液肿瘤标志物指标和一阴性舌象图像、及其血液肿瘤标志物指标),才能发现它们的共性和差异,将成对的图像、血液肿瘤标志物指标作为输入来模拟真实场景,编码器提取图像特征向量后与血液肿瘤标志物指标进行拼接、拼接,输出阳性特征和阴性特征,再结合拼接后的特征,最终输出一对阳性特征和一对阴性特征,输入到全连接层分类器即可输出这些特征分别属于各个类别的概率,同时最小化交叉熵损失函数与排序损失函数以达到训练模型的目的。测试时,将测试试样的舌象图像及其血液肿瘤标志物指标输入至系统即可得到其属于肿瘤阳性的概率,通过深度分析舌象图像、血液肿瘤标志物指标在阳性与阴性间的区别,基于深度学习技术学习肿瘤与舌象信息、血液肿瘤标志物的内在关联,针对肿瘤早期筛查准确率低、诊断策略成本较高等问题,自动化判断肿瘤阳性的概率,以筛选出肿瘤高发人群。
前述所述可判别性的特征来自于:
单一的阳性舌象图像及对应的血液肿瘤标志物指标,或
单一的阴性舌象图像及对应的血液肿瘤标志物指标。
在一个具体实施例中,所述可判别性的特征来自于舌象图像切割成n小块后并与血液肿瘤标志物指标形成输入向量,进行特征提取以获得利于分类的深层特征。
在一个具体实施例中,所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率:
将测试试样舌象图像切割成小块形成输入序列,并将血液肿瘤标志物指标置于输入序列末端,形成输入向量并添加位置索引,导入训练完成的深度学习模型进行特征提取及特征融合,输出选择后的有利于分类的深层特征,获得分属各个类别的概率。
在一个具体实施例中,所述深度学习模型通过下述步骤完成训练:
a)将舌面图像切割成n小块,按照顺序组成输入序列,然后将血液肿瘤标志物指标置于输入序列末端,形成长度为n+1的输入序列,通过线性映射形成输入向量,并添加位置索引0,1,2,…,n-1;
b)将输入的血液肿瘤标志物指标通过全连接层进行维度扩增,与舌面图像块映射的输入向量对齐,并赋予位置索引n;
c)以基于Transformer模型的编码器进行特征提取及特征融合,输出选择后的有利于分类的深层特征,最终通过softmax分类器输出深层特征分属各个类别的概率分布。
在一个具体实施例中,前述步骤a)所述将舌面图像切割成n小块意指将舌象图像切割成互不重叠的n个正方形区域。
在一个具体实施例中,前述步骤c)所述编码器进行特征提取时,共包含L+1层Transformer层,且在每一层内部都包含了自注意力机制。
在一个具体实施例中,前述步骤c)所述编码器进行特征提取及特征融合时,为了去掉冗余特征,深度特征输入到最后一层之前,通过包含多头注意力机制的特征选择模块进行区域选择,所述特征选择模块返回注意力权重最大的前排特征的索引,将选择出来的前排特征输入到最后一层Transformer层进行特征融合。
在一个具体实施例中,前述所述前排特征是前k个特征,k是1,2,3,……,20的其中之一。
在一个具体实施例中,前述所述k=12。
在一个具体实施例中,前述步骤c)所述输出深层特征分属各个类别的概率分布时,最小化交叉熵损失函数:
Figure DEST_PATH_IMAGE003
其中,yi是测试样例对应的真实one-hot标注中的元素,
Figure DEST_PATH_IMAGE004
是模型预测为类别yi的概率。one-hot标注是0、1向量形式的标注,比如分三个类别,类别0,1,2所对应的one-hot形式的标注是(1,0,0),(0,1,0),(0,0,1)。
在一个具体实施例中,前述步骤c)所述输出深层特征分属各个类别的概率分布时,最小化对比损失函数:
Figure 172401DEST_PATH_IMAGE005
其中,N表示训练时批次的大小,函数D表示特征fi和fj的相似性度量。在一个训练批次内选择所有的阴性、阳性数据对来最小化对比损失,使得类内特征更加聚集、类间特征差异更大,从而提高预测准确度。
本部分方案中,通过将舌象图像切割成互不重叠的小块区域,按照顺序组成序列后通过线性映射形成输入向量,然后将血液肿瘤标志物指标通过全连接层进行维度扩增,与舌面图像块映射的输入向量对齐,置于输入向量的末端,将输入向量输入至TransFG模型中进行特征提取及特征融合,生成利于分类的深层特征并通过softmax分类器输出其分属各个类别的概率,以完成对试样分属类别的预测,通过深度学习模型的自动学习模式,自动化预测筛选测试试样的肿瘤阳性概率,相较于传统肿瘤早期筛查准确率低、诊断策略成本较高等问题,本部分方案依据舌面图像和血液肿瘤标志物指标,基于深度学习技术,自动化判断肿瘤阳性的概率,以筛选出肿瘤高发人群,本部分方案操作简单、成本低廉、测试准确度高。
基于舌象图像和血液肿瘤标志物的肿瘤预测方法,其包括:
获得测试试样的舌象图像和血液肿瘤标志物指标;
将测试试样的舌象图像和血液肿瘤标志物指标输入前述所述系统获得所述测试试样的肿瘤阳性概率。
前述所述基于舌象图像和血液肿瘤标志物的肿瘤预测系统和/或方法的应用,其包括:
应用所述系统和/或方法对测试试样进行肿瘤预测。
在符合本领域常识的基础上,上述各优选条件,可以相互组合,得到具体实施方式。
本发明的有益效果为:
提供多种基于舌象图像和血液肿瘤标志物的肿瘤预测系统,以非生物体样本舌象图像和血液肿瘤标志物指标为直接实施对象,通过分析、学习舌象图像中阳性特征与阴性特征间的共性和差异,结合血液肿瘤标志物指标,可对多种肿瘤发挥出优异的诊断预测功能,经过大批量的真实病患样本分析验证,测试预测胃癌准确率可达75-81%,内部验证时,敏感性达0.775-0.812,特异性达0.808-0.836,准确性达0.810-0.866,AUC达0.875-0.883;外部验证时,敏感性达0.858-0.866,准确性达0.747-0.768,AUC达0.834-0.835;测试敏感性和准确性均显著优于单纯基于血液肿瘤标志物的机器学习模型的灵敏度和准确性,准确性优于单纯基于舌象图像的肿瘤预测系统的准确性;基于舌象图像和血液肿瘤标志物的肿瘤预测系统的AUC值显著高于单纯基于舌象图像的肿瘤预测系统的AUC值;提供了一种对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测系统及方法。
本发明为实现上述目的而采用了上述技术方案,弥补了现有技术的不足,设计合理,操作方便。
附图说明
旨在为使得本领域技术人员更加迅速明确的了解本申请的上述和/或其他目的、特征、优点与实例,提供了部分附图,应当指出的是,构成本申请的说明书附图、示意性实施例及其说明用来提供对本申请的进一步理解,并不构成对本申请的不当限定。
图1是多中心临床研究及其病患分布示意图;
图2是APINet融合模型的联合判别框架;
图3是APINet融合模型的分类依据可视化;
图4是三种基于血液肿瘤标志物的模型外部验证与内部验证示意图;
图5是基于舌象图像与血液肿瘤标志物的融合模型的内部验证与外部验证示意图;
图6是TransFG融合模型的联合判别框架;
图7是TransFG融合模型的区域选择模块结果可视化。
具体实施方式
本领域技术人员可以借鉴本文内容,适当替换和/或改动工艺参数实现,然而特别需要指出的是,所有类似的替换和/或改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明所述内容已经通过较佳实例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的内容进行改动或适当变更与组合,来实现和应用本发明技术。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制本申请的技术方案。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
APINet模型:APINetmodel,即attentive pairwise interaction neuralnetwork (APINet) model。
TransFG模型:TransFGmodel,即transformer architecture for fine-grainedrecognition (TransFG) model。
以下详细描述本发明。
以下详细描述本发明。
<临床标本>
进行了全国性多中心临床研究消除了地域、饮食、中心差异对研究的影响,包括8个城市的11个中心,分别位于东部的杭州、温州和上海,南部的福州,西部的成都,北部的辽宁和黑龙江,中部地区的太原。
如图1所示,从2020年1月至2021年10月,从8个中心招募了1111名胃癌(GC)患者,从3个中心招募了1519名非胃癌(NGC)患者,包括169名健康对照(HCs)、648名浅表性胃炎(SGs)和702名萎缩性胃炎(AGs)。胃癌(GC)患者中选取865例、非胃癌(NGC)患者中随机选取1287例对前述系统进行训练和验证,其中早期GC(TNMI+II期)448例,晚期GC(TNMIII+IV期)417例)、健康对照组(HC)141例、浅表性胃炎(SG)547例、萎缩性胃炎(AG)599例;大约80%的案例被用作训练数据集,大约20%的案例被用作内部验证数据集。此外,将来自3个中心的246例GC和232例NGC作为独立的外部验证数据集,包括162例早期GC、84例晚期GC、28例HC、101例SG和103例AG。这些胃癌(GC)患者均为新诊断胃癌,既往未接受过针对其疾病的治疗,也未针对其疾病进行手术、化疗、放疗、靶向治疗或生物治疗。胃癌(GC)患者均未单发肿瘤,即发现患有两种或多种恶性肿瘤的患者也被排除在外。HCs、SGs和AGs经胃镜检查证实。
收集所有参与者的舌象图像和临床信息,这些数据包括年龄、性别、身高、体重、家族史、吸烟、饮酒、TNM分期、血液肿瘤标志物等。病理分期基于美国癌症联合委员会第8版第23期。所有GC参与者的舌像采集时间都在胃手术的早上,NGC参与者的舌头图像采集时间是胃镜检查的早上,空腹时间超过8小时,这排除了饮食对舌头图像的影响。表1中示出了GC组和NGC组之间的一般患者信息,例如年龄、性别、BMI、吸烟和饮酒情况,无论是在训练、内部验证还是独立的外部验证数据集中都非常匹配。
表1、GC和NGC参与者的临床信息
Figure DEST_PATH_IMAGE006
此外,从浙江省肿瘤医院招募了104名食管癌(EC)患者、129名肝胆胰腺癌(HBPC)患者、116名结直肠癌(CRC)患者、260名肺癌(LC)患者和154名乳腺癌(BC)患者。表2示出了其他癌症参与者的临床信息,可知除BC外,GC与其他癌症之间的一般信息匹配良好,如年龄、性别、BMI、吸烟和饮酒。
表2、其他癌症参与者的临床信息
Figure 139089DEST_PATH_IMAGE007
<统计分析>
所有统计分析均使用SPSS23.0软件(SPSSInc.,Chicago,IL,USA)进行。结果表示为平均值±SD或平均值±SEM。根据数据是否呈正交分布,使用参数检验或非参数检验。计数数据采用卡方检验分析。P<0.05被认为具有统计学意义。
<临床验证>
实施例1:
以APINet模型及血液肿瘤标志物指标进行联合验证,具体是一种基于舌象图像和血液肿瘤标志物的肿瘤预测系统,简称为APINet融合模型,其包括:
舌象采集模块,其被配置为获取测试试样的舌象图像;
血液肿瘤标志物获取模块,其被配置为获取测试试样的血液肿瘤标志物指标;
数据处理模块,其被配置为通过下述操作来获得测试试样属于阳性的概率:
依据自动学习获得的舌象图像与血液肿瘤标志物指标数据模态上可判别性的特征预测测试试样属于阳性的概率。
设计了一种基于对比的交互式深度学习模型——APINet融合模型,通过充分对比同时出入的一对舌面图像和一对血液指标,自动学习在两种数据模态上阳性类别和阴性类别之间的共性和差异,最终依据可判别性的特征来预测测试样例属于肿瘤阳性的概率。如图2所示,整体判别框架分为三个模块:特征融合模块,特征选择模块和分类模块。
特征融合模块:同时输入一对舌面图像,分别属于阳性和阴性类别,对应地输入一对血液肿瘤标志物指标。首先编码器提取图像的特征向量,直接与血指标数据进行拼接,通过融合区的MLP进行融合,输出融合后的阳性特征f1和阴性特征f2
特征选择模块:将f1和f2及其拼接后的特征fm同时输入特征选择区的MLP,对应输出两个控制向量g1和g2,分别对应f1和f2。用控制向量g1分别激活f1和f2形成选择后的特征f1 +和f2 -,g2分别激活f1和f2形成选择后的特征f1 -和f2 +,获得两个阳性特征f1 +和f1 -与两个阴性特征f2 +和f2 -
分类模块:我们将选择后的特征输入到全连接层分类器,最后输出这些特征分别属于各个类别的概率。在训练的过程中根据四个特征所属类别,最小化交叉熵损失函数:
Figure DEST_PATH_IMAGE008
其中,y是该特征所对应的真实标签,函数φc代表了最后的全连接层分类器,fi k对应了输入的4个特征。一个泛化性较好的模型对特征fi +所输出的置信度应该高于特征fi -,所以我们同时最小化一个排序损失函数:
Figure 737561DEST_PATH_IMAGE002
其中,pi -和pi +是特征fi -和fi +经过分类器所输出的在各个类别上的概率分布,ϵ∈[0,1]是指定的超参数,p(c)是指在指定类别c上的概率。
模型测试时只保留特征融合模块和分类模块,将训练时阳性、阴性数据的成对输入改成单个测试样例(包括舌象图像和对应的血液肿瘤标志物指标)输入,最终输出对应测试试样输出在各个类别上的概率分布,取概率最大所对应的类别为预测的类别。
共测试了905例相关病患,其中和训练集来自同一中心的内部测试427例,不同中心数据478例用于外部测试,测试结果如下表3、表4所示。
表3、内部测试结果
Figure 100002_DEST_PATH_IMAGE009
表4、外部测试结果
Figure DEST_PATH_IMAGE010
表3中,实际阴性病例数是173+41=214例,实际阳性病例数是40+173=213例;预测结果显示,阴性病例汇中,173例正确预测为阴性,41例错误预测为阳性;而阳性病例中,173例正确预测为阳性,40例错误预测为阴性;因此内部测试中预测准确率是(正确预测为阴性个数+正确预测为阳性个数)/测试样例总数=(173+173)/(173+41+40+173)=81%。同理从表4中可知外部测试的准确率可以达到75%。从内部测试和外部测试结果可知,本部分肿瘤诊断系统对于胃癌具有较好的预测准确度。
如图3为模型分类依据的可视化,虚线左侧第一行的三个测试样例是阳性的舌面图像,第二行是模型根据舌面图像进行识别时所主要依据的区域,虚线右侧是阴性样例和对应的舌面识别依据可视化图像。在第二行图像中颜色越浓说明模型对该区域越关注,从展示的结果发现模型识别过程所依据的区域主要集中在舌面上,而与黑色背景无关。
为了进一步评估舌象图像联合血液肿瘤标志物指标作为诊断和筛查肿瘤的手段的价值,我们将前述基于舌象图像与血液肿瘤标志物的预测系统和单纯基于具有临床价值的血液肿瘤标志物的模型进行了比较。
作为对比,选用多种经典血液肿瘤标志物的组合验证对于肿瘤的预测,可供选择的血液肿瘤标志物选自甲胎蛋白(AFP)、癌胚抗原(CEA)、癌抗原125(CA125)、癌抗原15-3(CA15-3)、癌抗原199(CA199)、癌抗原72-4(CA72-4)、癌抗原242(CA242)、癌抗原50(CA50)、非小细胞肺癌相关抗原(CYFRA21-1)、小细胞肺癌相关抗原(神经元特异性烯醇化酶,NSE)、鳞状细胞癌抗原(SCC)、总前列腺特异性抗原(TPSA)、游离前列腺特异性抗原(FPSA)、α-L-岩藻糖苷酶(AFU)、EB病毒抗体(EBV-VCA)、肿瘤相关物质(TSGF)、铁蛋白(Ferritin)、β2-微球蛋(β2-MG)、胰胚胎抗原(POA)或胃泌素前体释放肽(PROGRP)中的至少一种,特别是选自CEA、CA242、CA72-4、CA125、CA199、CA50、AFP或Ferritin中的至少一种,更特别是选用上述八种血液肿瘤标志物的组合。
基于上述所述血液肿瘤标志物指标的预测方法包括下述步骤:
1)数据预处理: 由于所有病例的血清指标存在不同程度的缺失,而训练数据需要完整。因此在模型训练之前首先需要对数据进行补全,本申请采用K近邻缺失值插补法对数据进行补全;具体地,缺失的血清指标补全值为2个最近邻居的值的平均值;
2)模型训练:本发明采用三种机器学习分类方法,其分别为支持向量机(SVM),决策树(DT)和K-近邻分类器(KNN),具体地,病例的八项血液肿瘤标志物指标(CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin对应样本特征,病例的阴阳性诊断对应样本的标签,所有补全后的样本均送入三种分类器进行拟合;
3)模型评估:本申请采用了内部验证和外部验证对模型进行了评估;内部验证采用与训练数据相同医院、不同病例的数据,而外部验证采用了与训练数据不同的医院病例数据。采用包括敏感性,特异性和准确率在内的三种指标对模型进行预测。
相关GC病患的血液肿瘤标志物临床信息如表5所示,可知与NGC患者相比,GC患者的CEA、CA424、CA724、CA125、CA199、CA50、AFP和Ferritin等血液肿瘤标志物浓度显著升高。
表5、GC病患的血液肿瘤标志物临床信息
Figure DEST_PATH_IMAGE011
模型的训练、内部验证和外部验证数据集与基于舌象图像、血液肿瘤标志物的模型一致(排除血液指标缺失的情况)。基于三种机器学习分类方法的血液肿瘤标志物其对于GC诊断的敏感性、特异性、准确率验证结果见表6所示,其对于内部验证和外部验证的ROC及AUC参见图4,内部验证的AUC值范围为0.682至0.715,外部验证的AUC值范围为0.694至0.760;可知在SVM算法中,内部验证和外部验证的特异性均达到90%以上,说明该算法能够为胃癌诊断提供有价值的信息。而在DT和KNN中,特异性有所下降,敏感性和准确率均有不同程度的提升,可以为胃癌诊断提供多方面的信息。
表6、基于血液肿瘤标志物的模型对GC诊断的敏感性、特异性、准确性
Figure DEST_PATH_IMAGE013
应当明确的是,本申请的上述对比方案选用了CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin在内的八种血清指标,增加、缩减或者代替若干种血清指标均可对肿瘤特别是胃癌的阴阳性进行预测。上述对比方案采用了三种机器学习分类器SVM、DT和KNN,采用其他机器学习分类器方法如逻辑回归、随机森林亦可达到相应的目的。
与前述所述SVM、DT、KNN相比,本实施例的APINet融合模型对GC诊断的敏感性、特异性、准确性均有不同程度的提升或改变,如表7所示。
表7、APINet融合模型对GC诊断的敏感性、特异性和准确性
Figure DEST_PATH_IMAGE014
表7显示出基于舌象图像的APINet融合模型对GC诊断的敏感性、特异性和准确性数据,可知APINet融合模型在内部验证及外部验证中对GC诊断均具有显著高于前述基于八种血液肿瘤标志物的SVM、DT和KNN模型的敏感性(0.812之与0.283-0.566,0.858之与0.362-0.539)和准确性(0.810之与0.603-0.622,0.747之与0.645-0.662),特别的是基于舌象图像和血液肿瘤标志物的系统在内部验证中体现出了较高的特异性(0.808),提供了一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测方法。
APINet融合模型通过成对交互对两对输入数据(阳性舌象图像和对应试样的血液肿瘤标志物指标,阴性舌象图像和对应试样的血液肿瘤标志物指标)进行充分比较,以识别用于分类的对比线索。图5示出了APINet融合模型内部验证(图5中的API_I)及外部验证(图5中的API_E)的ROC(Receiver Operating Characteristic)和AUC(Area Under rocCurve),由图5可知,相比于图4的SVM、DT和KNN模型,图5中的APINet融合模型无论在内部验证还是外部验证时均具有较为远离(0,0)-(1,1)连线的ROC曲线,其内部验证AUC值达0.875,外部验证AUC值达0.835,明显高于八种血液肿瘤标志物的SVM、DT和KNN模型的内部验证AUC值(0.682-0.715)和外部验证AUC值(0.694-0.760),稍高于未融合血液肿瘤标志物而单纯应用舌象图像的模型,可知APINet融合模型是一个表现较好的预测模型,且舌象图像结合血液肿瘤标志物指标可以进一步提高肿瘤的诊断价值。基于舌象图像和血液肿瘤标志物的AI诊断模型对GC的诊断价值明显优于单纯应用八项血液肿瘤标志物的组合的模型及单纯应用舌象图像的模型。
此外,应用本实施例模型对包括乳腺癌、结直肠癌、食道癌、肝胆胰腺癌及肺癌等在内的肿瘤进行相应的预测结果可知,均能够获得AUC不低于0.500的诊断预测结果,可知本申请所提供系统可对前述所述肿瘤进行经济性的、无创性的、有效性的筛查和诊断预测。
实施例2:
以TransFG模型及血液肿瘤标志物指标进行联合验证,具体是一种基于舌象图像和血液肿瘤标志物的肿瘤预测系统,简称为TransFG融合模型,其包括:
舌象采集模块,其被配置为获取测试试样的舌象图像;
血液肿瘤标志物获取模块,其被配置为获取测试试样的血液肿瘤标志物指标;
数据处理模块,其被配置为通过下述操作来获得测试试样属于阳性的概率:
依据自动学习获得的舌象图像与血液肿瘤标志物指标数据模态上可判别性的特征预测测试试样属于阳性的概率。
设计了一种基于深度学习的舌象、血液指标联合诊断模型——TransFG融合模型,该模型根据舌象图像和临床血液肿瘤标志物指标自动化预测不同测试对象属于肿瘤阳性的概率。
高质量的标注数据是获得高泛化性深度模型的前提。我们分别从胃癌患者和非胃癌人群中获得阳性和阴性舌象图像数据,并一一对应收集到每一个试样的八项临床血液指标:CEA,CA424,CA72-4,CA125,CA199,CA50,AFP和Ferritin。基于上述两种模态的数据(舌象图像和血液肿瘤标志物指标),设计了一种基于Transformer的深度学习模型,通过将输入舌象图像无重叠地分成小块,然后将分开后的小块按照顺序组成序列输入到深度神经网络中,血液肿瘤标志物指标作为辅助诊断数据被置于输入序列的末端。最终依据所提取的可判别性的特征来预测测试试样属于阳性的概率。
基于舌象图像和血液肿瘤标志物指标联合判别框架如图6所示,整个模型的输入是舌象图像及其对应的八项临床血液肿瘤标志物指标。
首先将舌面图像切割成n小块,然后将切割成的n小块按照顺序组成输入序列,为了将血液肿瘤标志物指标也作为诊断筛查依据,我们将八项血液肿瘤标志物指标置于输入序列末端,形成长度为n+1的输入序列;具体是将小图像块通过线性映射形成输入向量,并添加位置索引0,1,2,…,n-1;将输入的血液肿瘤标志物指标通过全连接层进行维度扩增,与图像块映射的输入向量对齐,并赋予位置索引n。
基于Transformer模型的编码器进行特征提取,共包含L+1层Transformer层,而在每一层内部都包含了自注意力机制。为了去掉冗余特征,在深层特征输入到最后一层之前,首先通过特征选择模块进行区域选择,该模块包含多头注意力机制,返回注意力权重最大的k块特征的索引,将选择出来的k个特征输入到最后一层Transformer层进行特征融合,输出选择后的有利于分类的深层特征,最终通过softmax分类器输出各个类别的概率分布。
利用输出的概率分布分别最小化交叉熵损失函数:
Figure 768577DEST_PATH_IMAGE003
和最小化对比损失函数:
Figure 122198DEST_PATH_IMAGE005
以使得类内特征更加聚集、类间特征差异更大,从而提高预测准确度。
我们共测试了905例,其中和训练集来自同一中心的内部测试427例,不同中心数据478例用于外部测试,测试结果如下表8、表9所示,可知内部测试和外部测试的准确率可以分别达到81%和77%。从内部测试和外部测试结果可知,本肿瘤诊断系统对于胃癌具有较好的预测准确度。
表8、内部测试结果
Figure DEST_PATH_IMAGE015
表9、外部测试结果
Figure DEST_PATH_IMAGE016
如图7为TransFG融合模型区域选择模块结果可视化,虚线左侧第一行的三个测试试样是阳性的舌象图像,第二行图像中的黄色小块是区域选择模块所返回的特征索引在原图像中所对应的区域,虚线右侧是阴性试样和区域选择结果。从展示的结果发现模型识别过程所依据的区域主要集中在舌面上半部分舌苔较重的区域,而与黑色背景以及舌面下半部分相关性较低。
为了进一步评估舌象图像联合血液肿瘤标志物指标作为诊断和筛查肿瘤的手段的价值,我们将本实施例所述基于舌象图像与血液肿瘤标志物的预测系统和单纯基于具有临床价值的血液肿瘤标志物的模型进行了比较,后者见实施例1。
与前述所述SVM、DT、KNN相比,本实施例的TransFG融合模型对GC诊断的敏感性、特异性、准确性均有不同程度的提升或改变,如表10所示。
表10、TransFG融合模型对GC诊断的敏感性、特异性和准确性
Figure DEST_PATH_IMAGE017
表10显示出基于舌象图像的TransFG融合模型对GC诊断的敏感性、特异性和准确性数据,可知TransFG融合模型在内部验证及外部验证中对GC诊断均具有显著高于前述基于八种血液肿瘤标志物的SVM、DT和KNN模型的敏感性(0.775之与0.283-0.566,0.866之与0.362-0.539)和准确性(0.806之与0.603-0.622,0.768之与0.645-0.662),特别的是基于舌象图像和血液肿瘤标志物的系统在内部验证中体现出了优异的特异性(0.836之与0.688-0.976),提供了一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测方法。
TransFG融合模型通过成对交互对两对输入数据(阳性舌象图像和对应试样的血液肿瘤标志物指标,阴性舌象图像和对应试样的血液肿瘤标志物指标)进行充分比较,以识别用于分类的对比线索。图5示出了TransFG融合模型内部验证(图5中的Trans_I)及外部验证(图5中的Trans_E)的ROC和AUC,由图5可知,相比于图4的SVM、DT和KNN模型,图5中的TransFG融合模型无论在内部验证还是外部验证时均具有更加远离(0,0)-(1,1)连线的ROC曲线,其内部验证AUC值达0.883,外部验证AUC值达0.834,明显高于八种血液肿瘤标志物的SVM、DT和KNN模型的内部验证AUC值(0.682-0.715)和外部验证AUC值(0.694-0.760),稍高于未融合血液肿瘤标志物而单纯应用舌象图像的模型,可知TransFG融合模型是一个表现较好的预测模型,且舌象图像结合血液肿瘤标志物指标可以进一步提高肿瘤的诊断价值。基于舌象图像和血液肿瘤标志物的AI诊断模型对GC的诊断价值明显优于单纯应用八项血液肿瘤标志物的组合的模型及单纯应用舌象图像的模型。
此外,应用本实施例模型对包括乳腺癌、结直肠癌、食道癌、肝胆胰腺癌及肺癌等在内的肿瘤进行相应的预测结果可知,均能够获得AUC不低于0.500的诊断预测结果,可知本申请所提供系统可对前述所述肿瘤进行经济性的、无创性的、有效性的筛查和诊断预测,拓展了现有肿瘤筛查的手段。
上述实施例中的常规技术为本领域技术人员所知晓的现有技术,故在此不再详细赘述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管对本发明已作出了详细的说明并引证了一些具体实施例,但是对本领域熟练技术人员来说,只要不离开本发明的精神和范围可作各种变化或修正是显然的。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
本发明未尽事宜均为公知技术。

Claims (30)

1.一种基于舌象图像和血液肿瘤标志物的肿瘤预测系统,其特征在于包括:
舌象图像获取模块,其被配置为获取测试试样的舌象图像;
血液肿瘤标志物获取模块,其被配置为获取测试试样的血液肿瘤标志物指标;
数据处理模块,其被配置为通过下述操作来获得测试试样属于阳性的概率:
依据自动学习获得的舌象图像与血液肿瘤标志物指标数据模态上可判别性的特征预测测试试样属于阳性的概率。
2.根据权利要求1所述的系统,其特征在于:所述血液肿瘤标志物选自AFP、CEA、CA125、CA15-3、CA199、CA72-4、CA242、CA50、CYFRA21-1、NSE、SCC、TPSA、FPSA、AFU、EBV-VCA、TSGF、Ferritin、β2-MG、POA或PROGRP中的至少一种。
3.根据权利要求1或2所述的系统,其特征在于:所述肿瘤是胃癌、乳腺癌、结直肠癌、食道癌、肝胆胰腺癌、肺癌、前列腺癌、甲状腺癌、卵巢癌、神经母细胞瘤、滋养细胞肿瘤或头颈部鳞癌中的至少一种。
4.根据权利要求1或2所述的系统,其特征在于:所述肿瘤是胃癌、乳腺癌、结直肠癌、食道癌、肝胆胰腺癌或肺癌中的至少一种。
5.根据权利要求1或2所述的系统,其特征在于:所述系统还包括输出模块,其被配制为输出预测结果。
6.根据权利要求5所述的系统,其特征在于:所述输出模块被配制为输出舌象图像与预测结果。
7.根据权利要求5所述的系统,其特征在于:所述输出模块以电子显示、声音播报、打印、网络传输的至少一种模式输出。
8.根据权利要求1或2所述的系统,其特征在于:所述可判别性的特征来自于舌象图像、血液肿瘤标志物指标数据模态上的阳性类别与阴性类别之间。
9.根据权利要求1或2所述的系统,其特征在于:所述可判别性的特征来自于成对输入交互式深度学习模型的阳性舌象图像、对应血液肿瘤标志物指标和阴性舌象图像、对应血液肿瘤标志物指标。
10.根据权利要求9所述的系统,其特征在于:所述数据处理模块具体配置为通过下述操作来预测测试试样属于阳性的概率:
充分对比同时输入交互式深度学习模型的阳性舌象图像、对应血液肿瘤标志物指标和阴性舌象图像、对应血液肿瘤标志物指标,自动学习在舌象图像、血液肿瘤标志物指标数据模态上阳性类别和阴性类别之间的共性和差异,依据阳性类别和阴性类别之间可判别性的特征预测测试试样属于阳性的概率。
11.根据权利要求9所述的系统,其特征在于:
所述阳性舌象图像、对应血液肿瘤标志物指标采集自肿瘤阳性患者;
所述阴性舌象图像、对应血液肿瘤标志物指标采集自肿瘤阴性患者。
12.根据权利要求9所述的系统,其特征在于:所述交互式深度学习模型是APINet模型。
13.根据权利要求9所述的系统,其特征在于:所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率:1)从预先获取的一对舌象图像和一对血液肿瘤标志物指标中提取得到阳性特征和阴性特征;2)以阳性特征和阴性特征训练模型,输出特征分属各个类别的概率;3)将测试试样舌象图像和血液肿瘤标志物指标输入训练完成的模型,输出测试试样属于阳性的概率。
14.根据权利要求13所述的系统,其特征在于:
步骤1)所述提取得到阳性特征和阴性特征的步骤包括:
编码器提取舌象图像的特征向量,与血液肿瘤标志物指标进行拼接,通过融合区的MLP进行融合,输出融合后的阳性特征f1和阴性特征f2
将f1和f2及其拼接后的特征fm同时输入特征选择区的MLP,对应输出两个控制向量g1和g2,分别对应f1和f2
g1分别激活f1和f2形成选择后的特征f1 +和f2 -,g2分别激活f1和f2形成选择后的特征f1 -和f2 +,获得两个阳性特征f1 +和f1 -与两个阴性特征f2 +和f2 -
15.根据权利要求13所述的系统,其特征在于:步骤2)所述以阳性特征和阴性特征训练模型具体是将阳性特征和阴性特征输入到全连接层分类器中,输出这些特征分别属于各个类别的概率。
16.根据权利要求13-15任一项所述的系统,其特征在于:步骤2)所述输出特征分属各个类别的概率时,依据四个特征所述类别,最小化交叉熵损失函数:
Figure 546627DEST_PATH_IMAGE002
其中,y是该特征所对应的真实标签,函数φc代表了最后的全连接层分类器,fi k对应了输入的4个特征。
17.根据权利要求13-15任一项所述的系统,其特征在于:步骤2)所述输出特征分属各个类别的概率时,考虑模型对特征fi +所输出的置信度应该高于特征fi -,最小化排序损失函数:
Figure 994926DEST_PATH_IMAGE004
其中,pi -和pi +是特征fi -和fi +经过分类器所输出的在各个类别上的概率分布,ϵ∈[0,1]是指定的超参数,p(c)是指在指定类别c上的概率。
18.根据权利要求13-15任一项所述的系统,其特征在于:步骤3)所述将测试试样舌象图像和血液肿瘤标志物指标输入训练完成的模型是指将单个测试试样的舌象图像和其血液肿瘤标志物指标输入。
19.根据权利要求13-15任一项所述的系统,其特征在于:仅应用舌象图像中舌面区域的外接矩形部分来训练和测试。
20.根据权利要求1或2所述的系统,其特征在于:所述可判别性的特征来自于单一的阳性舌象图像及对应的血液肿瘤标志物指标,或单一的阴性舌象图像及对应的血液肿瘤标志物指标。
21.根据权利要求1或2所述的系统,其特征在于:所述可判别性的特征来自于舌象图像切割成n小块后并与血液肿瘤标志物指标形成输入向量,进行特征提取以获得利于分类的深层特征。
22.根据权利要求20所述的系统,其特征在于:所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率:
将测试试样舌象图像切割成小块形成输入序列,并将血液肿瘤标志物指标置于输入序列末端,形成输入向量并添加位置索引,导入训练完成的深度学习模型进行特征提取及特征融合,输出选择后的有利于分类的深层特征,获得分属各个类别的概率。
23.根据权利要求22所述的系统,其特征在于:所述深度学习模型通过下述步骤完成训练:
a)将舌面图像切割成n小块,按照顺序组成输入序列,然后将血液肿瘤标志物指标置于输入序列末端,形成长度为n+1的输入序列,通过线性映射形成输入向量,并添加位置索引0,1,2,…,n-1;
b)将输入的血液肿瘤标志物指标通过全连接层进行维度扩增,与舌面图像块映射的输入向量对齐,并赋予位置索引n;
c)以基于Transformer模型的编码器进行特征提取及特征融合,输出选择后的有利于分类的深层特征,最终通过softmax分类器输出深层特征分属各个类别的概率分布。
24.根据权利要求23所述的系统,其特征在于:步骤c)所述编码器进行特征提取时,共包含L+1层Transformer层,且在每一层内部都包含了自注意力机制。
25.根据权利要求23或24所述的系统,其特征在于:前述步骤c)所述编码器进行特征提取及特征融合时,为了去掉冗余特征,深度特征输入到最后一层之前,通过包含多头注意力机制的特征选择模块进行区域选择,所述特征选择模块返回注意力权重最大的前排特征的索引,将选择出来的前排特征输入到最后一层Transformer层进行特征融合。
26.根据权利要求25所述的系统,其特征在于:所述前排特征是前k个特征,k是1,2,3,……,20的其中之一。
27.根据权利要求23或24所述的系统,其特征在于:步骤c)所述输出深层特征分属各个类别的概率分布时,最小化交叉熵损失函数:
Figure 40242DEST_PATH_IMAGE006
其中,yi是测试样例对应的真实one-hot标注中的元素,
Figure DEST_PATH_IMAGE007
是模型预测为类别yi的概率。
28.根据权利要求23或24所述的系统,其特征在于:步骤c)所述输出深层特征分属各个类别的概率分布时,最小化对比损失函数:
Figure DEST_PATH_IMAGE009
其中,N表示训练时批次的大小,函数D表示特征fi和fj的相似性度量。
29.基于舌象图像和血液肿瘤标志物的肿瘤预测方法,其特征在于包括:
获得测试试样的舌象图像和血液肿瘤标志物指标;
将测试试样的舌象图像和血液肿瘤标志物指标输入权利要求1-28任一项所述系统获得所述测试试样的肿瘤阳性概率。
30.权利要求1-28任一项所述系统和/或权利要求29所述方法的应用,其特征在于包括:
应用所述系统和/或方法对测试试样进行肿瘤预测。
CN202210860206.6A 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用 Active CN115082437B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202310150145.9A CN117173083A (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用
CN202210860206.6A CN115082437B (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用
PCT/CN2023/103812 WO2024016989A1 (zh) 2022-07-22 2023-06-29 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210860206.6A CN115082437B (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310150145.9A Division CN117173083A (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Publications (2)

Publication Number Publication Date
CN115082437A true CN115082437A (zh) 2022-09-20
CN115082437B CN115082437B (zh) 2023-04-07

Family

ID=83243390

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310150145.9A Pending CN117173083A (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用
CN202210860206.6A Active CN115082437B (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310150145.9A Pending CN117173083A (zh) 2022-07-22 2022-07-22 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Country Status (2)

Country Link
CN (2) CN117173083A (zh)
WO (1) WO2024016989A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115684116A (zh) * 2022-11-08 2023-02-03 深圳市睿法生物科技有限公司 一种用于肿瘤筛查的ctDNA多维表观遗传标志物差异识别方法
CN117218433A (zh) * 2023-09-13 2023-12-12 珠海圣美生物诊断技术有限公司 居家多癌种检测装置和多模态融合模型构建方法及装置
WO2024016989A1 (zh) * 2022-07-22 2024-01-25 浙江省肿瘤医院 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922490A (zh) * 2004-02-19 2007-02-28 耶鲁大学 使用蛋白质组学技术鉴定癌症蛋白生物标志物的方法
CN102317784A (zh) * 2008-12-22 2012-01-11 霍夫曼-拉罗奇有限公司 作为癌症标记物的armet
CN105586399A (zh) * 2015-09-07 2016-05-18 张国新 一种与胃癌相关的血清/血浆lncRNA标志物试剂盒
CN105717147A (zh) * 2016-03-29 2016-06-29 复旦大学附属中山医院 一种基于ct影像及生物标志物谱针对中国城市人口肺结节人群的肺癌风险预测模型
CN109700433A (zh) * 2018-12-28 2019-05-03 深圳铁盒子文化科技发展有限公司 一种舌象诊断系统和舌诊移动终端
CN110910371A (zh) * 2019-11-22 2020-03-24 北京理工大学 基于生理指标和影像融合的肝肿瘤自动分类方法及装置
CN111712713A (zh) * 2018-02-18 2020-09-25 马尔克斯·马尔克斯·利迪亚 用于乳腺癌的早期检测的方法、装置和试剂盒
CN112545562A (zh) * 2019-09-26 2021-03-26 深圳市易特科信息技术有限公司 多模态多参数乳腺癌筛查系统、装置及计算机存储介质
CN114677378A (zh) * 2022-05-31 2022-06-28 四川省医学科学院·四川省人民医院 基于卵巢肿瘤良恶性预测模型的计算机辅助诊疗系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108553081B (zh) * 2018-01-03 2023-02-21 京东方科技集团股份有限公司 一种基于舌苔图像的诊断系统
CN110033858A (zh) * 2018-12-28 2019-07-19 深圳铁盒子文化科技发展有限公司 一种舌象分析方法及其存储介质
CN117173083A (zh) * 2022-07-22 2023-12-05 浙江省肿瘤医院 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922490A (zh) * 2004-02-19 2007-02-28 耶鲁大学 使用蛋白质组学技术鉴定癌症蛋白生物标志物的方法
CN102317784A (zh) * 2008-12-22 2012-01-11 霍夫曼-拉罗奇有限公司 作为癌症标记物的armet
CN105586399A (zh) * 2015-09-07 2016-05-18 张国新 一种与胃癌相关的血清/血浆lncRNA标志物试剂盒
CN105717147A (zh) * 2016-03-29 2016-06-29 复旦大学附属中山医院 一种基于ct影像及生物标志物谱针对中国城市人口肺结节人群的肺癌风险预测模型
CN111712713A (zh) * 2018-02-18 2020-09-25 马尔克斯·马尔克斯·利迪亚 用于乳腺癌的早期检测的方法、装置和试剂盒
CN109700433A (zh) * 2018-12-28 2019-05-03 深圳铁盒子文化科技发展有限公司 一种舌象诊断系统和舌诊移动终端
CN112545562A (zh) * 2019-09-26 2021-03-26 深圳市易特科信息技术有限公司 多模态多参数乳腺癌筛查系统、装置及计算机存储介质
CN110910371A (zh) * 2019-11-22 2020-03-24 北京理工大学 基于生理指标和影像融合的肝肿瘤自动分类方法及装置
CN114677378A (zh) * 2022-05-31 2022-06-28 四川省医学科学院·四川省人民医院 基于卵巢肿瘤良恶性预测模型的计算机辅助诊疗系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JU HE等: "《TransFG: A Transformer Architecture for Fine-Grained Recognition》", 《ARXIV》 *
PEIQIN ZHUANG等: "《Learning Attentive Pairwise Interaction for Fine-Grained Classification》", 《ARXIV》 *
李军等: "《基于舌象参数与多指标特征联合的2 型糖尿病 风险预测模型》" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024016989A1 (zh) * 2022-07-22 2024-01-25 浙江省肿瘤医院 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用
CN115684116A (zh) * 2022-11-08 2023-02-03 深圳市睿法生物科技有限公司 一种用于肿瘤筛查的ctDNA多维表观遗传标志物差异识别方法
CN117218433A (zh) * 2023-09-13 2023-12-12 珠海圣美生物诊断技术有限公司 居家多癌种检测装置和多模态融合模型构建方法及装置

Also Published As

Publication number Publication date
WO2024016989A1 (zh) 2024-01-25
CN117173083A (zh) 2023-12-05
CN115082437B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115082437B (zh) 基于舌象图像和肿瘤标志物的肿瘤预测系统、方法及应用
CN110716043B (zh) 一种用于乳腺癌早期筛查和诊断的血清蛋白标志物、试剂盒及检测方法
CN110579611B (zh) 一种用于肺癌早期筛查和诊断的联合检测血清标志物、试剂盒及检测方法
WO2024016992A1 (zh) 基于舌象图像的肿瘤预测系统、方法及其应用
CN110716044B (zh) 一种用于食管鳞癌早期筛查和诊断的血清蛋白标志物、试剂盒及检测方法
TWI630501B (zh) Establishment of a cancer prediction model and a method for analyzing cancer detection results in combination with a tumor marker set
US20220180518A1 (en) Improved histopathology classification through machine self-learning of &#34;tissue fingerprints&#34;
Zhang et al. Models of logistic regression analysis, support vector machine, and back-propagation neural network based on serum tumor markers in colorectal cancer diagnosis
CN110716041A (zh) 一种用于胃癌早期筛查和诊断的血清蛋白标志物、试剂盒及检测方法
WO2024016990A1 (zh) 基于舌苔微生物的肿瘤预测系统、方法及其应用
Huang et al. Artificial intelligence technique in detection of early esophageal cancer
Gheonea et al. Diagnosis system for hepatocellular carcinoma based on fractal dimension of morphometric elements integrated in an artificial neural network
CN111428066B (zh) 一种基于卷积神经网络的病变图像的分类和分割方法
CN113011257A (zh) 一种乳腺癌免疫组化人工智能判读方法
Xu et al. An automated approach for predicting glioma grade and survival of LGG patients using CNN and radiomics
CN114677378A (zh) 基于卵巢肿瘤良恶性预测模型的计算机辅助诊疗系统
De León Rodríguez et al. A machine learning workflow of multiplexed immunofluorescence images to interrogate activator and tolerogenic profiles of conventional type 1 dendritic cells infiltrating melanomas of disease-free and metastatic patients
yahia Ibrahim et al. An enhancement technique to diagnose colon and lung cancer by using double CLAHE and deep learning
Deng et al. The investigation of construction and clinical application of image recognition technology assisted bronchoscopy diagnostic model of lung cancer
CN109735619A (zh) 与非小细胞肺癌预后相关的分子标志物及其应用
CN116047074A (zh) 一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法
CN114578060A (zh) 一种基于samhd1蛋白作为ii期结直肠癌疗效预测标志物的方法
Nalla et al. Influence of Convolutional Neural Network Depth on the Efficacy of Automated Breast Cancer Screening Systems
Nakhli et al. Volta: an environment-aware contrastive cell representation learning for histopathology
Wang et al. Automatic classification of gastric lesions in gastroscopic images using a lightweight deep learning model with attention mechanism and cost-sensitive learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant