CN117408997B - 非小细胞肺癌组织学图像egfr基因突变的辅助检测系统 - Google Patents

非小细胞肺癌组织学图像egfr基因突变的辅助检测系统 Download PDF

Info

Publication number
CN117408997B
CN117408997B CN202311708024.8A CN202311708024A CN117408997B CN 117408997 B CN117408997 B CN 117408997B CN 202311708024 A CN202311708024 A CN 202311708024A CN 117408997 B CN117408997 B CN 117408997B
Authority
CN
China
Prior art keywords
image
gene mutation
egfr gene
mutation
lung cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311708024.8A
Other languages
English (en)
Other versions
CN117408997A (zh
Inventor
吴海波
吴坤
王伟
郑钰山
史骏
张婉秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Provincial Hospital First Affiliated Hospital of USTC
Original Assignee
Anhui Provincial Hospital First Affiliated Hospital of USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Provincial Hospital First Affiliated Hospital of USTC filed Critical Anhui Provincial Hospital First Affiliated Hospital of USTC
Priority to CN202311708024.8A priority Critical patent/CN117408997B/zh
Publication of CN117408997A publication Critical patent/CN117408997A/zh
Application granted granted Critical
Publication of CN117408997B publication Critical patent/CN117408997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及医疗人工智能技术领域,具体涉及一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,包括对若干非小细胞肺癌患者的病理切片图像进行扫描、测序以及融合后生成训练集和测试集,将训练集进行训练获得非小细胞肺癌EGFR基因突变判断模型,将测试集输入到非小细胞肺癌EGFR基因突变判断模型中进行测试突变情况,根据基因突变数据与EGFR基因突变判断模型的基因突变数据得到检测准确率,大于设定准确率阈值时保存肺癌基因突变判断模型。本申请利用图像级别的标注检测EGFR基因是否突变以及突变位点,开发肺癌EGFR基因突变人工智能辅助检测模型,提高了分析EGFR突变及具体突变位点的准确性。

Description

非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统
技术领域
本申请涉及医疗人工智能技术领域,尤其涉及一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统。
背景技术
肺癌是人类常见的恶性肿瘤,其发病率为11.4%,仅次于女性乳腺癌,位列第二位,而死亡率为18%,是所有恶性肿瘤中最高的。肺癌按组织学分型主要分为非小细胞肺癌(non-small cell lung cancer, NSCLC)和小细胞肺癌(small cell lung cancer, SCLC)两大类,其中NSCLC是其主要的病理类型,约占所有肺癌的80-90%。NSCLC 患者的5年生存率约为15-25%,约70%的NSCLC患者确诊时即为晚期。早期NSCLC标准治疗方法是手术切除辅助放化疗,但约40-50%的患者在接受手术和化疗后仍会发生复发或转移。近年来,随着术后辅助靶向治疗的发展,患者的无进展生存期显著延长。而对于复发和转移的晚期NSCLC患者的治疗,随着以靶向和免疫治疗为基础的精准医疗时代的到来,近年来获得了巨大的成功,革新了癌症的诊疗方式。其中,靶向治疗由于具有靶向性强、副作用小、操作简便等优点,已成为非小细胞肺癌患者优先选择的一线标准治疗方案,且与化疗等传统治疗手段相比,这种治疗方式可以有效改善预后,延长患者的无进展生存期(PFS)和总生存期(OS)。
在亚洲人群中约43~60%的NSCLC患者具有表皮生长因子受体(epidermal growthfactor receptor, EGFR)基因突变,是最常见分子改变。大多数EGFR突变患者对EGFR酪氨酸激酶抑制剂(EGFR-TKIs)高度敏感,EGFR-TKIs治疗可提高客观缓解率达80%,与传统化疗相比,患者可获得更长的无进展生存期和总生存期。EGFR经典突变的患者均可以选择EGFR-TKIs辅助治疗,但根据突变位点,药物和疗效会有所不同。此外,美国国立综合癌症2021年《非小细胞肺癌诊治指南》中提出,所有局部晚期或转移性 NSCLC患者均应行EGFR分子检测,EGFR基因敏感突变位点阳性患者才有可能从EGFR-TKIs的靶向治疗中获益。因此,准确评估EGFR突变状态及突变亚型有利于NSCLC患者选择合适的治疗方案,从而提高患者的生存期和生活质量。
EGFR突变在非小细胞肺癌中的发现和靶向EGFR敏感突变的酪氨酸激酶抑制剂(TKI)的使用开启了驱动基因指导下的非小细胞肺癌分子分型和靶向治疗时代。作为NSCLC最重要且最常见的驱动突变,约40%-60%的亚洲晚期NSCLC患者中检测到EGFR基因突变。美国国立综合癌症2021年非小细胞肺癌诊治指南中提出,所有IB期以上的NSCLC患者均应行EGFR分子检测。EGFR基因的常见突变位点发生在18、19、20和21号外显子上,根据突变位点,药物和疗效会有所不同。自2003年首个EGFR-TKI吉非替尼获批以来,现已有8种针对EGFR敏感突变的靶向药物获批上市。但是这些药物作用的突变位点不同,如一代靶向药物仅针对19del缺失和L858R突变这些常见突变位点有效,而罕见突变则选择二代甚至是三代靶向药物。
现有的EGFR分子检测主要使用PCR或二代测序技术,但是目前这类检测对样本的要求较高,而晚期患者有限的活检组织经病理诊断后约80%无足够的样本进行后续分子检测,且早期术后复发患者的原肿瘤组织超过50%因保存时间过长而无法进行检测,同时再次穿刺或内镜活检将可能给患者带来肿瘤播撒、大出血等重大医疗风险。所以尽管该领域进展迅速,但许多实际问题常常阻止或延迟靶向治疗的启动。此外还包括用于检测的组织保存方法所致的DNA或RNA质量差、测序失败、成本高和周转时间长等这些问题。因此,亟需开发一种辅助检测手段,以精准筛选出特定EGFR突变人群,通过相关验证指导临床治疗。
深度学习(DL)是人工智能(AI)的一个子集,它在人工神经网络中使用机器学习(ML)算法来检测大型数据集中的复杂模式,目前这种深度学习算法已经开始应用于医学图像处理,它指对深层神经网络进行一系列有效训练的技术方法,可直接提取图像深层特征信息,并自动学习,卷积神经网络模型(Convolutional Neural Networks,CNN)和基于注意力机制的Transformer模型是目前最具有代表性的结构,CNN具有强大的图像特征提取能力,而Transformer对各部分特征可以进行有效的聚合,二者结合的深度学习模型进一步提高DL的领域学习能力。并且全片数字化病理(whole slide images,WSI)的出现为开发深度学习模型辅助病理医师诊断提供机会。训练后的深度学习模型可以不受专业因素的限制,全面而准确的获取病理切片的特征,适用于大数据量的WSI图像分析,然而DL算法模型的应用多集中在乳腺癌、前列腺癌、结直肠癌、头部肿瘤等领域,并且需要耗时耗力的像素级标注,由于肺部肿瘤异质性高、数据复杂,人工标注肿瘤区域不仅耗时耗力,而且十分容易引入人为的主观噪声。此外,目前的基因检测技术成本高昂,但往往大多是阴性结果,进一步造成患者的就医负担,尚未有基于肺癌的病理组织学图像分析EGFR突变及具体突变位点的研究。因此,如何提高分析EGFR突变及具体突变位点的准确性成为目前亟待解决的技术问题。
发明内容
本申请提供了一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,以提高分析EGFR突变及具体突变位点的准确性。
第一方面,本申请提供了一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,所述系统包括:
图像采集模块、图像处理模块和突变导出模块;
所述图像采集模块,用于对目标患者的病理切片图像进行扫描,生成数字病理图像,并对所述数字病理图像中的肿瘤区域进行表皮生长因子受体EGFR基因测序,生成与数字病理图像关联的EGFR基因突变数据,并基于所述EGFR基因突变数据,生成训练集和测试集;
所述图像处理模块,用于将所述训练集输入预先构建的神经网络模型中进行训练,生成EGFR基因突变判断模型,将所述测试集输入到所述EGFR基因突变判断模型中并生成与所述测试集中数字病理图像关联的EGFR基因突变类型以及突变位点信息;
所述突变导出模块,用于将所述基因突变类型、所述突变位点信息分别与所述EGFR基因突变数据进行比较,确定所述EGFR基因突变判断模型的检测准确率,并当所述检测准确率不小于预先设定的准确率阈值时,输出所述病理切片影像对应的目标EGFR基因突变类型和目标突变位点信息。
进一步地,目标患者包括肺鳞癌患者或肺腺癌患者。
进一步地,图像处理模块包括模型构建单元;所述模型构建单元包括:
预处理子单元,用于向预先构建的所述神经网络模型中输入所述训练集中所述数字病理图像的图像块特征,计算所述图像块特征之间的相对距离和相对方位信息,生成相对距离矩阵和相对方位矩阵,其中,m为所述图像块特征的数量;
编码器构建子单元,用于基于预设规则移除所述病理切片图像中设定比例的所述图像块特征,将剩余的图像块特征及相应的所述相对距离矩阵、所述相对方位矩阵输入到预先构建的全切片特征编码器中,输出模型特征;
模型生成子单元,用于将所述模型特征与随机移除的所述图像块特征输入至所述全切片特征解码器,将所述全切片特征解码器的输出与数字病理图像的图像特征进行重构对比后,通过预设重构损失函数优化原始数字病理图像特征的训练过程,生成所述EGFR基因突变判断模型。
进一步地,预处理子单元,还用于以各所述图像块特征为极坐标原点,水平方向为正方向,计算全部所述图像块特征之间的相对极角度,得到所述相对方位矩阵。
进一步地,预处理子单元,还用于向预先构建的所述神经网络模型中输入所述训练集中所述图像块特征,并为各所述图像块特征添加位置嵌入,以各所述图像块特征的二位坐标为基础,计算各所述图像块特征之间的欧式距离,生成所述相对距离矩阵。
进一步地,全切片特征编码器包括预设数量的编码器模块;
所述编码器模块包括层归一化模块、自注意力模块和多层感知机。
进一步地,自注意力模块的操作为:
其中,为第n个所述编码器模块输出的维的图像块特征,Wq (n)、Wk (n)和Wv (n)为第 n个所述编码器模块中将特征映射为维的可学习函数,为基于第n个block相关信息更新得 到的第n+1个block的输出,和分别是将相对距离和相对角度作为输入映射成可学习的嵌入 特征量的函数,是激活函数。
进一步地,全切片特征解码器由预设数量的所述解码器模块串联构成,其中,所述解码器模块与所述编码器模块的结构相同。
进一步地,非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统包括数据处理模块,所述数据处理模块包括突变检测单元。
进一步地,突变检测单元包括:
特征提取子单元,用于将完成训练的所述全切片特征编码器作为特征提取器,向所述特征提取器中输入所述数字病理图像,得到图像特征;
模型训练子单元,用于向所述EGFR基因突变判断模型中输入所述图像特征、所述相对距离、所述相对方位矩阵以及所述数字病理图像的基因突变类别标签,通过交叉熵损失函数对所述EGFR基因突变判断模型中基因突变位点分类网络进行训练;
图像检测子单元,用于向完成训练的所述EGFR基因突变判断模型中输入所述测试集,生成与所述测试集中所述数字病理图像关联的所述目标EGFR基因突变类型以及所述目标突变位点信息。
本申请公开了一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,所述系统包括图像采集模块、图像处理模块和突变导出模块;所述图像采集模块,用于对目标患者的病理切片图像进行扫描,生成数字病理图像,并对所述数字病理图像中的肿瘤区域进行表皮生长因子受体EGFR基因测序,生成与数字病理图像关联的EGFR基因突变数据,并基于所述EGFR基因突变数据,生成训练集和测试集;所述图像处理模块,用于将所述训练集输入预先构建的神经网络模型中进行训练,生成EGFR基因突变判断模型,将所述测试集输入到所述EGFR基因突变判断模型中并生成与所述测试集中数字病理图像关联的EGFR基因突变类型以及突变位点信息;所述突变导出模块,用于将所述基因突变类型、所述突变位点信息分别与所述EGFR基因突变数据进行比较,确定所述EGFR基因突变判断模型的检测准确率,并当所述检测准确率不小于预先设定的准确率阈值时,输出所述病理切片影像对应的目标EGFR基因突变类型和目标突变位点信息。上述系统针对非小细胞肺癌患者的数字病理图像可以对大量无标注的图像数据进行自监督特征学习,辅助模型获取更具有泛化能力的病理图像特征,分类出的突变位点粒度更细,不仅能够识别基因突变类型,还能获取更加具体的突变位点信息,提高了分析EGFR突变及具体突变位点的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统的系统框图;
图2为本申请的实施例提供的一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统中图像处理模块的构成示意框图;
图3为本申请是实施例提供的非小细胞肺癌组织病理学图像EGFR基因突变的辅助检测方法的数据处理流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统。其中,该非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统可以应用于服务器中,上述系统针对非小细胞肺癌患者的数字病理图像可以对大量无标注的图像数据进行自监督特征学习,辅助模型获取更具有泛化能力的病理图像特征,分类出的突变位点粒度更细,不仅能够识别基因突变类型,还能获取更加具体的突变位点信息,提高了分析EGFR突变及具体突变位点的准确性。其中,该系统可以为独立的服务器,也可以为服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请的实施例提供的一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统的系统框图。该非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统可应用于服务器中,针对非小细胞肺癌患者的数字病理图像可以对大量无标注的图像数据进行自监督特征学习,辅助模型获取更具有泛化能力的病理图像特征,分类出的突变位点粒度更细,不仅能够识别基因突变类型,还能获取更加具体的突变位点信息,提高了分析EGFR突变及具体突变位点的准确性。
如图1所示,该非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统包括图像采集模块、图像处理模块和突变导出模块;
所述图像采集模块,用于对目标患者的病理切片图像进行扫描,生成数字病理图像,并对所述数字病理图像中的肿瘤区域进行表皮生长因子受体EGFR基因测序,生成与数字病理图像关联的EGFR基因突变数据,并基于所述EGFR基因突变数据,生成训练集和测试集;
示例性地,本实施例使用麦克奥迪Motic EasyScan数字切片扫描仪对若干非小细胞肺癌患者的病理切片图像进行扫描获得数字病理图像,将数字病理图像中的肿瘤区域进行EGFR基因测序,以生成与数字病理图像关联的EGFR基因突变数据,将基因突变结果作为类别信息与对应的数字病理图像构成<标签,数据>对,生成训练集和测试集。
所述图像处理模块,用于将所述训练集输入预先构建的神经网络模型中进行训练,生成EGFR基因突变判断模型,将所述测试集输入到所述EGFR基因突变判断模型中并生成与所述测试集中数字病理图像关联的EGFR基因突变类型以及突变位点信息;
具体地,如图2所示,图2为本申请的实施例提供的一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统中图像处理模块的构成示意框图。
所述突变导出模块,用于将所述基因突变类型、所述突变位点信息分别与所述EGFR基因突变数据进行比较,确定所述EGFR基因突变判断模型的检测准确率,并当所述检测准确率不小于预先设定的准确率阈值时,输出所述病理切片影像对应的目标EGFR基因突变类型和目标突变位点信息。
基于图1所示系统,目标患者包括肺鳞癌患者或肺腺癌患者。
基于图1所示系统,图像处理模块包括模型构建单元;所述模型构建单元包括:
预处理子单元,用于向预先构建的所述神经网络模型中输入所述训练集中所述数 字病理图像的图像块特征,计算所述图像块特征之间的相对距离和相对方位信息,生成相 对距离矩阵和相对方位矩阵,其中,m为所述图像块特征的数量;
具体地,向预先构建的神经网络模型中输入训练集中数字病理图像的每个图像块 特征,为每个图像块添加位置嵌入,以每个图像块的二维坐标为基础,计算所有图像块的相 互间的欧式距离得到相对距离矩阵,同时以每个图像块为极坐标原点,水平方 向为正方向,计算所有图像块之间的相对极角度得到相对方位矩阵,其中m为图 像块数量。
编码器构建子单元,用于基于预设规则移除所述病理切片图像中设定比例的所述图像块特征,将剩余的图像块特征及相应的所述相对距离矩阵、所述相对方位矩阵输入到预先构建的全切片特征编码器中,输出模型特征;
模型生成子单元,用于将所述模型特征与随机移除的所述图像块特征输入至所述全切片特征解码器,将所述全切片特征解码器的输出与数字病理图像的图像特征进行重构对比后,通过预设重构损失函数优化原始数字病理图像特征的训练过程,生成所述EGFR基因突变判断模型。
基于图1所示系统,预处理子单元,还用于以各所述图像块特征为极坐标原点,水 平方向为正方向,计算全部所述图像块特征之间的相对极角度,得到所述相对方位矩阵
基于图1所示系统,预处理子单元,还用于向预先构建的所述神经网络模型中输入 所述训练集中所述图像块特征,并为各所述图像块特征添加位置嵌入,以各所述图像块特 征的二位坐标为基础,计算各所述图像块特征之间的欧式距离,生成所述相对距离矩阵
基于图1所示系统,全切片特征编码器包括预设数量的编码器模块;
所述编码器模块包括层归一化模块、自注意力模块和多层感知机。
基于图1所示系统,自注意力模块的操作为:
其中,为第n个所述编码器模块输出的维的图像块特征,Wq (n)、Wk (n)和 Wv (n)为第n个所述编码器模块中将特征映射为维的可学习函数,为基于第n 个block相关信息更新得到的第n+1个block的输出,分别是将相对距离和相对角 度作为输入映射成可学习的嵌入特征量的函数,是激活函数。
基于图1所示系统,全切片特征解码器由预设数量的所述解码器模块串联构成,其中,所述解码器模块与所述编码器模块的结构相同。
基于图1所示系统,非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统包括数据处理模块,所述数据处理模块包括突变检测单元。
基于图1所示系统,突变检测单元包括:
特征提取子单元,用于将完成训练的所述全切片特征编码器作为特征提取器,向所述特征提取器中输入所述数字病理图像,得到图像特征;
模型训练子单元,用于向所述EGFR基因突变判断模型中输入所述图像特征、所述相对距离、所述相对方位矩阵以及所述数字病理图像的基因突变类别标签,通过交叉熵损失函数对所述EGFR基因突变判断模型中基因突变位点分类网络进行训练;
图像检测子单元,用于向完成训练的所述EGFR基因突变判断模型中输入所述测试集,生成与所述测试集中所述数字病理图像关联的所述目标EGFR基因突变类型以及所述目标突变位点信息。
本实施方式中提出的判断模型不同于现有技术中卷积神经网络模型只能捕捉到局部的特征关系,基于自注意力的编码器和解码器结构能够学习得到局部信息对最终结果的贡献参与度,从而能有效聚合的全局关系,进一步嵌入所有局部间的相对距离和相对方位信息能有效捕获语义完整性的信息;从数据获取要求来说,该模型不需要精细的像素级标注,只需要给出病例级的类别即可,属于弱监督学习方法;从实际应用而言,该模型针对非小细胞肺癌患者的数字病理图像可以对大量无标注的图像数据进行自监督特征学习,帮助模型获取更具有泛化能力的病理图像特征,分类出的突变位点粒度更细,不仅能够识别基因突变类型,还能获取更加具体的突变位点信息,为现有NSCLC患者的精准检测和靶向治疗指导提供新的方法和思路。
本实施例还提供了一种非小细胞肺癌组织病理学图像EGFR基因突变的辅助检测方法,如图3所示,图3为本申请是实施例提供的非小细胞肺癌组织病理学图像EGFR基因突变的辅助检测方法的数据处理流程图,具体包括以下步骤:
S1:对目标患者的病理切片图像进行扫描,生成数字病理图像,并对所述数字病理图像中的肿瘤区域进行表皮生长因子受体EGFR基因测序,生成与数字病理图像关联的EGFR基因突变数据,并基于所述EGFR基因突变数据,生成训练集和测试集;
S2:将所述训练集输入预先构建的神经网络模型中进行训练,生成EGFR基因突变判断模型,将所述测试集输入到所述EGFR基因突变判断模型中并生成与所述测试集中数字病理图像关联的EGFR基因突变类型以及突变位点信息;
S3:将所述基因突变类型、所述突变位点信息分别与所述EGFR基因突变数据进行比较,确定所述EGFR基因突变判断模型的检测准确率,并当所述检测准确率不小于预先设定的准确率阈值时,输出所述病理切片影像对应的目标EGFR基因突变类型和目标突变位点信息。
本实施方式中,步骤S2还包括:
S201:向预先构建的所述神经网络模型中输入所述训练集中所述数字病理图像的 图像块特征,计算所述图像块特征之间的相对距离和相对方位信息,生成相对距离矩阵和相对方位矩阵,其中,m为所述图像块特征的数量;
S202:基于预设规则移除所述病理切片图像中设定比例的所述图像块特征,将剩余的图像块特征及相应的所述相对距离矩阵、所述相对方位矩阵输入到预先构建的全切片特征编码器中,输出模型特征;
S203:将所述模型特征与随机移除的所述图像块特征输入至所述全切片特征解码器,将所述全切片特征解码器的输出与数字病理图像的图像特征进行重构对比后,通过预设重构损失函数优化原始数字病理图像特征的训练过程,生成所述EGFR基因突变判断模型;
S204:将完成训练的所述全切片特征编码器作为特征提取器,向所述特征提取器中输入所述数字病理图像,得到图像特征;
S205:向所述EGFR基因突变判断模型中输入所述图像特征、所述相对距离、所述相对方位矩阵以及所述数字病理图像的基因突变类别标签,通过交叉熵损失函数对所述EGFR基因突变判断模型中基因突变位点分类网络进行训练;
S206:向完成训练的所述EGFR基因突变判断模型中输入所述测试集,生成与所述测试集中所述数字病理图像关联的所述目标EGFR基因突变类型以及所述目标突变位点信息。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统包括图像采集模块、图像处理模块和突变导出模块;
所述图像采集模块,用于对目标患者的病理切片图像进行扫描,生成数字病理图像,并对所述数字病理图像中的肿瘤区域进行表皮生长因子受体EGFR基因测序,生成与数字病理图像关联的EGFR基因突变数据,并基于所述EGFR基因突变数据,生成训练集和测试集;
所述图像处理模块,用于将所述训练集输入预先构建的神经网络模型中进行训练,生成EGFR基因突变判断模型,将所述测试集输入到所述EGFR基因突变判断模型中并生成与所述测试集中数字病理图像关联的EGFR基因突变类型以及突变位点信息;
所述图像处理模块包括模型构建单元;所述模型构建单元包括:
预处理子单元,用于向预先构建的所述神经网络模型中输入所述训练集中所述数字病理图像的图像块特征,计算所述图像块特征之间的相对距离和相对方位信息,生成相对距离矩阵和相对方位矩阵,其中,m为所述图像块特征的数量;
编码器构建子单元,用于基于预设规则移除所述病理切片图像中设定比例的所述图像块特征,将剩余的图像块特征及相应的所述相对距离矩阵、所述相对方位矩阵输入到预先构建的全切片特征编码器中,输出模型特征;
模型生成子单元,用于将所述模型特征与随机移除的所述图像块特征输入至全切片特征解码器,将所述全切片特征解码器的输出与数字病理图像的图像特征进行重构对比后,通过预设重构损失函数优化原始数字病理图像特征的训练过程,生成所述EGFR基因突变判断模型;
所述突变导出模块,用于将所述基因突变类型、所述突变位点信息分别与所述EGFR基因突变数据进行比较,确定所述EGFR基因突变判断模型的检测准确率,并当所述检测准确率不小于预先设定的准确率阈值时,输出所述病理切片影像对应的目标EGFR基因突变类型和目标突变位点信息。
2.根据权利要求1所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述目标患者包括肺鳞癌患者或肺腺癌患者。
3.根据权利要求1所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述预处理子单元,还用于以各所述图像块特征为极坐标原点,水平方向为正方向,计算全部所述图像块特征之间的相对极角度,得到所述相对方位矩阵。
4.根据权利要求1所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述预处理子单元,还用于向预先构建的所述神经网络模型中输入所述训练集中所述图像块特征,并为各所述图像块特征添加位置嵌入,以各所述图像块特征的二位坐标为基础,计算各所述图像块特征之间的欧式距离,生成所述相对距离矩阵
5.根据权利要求1所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述全切片特征编码器包括预设数量的编码器模块;
所述编码器模块包括层归一化模块、自注意力模块和多层感知机。
6.根据权利要求5所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述自注意力模块的操作为:
其中,为第n个所述编码器模块输出的维的图像块特征,Wq (n)、Wk (n)和Wv (n)为第n个所述编码器模块中将特征映射为维的可学习函数,为基于第n个block相关信息更新得到的第n+1个block的输出,和分别是将相对距离和相对角度作为输入映射成可学习的嵌入特征量的函数,是激活函数。
7.根据权利要求6所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述全切片特征解码器由预设数量的解码器模块串联构成,其中,所述解码器模块与所述编码器模块的结构相同。
8.根据权利要求1所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统包括数据处理模块,所述数据处理模块包括突变检测单元。
9.根据权利要求8所述的非小细胞肺癌组织学图像EGFR基因突变的辅助检测系统,其特征在于,所述突变检测单元包括:
特征提取子单元,用于将完成训练的所述全切片特征编码器作为特征提取器,向所述特征提取器中输入所述数字病理图像,得到图像特征;
模型训练子单元,用于向所述EGFR基因突变判断模型中输入所述图像特征、所述相对距离、所述相对方位矩阵以及所述数字病理图像的基因突变类别标签,通过交叉熵损失函数对所述EGFR基因突变判断模型中基因突变位点分类网络进行训练;
图像检测子单元,用于向完成训练的所述EGFR基因突变判断模型中输入所述测试集,生成与所述测试集中所述数字病理图像关联的所述目标EGFR基因突变类型以及所述目标突变位点信息。
CN202311708024.8A 2023-12-13 2023-12-13 非小细胞肺癌组织学图像egfr基因突变的辅助检测系统 Active CN117408997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311708024.8A CN117408997B (zh) 2023-12-13 2023-12-13 非小细胞肺癌组织学图像egfr基因突变的辅助检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311708024.8A CN117408997B (zh) 2023-12-13 2023-12-13 非小细胞肺癌组织学图像egfr基因突变的辅助检测系统

Publications (2)

Publication Number Publication Date
CN117408997A CN117408997A (zh) 2024-01-16
CN117408997B true CN117408997B (zh) 2024-03-08

Family

ID=89500256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311708024.8A Active CN117408997B (zh) 2023-12-13 2023-12-13 非小细胞肺癌组织学图像egfr基因突变的辅助检测系统

Country Status (1)

Country Link
CN (1) CN117408997B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117831612A (zh) * 2024-03-05 2024-04-05 安徽省立医院(中国科学技术大学附属第一医院) 基于人工智能的gist靶向药物类型选择预测方法及系统
CN117953970B (zh) * 2024-03-27 2024-06-11 山东大学 一种基于高光谱图像的肺癌多基因检测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555881A (zh) * 2019-08-29 2019-12-10 桂林电子科技大学 一种基于卷积神经网络的视觉slam测试方法
CN110727819A (zh) * 2019-10-10 2020-01-24 北京航空航天大学 一种尺度自适应病理全切片图像数据库检索方法
CN111369534A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种预测肺癌病理图像中基因突变的辅助系统及方法
CN113313164A (zh) * 2021-05-27 2021-08-27 复旦大学附属肿瘤医院 一种基于超像素分割与图卷积的数字病理图像分类方法及系统
CN114820481A (zh) * 2022-04-13 2022-07-29 合肥工业大学 基于转换器的肺癌组织病理全切片egfr状态预测方法
CN115222008A (zh) * 2021-04-14 2022-10-21 中国科学院自动化研究所 一种箱庭游戏的智能心理描述系统
WO2022225995A1 (en) * 2021-04-19 2022-10-27 F. Hoffmann-La Roche Ag Methods and systems for gene alteration prediction from pathology slide images
CN115359281A (zh) * 2022-05-20 2022-11-18 厦门大学 基于深度子空间聚类顺序集成的图像聚类方法及系统
WO2022242131A1 (zh) * 2021-05-21 2022-11-24 中国科学院深圳先进技术研究院 图像分割方法、装置、设备及存储介质
CN115601602A (zh) * 2022-11-10 2023-01-13 云南大学(Cn) 癌症组织病理图像分类方法、系统、介质、设备及终端
CN116128855A (zh) * 2023-02-22 2023-05-16 南京工业大学 一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814871B (zh) * 2020-06-13 2024-02-09 浙江大学 一种基于可靠权重最优传输的图像分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555881A (zh) * 2019-08-29 2019-12-10 桂林电子科技大学 一种基于卷积神经网络的视觉slam测试方法
CN110727819A (zh) * 2019-10-10 2020-01-24 北京航空航天大学 一种尺度自适应病理全切片图像数据库检索方法
CN111369534A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种预测肺癌病理图像中基因突变的辅助系统及方法
CN115222008A (zh) * 2021-04-14 2022-10-21 中国科学院自动化研究所 一种箱庭游戏的智能心理描述系统
WO2022225995A1 (en) * 2021-04-19 2022-10-27 F. Hoffmann-La Roche Ag Methods and systems for gene alteration prediction from pathology slide images
WO2022242131A1 (zh) * 2021-05-21 2022-11-24 中国科学院深圳先进技术研究院 图像分割方法、装置、设备及存储介质
CN113313164A (zh) * 2021-05-27 2021-08-27 复旦大学附属肿瘤医院 一种基于超像素分割与图卷积的数字病理图像分类方法及系统
CN114820481A (zh) * 2022-04-13 2022-07-29 合肥工业大学 基于转换器的肺癌组织病理全切片egfr状态预测方法
CN115359281A (zh) * 2022-05-20 2022-11-18 厦门大学 基于深度子空间聚类顺序集成的图像聚类方法及系统
CN115601602A (zh) * 2022-11-10 2023-01-13 云南大学(Cn) 癌症组织病理图像分类方法、系统、介质、设备及终端
CN116128855A (zh) * 2023-02-22 2023-05-16 南京工业大学 一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于CT纹理特征的非小细胞肺癌EGFR基因突变预测模型的构建;徐春阳;戴峰;陈刚;姚煜;薛晨祺;;新疆医科大学学报;20201015(第10期);96-101 *
基于深度学习的生物医学数据分析进展;李肃义;唐世杰;李凤;齐建卓;熊文激;;生物医学工程学杂志;20200425(第02期);171-179 *

Also Published As

Publication number Publication date
CN117408997A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN117408997B (zh) 非小细胞肺癌组织学图像egfr基因突变的辅助检测系统
Yao et al. Whole slide images based cancer survival prediction using attention guided deep multiple instance learning networks
Loeffler et al. Artificial intelligence–based detection of FGFR3 mutational status directly from routine histology in bladder cancer: a possible preselection for molecular testing?
Qu et al. Genetic mutation and biological pathway prediction based on whole slide images in breast carcinoma using deep learning
US20230177682A1 (en) Systems and methods for characterizing a tumor microenvironment using pathological images
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
Tothill et al. An expression-based site of origin diagnostic method designed for clinical application to cancer of unknown origin
WO2021062904A1 (zh) 基于病理图像的tmb分类方法、系统及tmb分析装置
Yue et al. Colorectal cancer outcome prediction from H&E whole slide images using machine learning and automatically inferred phenotype profiles
Chuang et al. Identification of nodal micrometastasis in colorectal cancer using deep learning on annotation-free whole-slide images
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
Liu et al. 3D radiomics predicts EGFR mutation, exon-19 deletion and exon-21 L858R mutation in lung adenocarcinoma
Chen et al. Radiomics and artificial intelligence for precision medicine in lung cancer treatment
CN109124660B (zh) 基于深度学习的胃肠间质瘤术后风险检测方法和系统
Wang et al. A novel approach combined transfer learning and deep learning to predict TMB from histology image
Xu et al. Computerized spermatogenesis staging (CSS) of mouse testis sections via quantitative histomorphological analysis
Xu et al. Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients
CN110299185A (zh) 一种基于新一代测序数据的插入变异检测方法及系统
Wen et al. Deep learning in digital pathology for personalized treatment plans of cancer patients
CN111814893A (zh) 基于深度学习的肺部全扫描图像egfr突变预测方法和系统
Liu et al. EOCSA: Predicting prognosis of epithelial ovarian cancer with whole slide histopathological images
Shen et al. Using an improved residual network to identify PIK3CA mutation status in breast cancer on ultrasound image
Ding et al. Deep learning‐based classification and spatial prognosis risk score on whole‐slide images of lung adenocarcinoma
Liu et al. Pathological prognosis classification of patients with neuroblastoma using computational pathology analysis
Lu et al. Machine Learning‐Based Radiomics for Prediction of Epidermal Growth Factor Receptor Mutations in Lung Adenocarcinoma

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant