CN116913455B - 一种胃镜检查报告生成装置、设备及计算机可读存储介质 - Google Patents

一种胃镜检查报告生成装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116913455B
CN116913455B CN202311193603.3A CN202311193603A CN116913455B CN 116913455 B CN116913455 B CN 116913455B CN 202311193603 A CN202311193603 A CN 202311193603A CN 116913455 B CN116913455 B CN 116913455B
Authority
CN
China
Prior art keywords
image
text
report
feature vector
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311193603.3A
Other languages
English (en)
Other versions
CN116913455A (zh
Inventor
邱霖
杨惠
张希钢
赖春晓
李志俭
何顺辉
王镇煜
李峰
赖正义
江海洋
刘贵明
赵志芳
万苹
易礼智
戴捷
邵贝
鹿伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zidong Information Technology Suzhou Co ltd
Original Assignee
Zidong Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zidong Information Technology Suzhou Co ltd filed Critical Zidong Information Technology Suzhou Co ltd
Priority to CN202311193603.3A priority Critical patent/CN116913455B/zh
Publication of CN116913455A publication Critical patent/CN116913455A/zh
Application granted granted Critical
Publication of CN116913455B publication Critical patent/CN116913455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请涉及一种胃镜检查报告生成装置、设备及计算机可读存储介质,属于胃镜检查报告智能生成技术领域。包括:图像特征提取模块,用于从胃镜图像子集中提取第一图像特征向量组;图像特征映射模块,用于将第一图像特征向量组映射至文本特征空间,输出第二图像特征向量组;文本特征提取模块,用于从血液检查报告中提取文本特征向量;模型训练模块,用于将第二图像特征向量组和文本特征向量输入至预训练后的文本生成器,调整文本生成器的参数,得到完成训练的胃镜检查报告生成模型。本申请综合考虑了同一病例对应的多张胃镜图像的图像特征以及该病例对应的血液检查报告的文本特征,使得提取的特征信息更全面,从而提高了胃镜检查报告的准确性。

Description

一种胃镜检查报告生成装置、设备及计算机可读存储介质
技术领域
本发明涉及胃镜检查报告智能生成技术领域,尤其是指一种胃镜检查报告生成装置、设备及计算机可读存储介质。
背景技术
胃部疾病是一种常见的系统疾病,主要包括胃溃疡、胃炎、胃出血等多种类型,其症状主要表现为上腹痛、灼心、恶心、呕吐、反酸、呕血等。胃部疾病的发病原因比较复杂,常见的因素包括不良的生活习惯和饮食习惯,病毒感染以及遗传因素等,这些因素均可能引起不同类型的胃部疾病。目前,胃镜检查是诊断胃部疾病最常用的方法之一,医生可以通过胃镜检查的影像了解患者的病情,诊断患者可能患上的胃部疾病并制定相应的治疗方案。然而,医生通过胃部图片撰写诊断报告需要花费大量的时间和精力,为了提高诊疗效率减轻医生的工作负担,基于人工智能技术的胃镜检查报告生成方法得到了广泛应用。该技术不仅可以提高医生的工作效率,还可以降低诊断误诊率和漏诊率,从而保证了胃部疾病诊断的准确性和可靠性。
在人工智能领域,基于单张图片的文本生成方法通常被用于胃镜检查报告生成,这种方法利用计算机视觉和自然语言处理算法从图像中提取与报告相关的特征,并自动生成诊断报告。最常见的人工智能方法是将该问题建模为输入一个胃部图像,然后使用通用的图像到文本生成算法,输出这张图像对应的诊断报告。但是,现有的模型只输入单张图像,没有结合多张胃镜图像综合生成胃镜检查报告,而同一病例对应的不同胃镜图像包含的特征信息是不同的,只使用一张胃镜图像生成的胃镜检查报告往往因为特征信息不全面导致报告存在遗漏;另外,现有模型中并未考虑结合与胃部疾病相关的文本特征信息,这也会导致生成的胃镜检查报告准确性降低。
综上所述,现有的胃镜检查报告生成模型并未考虑同一病例对应的不同胃镜图像所包含的不同特征信息,也没有结合该病例对应的其他相关文本特征信息,导致提取的特征信息不全面,因此生成的胃镜检查报告中往往会有所遗漏,即存在生成的胃镜检查报告准确性较低的问题。
发明内容
为此,本申请所要解决的技术问题在于克服现有技术中由于特征信息提取不够全面,从而导致生成的胃镜检查报告有所遗漏,准确性不高的问题。
为解决上述技术问题,本申请提供了一种胃镜检查报告生成装置,包括:
图像特征提取模块,用于获取训练集中的胃镜图像子集,将所述胃镜图像子集中的胃镜图像输入至图像编码器中,输出第一图像特征向量组;其中,所述胃镜图像子集中包括对应同一病例的多张胃镜图像;
图像特征映射模块,用于将所述第一图像特征向量组中的第一图像特征向量输入至全连接层,以将所述第一图像特征向量映射至文本特征空间,输出第二图像特征向量组;
文本特征提取模块,用于获取所述胃镜图像子集对应的血液检查报告,并将所述血液检查报告输入至文本嵌入层,得到文本特征向量;
模型训练模块,用于将所述第二图像特征向量组中的第二图像特征向量和所述文本特征向量输入至预训练后的文本生成器,输出胃镜检查报告,并基于所述胃镜检查报告调整所述文本生成器的参数,直到第一损失函数最小,得到完成训练的胃镜检查报告生成模型。
在本申请的一个实施例中,还包括模型预训练模块,其包括:
第一预训练子模块,用于将所述第二图像特征向量组中的第二图像特征向量和所述文本特征向量分别输入至文本生成器中,得到基于图像特征的检查报告和基于文本特征的检查报告,并基于所述基于图像特征的检查报告和所述基于文本特征的检查报告构建第二损失函数;
第二预训练子模块,用于将所述第一图像特征向量组中的第一图像特征向量和所述文本特征向量分别输入至所述文本生成器中,输出图像特征表示和文本特征表示,并基于所述图像特征表示和文本特征表示构建第三损失函数;
参数调整子模块,用于基于所述第二损失函数和所述第三损失函数构建第四损失函数,并对所述文本生成器进行迭代训练,直到所述第四损失函数最小,得到预训练后的文本生成器。
在本申请的一个实施例中,所述第一预训练子模块包括:
第一检查报告生成单元,用于将所述第二图像特征向量组中的第二图像特征向量输入至所述文本生成器中,得到基于图像特征的检查报告;
第二图像损失函数构建单元,用于基于所述基于图像特征的检查报告构建第二图像损失函数;
第二检查报告生成单元,用于将所述文本特征向量输入至所述文本生成器中,得到基于文本特征的检查报告;
第二文本损失函数构建单元,用于基于所述基于文本特征的检查报告构建第二文本损失函数;
第二损失函数构建单元,用于基于所述第二图像损失函数和所述第二文本损失函数构建第二损失函数。
在本申请的一个实施例中,所述第二图像损失函数为:
其中,表示胃镜图像子集的数量,/>表示基于图像特征的检查报告/>的概率,/>表示第/>个胃镜图像子集对应的基于图像特征的检查报告,/>表示第/>个胃镜图像子集对应的第一图像特征向量组,/>,/>表示第/>个胃镜图像子集对应的第一图像特征向量组中的第/>个第一图像特征向量,/>为文本生成器中的可训练参数,/>表示检查报告/>的文本长度,/>表示检查报告/>中的第/>个文字,表示检查报告/>中的第/>个文字的概率,/>表示第/>个胃镜图像子集对应的第二图像特征向量组,/>,/>表示第/>个胃镜图像子集对应的第二图像特征向量组中的第/>个第二图像特征向量;
所述第二文本损失函数为:
其中,表示基于文本特征的检查报告/>的概率,/>表示第/>个胃镜图像子集对应的基于文本特征的检查报告,/>表示第/>个胃镜图像子集对应的文本特征向量,表示检查报告/>的文本长度,/>表示检查报告/>中的第/>个文字,/>表示检查报告/>中的第/>个文字的概率;
所述第二损失函数为:
在本申请的一个实施例中,所述第二预训练子模块包括:
图像特征表示提取单元,用于将所述第一图像特征向量组中的第一图像特征向量分别输入至所述文本生成器中,基于所述文本生成器每次输出的第一个字符串得到图像特征表示;
文本特征表示提取单元,用于将所述文本特征向量输入至所述文本生成器中,将所述文本生成器输出的第一个字符串作为文本特征表示;
对比损失计算单元,用于构建基于图像特征表示的第一对比损失函数和基于文本特征表示的第二对比损失函数;
第三损失函数构建单元,用于基于所述第一对比损失函数和所述第二对比损失函数构建第三损失函数。
在本申请的一个实施例中,所述第一对比损失函数为:
其中,表示胃镜图像子集的数量,/>表示第/>个胃镜图像子集对应的图像特征表示,/>表示第/>个胃镜图像子集对应的文本特征表示,/>表示第/>个胃镜图像子集对应的文本特征表示;/>表示线性层,/>表示指数函数,/>为温度超参数;
所述第二对比损失函数为:
其中,表示第/>个胃镜图像子集对应的图像特征表示;
所述第三损失函数为:
在本申请的一个实施例中,所述第四损失函数为:
其中,为第二损失函数,/>为第三损失函数,/>为平衡超参数。
在本申请的一个实施例中,所述第一损失函数为:
其中,表示胃镜图像子集的数量,/>表示胃镜检查报告/>的概率,表示第/>个胃镜图像子集对应的胃镜检查报告,/>表示第/>个胃镜图像子集对应的第一图像特征向量组,/>,/>表示第/>个胃镜图像子集对应的第一图像特征向量组中的第/>个第一图像特征向量,/>表示第/>个胃镜图像子集对应的文本特征向量,胃镜检查报告/>的文本长度,/>表示胃镜检查报告/>中的第/>个文字,表示胃镜检查报告/>中的第/>个文字的概率,/>为文本生成器中的可训练参数。
本申请还提供了一种胃镜检查报告生成设备,包括:
胃镜图像采集及处理装置,用于采集胃镜图像,并对所述胃镜图像进行处理,得到多个胃镜图像子集;其中,每个胃镜图像子集中包括对应同一病例的多张胃镜图像;
血液检查报告采集装置,用于采集所述胃镜图像子集对应的血液检查报告;
上位机,与所述胃镜图像采集及处理装置和所述血液检查报告采集装置通讯连接,用于获取所述胃镜图像子集和所述血液检查报告,执行上述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤,获取胃镜检查报告;
显示装置,与所述上位机通讯连接,用于显示胃镜检查报告结果。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤。
与现有技术相比,本申请的有益效果是:
1、本申请利用图像特征提取模块提取多张对应同一病例的胃镜图像的图像特征作为第一图像特征向量组,利用文本特征提取模块提取胃镜图像对应的血液检查报告的文本特征向量,综合考虑了同一病例对应的多张胃镜图像中包含的不同特征信息以及血液检查指标信息中隐含的与胃部疾病相关的文本信息,使得提取的特征信息更全面,从而提高胃镜检查报告的准确性。
2、本申请将模型的训练过程分为预训练和微调两个阶段,先通过预训练阶段使得文本生成器能够更好地捕捉图像特征和文本特征之间的关联,再对预训练后的文本生成器进行微调以进一步提高模型的准确性,从而获得高质量的胃镜检查报告。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1为本申请提供的胃镜检查报告生成装置结构示意图;
图2为本申请提供的模型预训练原理示意图;
图3为本申请提供的模型训练原理示意图;
图4为本申请提供的胃镜检查报告生成模型的训练过程示意图;
图5为本申请对比例提供的基于单模态人工智能方法生成胃镜检查报告的原理示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参阅图1,图1为本申请提供的一种胃镜检查报告生成装置结构示意图,其具体包括:
图像特征提取模块10,用于获取训练集中的胃镜图像子集,将胃镜图像子集中的胃镜图像输入至图像编码器中,输出第一图像特征向量组;其中,胃镜图像子集中包括对应同一病例的多张胃镜图像。
图像特征映射模块11,用于将第一图像特征向量组中的第一图像特征向量输入至全连接层,以将第一图像特征向量映射至文本特征空间,输出第二图像特征向量组。
文本特征提取模块12,用于获取胃镜图像子集对应的血液检查报告,并将血液检查报告输入至文本嵌入层,得到文本特征向量。
模型训练模块13,用于将第二图像特征向量组中的第二图像特征向量和文本特征向量输入至预训练后的文本生成器,输出胃镜检查报告,并基于胃镜检查报告调整文本生成器的参数,直到第一损失函数最小,得到完成训练的胃镜检查报告生成模型。
由于相同的胃部疾病对应的不同胃镜图像中包括的特征信息不同,并且血液检查报告中也隐含了与胃部疾病的相关信息,因此本申请将多张对应相同病例的胃镜图像和该病例对应的血液检查报告作为输入,充分提取胃镜图像的图像特征信息和血液检查报告的文本特征信息,通过模型预训练过程让模型更好地理解图像特征和文本特征之间的关联与共同特征,又通过对预训练后的模型进行微调进一步提高模型的准确性,从而获得高质量的胃镜检查报告。
具体地,作为本申请的具体示例,图像特征提取模块10中的图像编码器为ResNet50特征提取网络,第一图像特征向量组为:
其中,,表示第/>个胃镜图像子集,/>表示第/>个胃镜图像子集中的第/>张胃镜图像;/>,表示第/>个胃镜图像子集对应的第一图像特征向量组,/>表示第一图像特征向量组中的第/>个第一图像特征向量。
进一步地,图像特征映射模块11使用全连接层将第一图像特征向量组中的第一图像特征向量映射至文本特征空间,输出的第二图像特征向量组为:
,表示第/>个胃镜图像子集对应的第二图像特征向量组,表示第/>个胃镜图像子集对应的第二图像特征向量组中的第/>个第二图像特征向量。
具体地,文本特征提取模块12将血液检查报告输入至文本嵌入层,得到的文本特征向量为:
其中,为文本嵌入层,/>表示第/>个胃镜图像子集对应的血液检查报告。
文本特征向量由胃镜图像子集对应的血液检查报告的各项指标及其检测结果值构成,示例地,在本申请的一个具体实施例中,第个胃镜图像子集对应的血液检查报告为“白细胞3.6*109/L,红细胞4.1*1012/L,血红蛋白99g/L...”。
作为本申请的具体示例,模型训练模块13中的文本生成器为BART模型。
可选地,在本申请的一些实施例中,该胃镜检查报告生成装置还包括对文本生成器进行预训练的模型预训练模块14,其具体包括:
第一预训练子模块140,用于将第二图像特征向量组中的第二图像特征向量和文本特征向量分别输入至文本生成器中,得到基于图像特征的检查报告和基于文本特征的检查报告,并基于该基于图像特征的检查报告和该基于文本特征的检查报告构建第二损失函数。
第二预训练子模块141,用于将第一图像特征向量组中的第一图像特征向量和文本特征向量分别输入至文本生成器中,输出图像特征表示和文本特征表示,并基于图像特征表示和文本特征表示构建第三损失函数。
参数调整子模块142,用于基于第二损失函数和第三损失函数构建第四损失函数,并对文本生成器进行迭代训练,直到第四损失函数最小,得到预训练后的文本生成器。
本申请实施例中的第一预训练子模块140分别使用图像特征向量和文本特征向量单独生成基于图像特征的检查报告和基于文本特征的检查报告,能够训练模型对于不同特征信息的理解能力。
具体地,该第一预训练子模块140包括:
第一检查报告生成单元,用于将第二图像特征向量组中的第二图像特征向量输入至文本生成器中,得到基于图像特征的检查报告。
第二图像损失函数构建单元,用于基于该基于图像特征的检查报告构建第二图像损失函数。
其中,第二图像损失函数为:
其中,表示胃镜图像子集的数量,/>表示基于图像特征的检查报告/>的概率,/>表示第/>个胃镜图像子集对应的基于图像特征的检查报告,/>表示第/>个胃镜图像子集对应的第一图像特征向量组,/>,/>表示第/>个胃镜图像子集对应的第一图像特征向量组中的第/>个第一图像特征向量,/>为文本生成器中的可训练参数,/>表示检查报告/>的文本长度,/>表示检查报告/>中的第/>个文字,表示检查报告/>中的第/>个文字的概率,/>表示第/>个胃镜图像子集对应的第二图像特征向量组,/>,/>表示第/>个胃镜图像子集对应的第二图像特征向量组中的第/>个第二图像特征向量。
可选地,作为本申请的具体示例,在一个训练过程中,胃镜图像子集的数量的取值为5。
第二检查报告生成单元,用于将文本特征向量输入至文本生成器中,得到基于文本特征的检查报告。
第二文本损失函数构建单元,用于基于该基于文本特征的检查报告构建第二文本损失函数。
其中,第二文本损失函数为:
其中,表示基于文本特征的检查报告/>的概率,/>表示第/>个胃镜图像子集对应的基于文本特征的检查报告,/>表示第/>个胃镜图像子集对应的文本特征向量,表示检查报告/>的文本长度,/>表示检查报告/>中的第/>个文字,/>表示检查报告/>中的第/>个文字的概率。
第二损失函数构建单元,用于基于第二图像损失函数和第二文本损失函数构建第二损失函数。
其中,第二损失函数为:
本申请实施例中的第二预训练子模块141通过对比损失学习使得模型能够更好地捕捉图像特征信息和文本特征信息之间的关联和共同特征,从而提高模型生成的胃镜检查报告的质量。
具体地,该第二预训练子模块141包括:
图像特征表示提取单元,用于将第一图像特征向量组中的第一图像特征向量分别输入至文本生成器中,基于文本生成器每次输出的第一个字符串得到图像特征表示:
其中,下标1表示文本生成器输出的第一个token。
文本特征表示提取单元,用于将文本特征向量输入至文本生成器中,将文本生成器输出的第一个字符串作为文本特征表示:
对比损失计算单元,用于构建基于图像特征表示的第一对比损失函数和基于文本特征表示的第二对比损失函数。
具体地,本申请实施例中将同一病例的胃镜图像子集和血液检查报告作为正样本,将其他胃镜图像子集和血液检查报告作为负样本,计算针对图像特征表示的第一对比损失函数和针对文本特征表示的第二对比损失函数。
其中,针对图像特征表示的第一对比损失函数为:
其中,表示第/>个胃镜图像子集对应的文本特征表示,/>表示线性层,/>表示指数函数,/>为温度超参数。
针对文本特征表示的第二对比损失函数为:
其中,表示第/>个胃镜图像子集对应的图像特征表示。
可选地,作为本申请的具体示例,温度超参数的取值为0.07。
第三损失函数构建单元,用于基于第一对比损失函数和第二对比损失函数构建第三损失函数。
其中,第三损失函数为:
进一步地,基于上述第一预训练子模块140和第二预训练子模块141构建的第二损失函数和第三损失函数,参数调整子模块142中的第四损失函数为:
其中,本申请实施例中为了平衡第一预训练子模块的损失函数和第二预训练子模块的损失函数之间的比例,设置了平衡超参数
可选地,作为本申请的具体示例,平衡超参数的取值为0.5。
请参阅图2,图2为本申请提供的模型预训练原理示意图,本申请实施例综合使用了独立预生成(第一预训练子模块)和跨模态对比学习(第二预训练子模块)两种预训练方法,通过独立预生成的预训练任务训练模型更好地理解图像特征和文本特征,又通过跨模态对比学习的预训练任务训练模型更好地捕捉图像特征信息和文本特征信息之间的关联,通过设置平衡超参数平衡两个预训练任务之间的比例,从而提高胃镜检查报告的质量。
请参阅图3,图3为本申请提供的模型训练原理示意图,通过将第二图像特征向量组中的图像特征向量和文本特征向量输入至预训练后的文本生成器中,输出胃镜检查报告,基于输出的胃镜检查报告调整模型的参数,直到第一损失函数最小,得到训练好的胃镜检查报告生成模型。
其中,第一损失函数为:
其中,表示胃镜检查报告/>的概率,/>表示第/>个胃镜图像子集对应的胃镜检查报告,/>表示第/>个胃镜图像子集对应的第一图像特征向量组,,/>表示第/>个胃镜图像子集对应的第一图像特征向量组中的第/>个第一图像特征向量,/>表示第/>个胃镜图像子集对应的文本特征向量,/>胃镜检查报告/>的文本长度,/>表示胃镜检查报告/>中的第/>个文字,/>表示胃镜检查报告/>中的第/>个文字的概率,/>为文本生成器中的可训练参数。
本申请实施例通过预训练使得模型充分学习图像特征信息和文本特征信息之间的关联,又在训练过程中构建第一损失函数对预训练后的模型进行微调以进一步提高模型的准确性,从而获得高质量的胃镜检查报告。
本申请实施例还提供了对胃镜检查报告生成模型进行训练、测试和验证的具体示例,具体步骤如下:
步骤1:收集原始数据
本申请实施例中收集了内径中心胃镜检查(包括无痛胃镜、清醒镇静胃镜以及普通胃镜检查)患者的诊断报告和胃镜图像。
图片拍摄设备主要为Olympus公司240、260、290系列以及日本Fujinon公司560、580系列内镜。所有图片均在白光非放大模式下拍摄,BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。其中,纳入数据集的标准为:有诊断报告和正常胃镜粘膜图片;排除标准为:1、患者小于16岁或大于95岁;2、图片异常模糊、伪影、异常失真等影响观察的图片;3、有大量泡沫、粘液糊或食物等干扰严重的图片。
步骤2:构建数据集
数据集共包括标注病例样本3971例,其中,每个病例均含有对应的诊断报告和1-10张胃镜图片。将标注好的样本按照7:2:1的比例随机划分为无交集的训练集(2780例),验证集(794例),测试集(397例)。在模型预训练阶段仅使用训练集中的数据进行训练,在模型训练阶段使用完整的数据集进行训练、测试和验证。
步骤3:模型构建及训练
如图4所示,构建胃镜检查报告生成模型后,首先使用训练集中的数据对模型进行独立预生成和跨模态对比学习预训练,使用胃镜图像和血液检查指标分别生成基于图像的胃镜检查报告和基于文本的胃镜检查报告,利用对比学习建立两者之间的关联。预训练结束后,对模型进行训练,加载预训练保存的模型参数,使用训练集中的样本对模型进行训练以对模型的参数进行微调,之后使用验证集中的数据评估模型的性能,并选取最合适的参数并保存最优的微调模型作为训练好的胃镜检查报告生成模型。
步骤4:模型测试
将测试集中的带预测样本输入模型中,输出胃镜检查报告,并基于输出的胃镜检查报告评估模型的精确率(BLEU)、召回率(ROUGE)和临床疗效(clinical efficacy,CE)。
为了证明本申请提供的胃镜检查报告生成模型的准确性,本申请还提供了以下对比例并计算了该对比例生成的胃镜检查报告的准确性:
对比例
本对比例提供了图5所示的基于单模态人工智能方法生成胃镜检查报告的步骤,其具体包括:
S1:专业医生标注多个带有胃部疾病的样本,每个样本包括胃部图像和对应的诊断报告,获得包含大量配对图像和诊断报告的标注语料;
S2:基于深度学习网络(通常包含提取图像特征的卷积神经网络和生成文本的Transformer网络)训练标注语料,获得胃镜检查报告生成模型;
S3:使用胃镜检查报告生成模型对胃部图像进行预测,生成对应的胃镜检查报告。
具体地,步骤S2中的深度神经网络通常包含图像编码器和文本生成器,其中,图像编码器负责抽取图像特征,通常由一系列的卷积层、归一化层、激活层和池化层组成;常用的图像编码器有VGG、ResNet、Inception、Efficient Net、ViT;文本生成器负责生成利用输入的图像特征生成胃镜检查报告,一般由Transformer网络组成;常用的文本生成器有BART、GPT、T5等。
对比例通过输入一张胃镜图像,由图像编码器对该胃镜图像进行编码获取图像特征,最后由文本生成器利用该图像特征生成对应的胃镜检查报告。
另外,本申请还邀请了2名经验丰富的内镜医师对测试集中的病例(多张胃镜图片及血液检查指标)进行诊断,并计算2名医师对疾病诊断的精确率、召回率和CE值。
通过对比发现,本申请提供的胃镜检查报告生成模型生成的胃镜检查报告的精确率(BLEU)、召回率(ROUGE)以及临床疗效(clinical efficacy,CE)均明显优于对比例中生成的胃镜检查报告,并且本申请生成的胃镜检查报告准确率更接近经验丰富的消化科医师。
其具体结果如下:医师的整体诊断精确率为51%,本申请提供的胃镜检查报告生成模型生成的胃镜检查报告的整体精确率为45.3%,医师的诊断召回率为49%,本申请提供的胃镜检查报告生成模型的召回率为35.6%,医师的诊断率为41%,本申请提供的胃镜检查报告的诊断率为43.5%。而对比例中生成的胃镜检查报告的整体精确率、召回率和诊断率均不足35%。
其中,精确率(BLEU)=诊断报告(标签)中n元词组出现在生成结果中(预测)的概率*100%;
召回率(ROUGE)=生成结果(预测)中n元词组在诊断报告(标签)中出现的概率*100%;
CE=生成结果中的疾病种类在诊断报告的疾病分类(标签)的概率*100%。
由上述数据可以看出,本申请通过结合同一病例对应的多张胃镜图像和该病例对应的血液检查报告,综合考虑了相同病例的不同胃镜图像中所包含的不同特征信息,以及血液检查报告中隐含的与胃部疾病相关的文本信息,使得提取的特征信息更全面,从而提高了胃镜检查报告的准确性。
本申请实施例还提供了一种胃镜检查报告生成设备,包括:
胃镜图像采集及处理装置,用于采集胃镜图像,并对胃镜图像进行处理,得到多个胃镜图像子集;其中,每个胃镜图像子集中包括对应同一病例的多张胃镜图像;
血液检查报告采集装置,用于采集胃镜图像子集对应的血液检查报告;
上位机,与胃镜图像采集及处理装置和血液检查报告采集装置通讯连接,用于获取胃镜图像子集和血液检查报告,执行上述实施例提供的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤,获取胃镜检查报告;
显示装置,与上位机通讯连接,用于显示胃镜检查报告结果。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时实现上述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种胃镜检查报告生成装置,其特征在于,包括:
图像特征提取模块,用于获取训练集中的胃镜图像子集vi,将所述胃镜图像子集vi中的胃镜图像输入至图像编码器中,输出第一图像特征向量组其中,所述胃镜图像子集vi中包括对应同一病例的多张胃镜图像;vi={vi,1,vi,2,…,vi,m},vi,m表示第i个胃镜图像子集中的第m张胃镜图像;/> 表示第一图像特征向量组中的第m个第一图像特征向量;
图像特征映射模块,用于将所述第一图像特征向量组中的第一图像特征向量输入至全连接层,以将所述第一图像特征向量映射至文本特征空间,输出第二图像特征向量组其中,/> 表示第i个胃镜图像子集对应的第二图像特征向量组中的第m个第二图像特征向量;
文本特征提取模块,用于获取所述胃镜图像子集对应的血液检查报告,并将所述血液检查报告输入至文本嵌入层,得到文本特征向量;
模型训练模块,用于将所述第二图像特征向量组中的第二图像特征向量和所述文本特征向量输入至预训练后的文本生成器,输出胃镜检查报告,并基于所述胃镜检查报告调整所述文本生成器的参数,直到第一损失函数最小,得到完成训练的胃镜检查报告生成模型。
2.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,还包括模型预训练模块,其包括:
第一预训练子模块,用于将所述第二图像特征向量组中的第二图像特征向量和所述文本特征向量分别输入至文本生成器中,得到基于图像特征的检查报告和基于文本特征的检查报告,并基于所述基于图像特征的检查报告和所述基于文本特征的检查报告构建第二损失函数;
第二预训练子模块,用于将所述第一图像特征向量组中的第一图像特征向量和所述文本特征向量分别输入至所述文本生成器中,输出图像特征表示和文本特征表示,并基于所述图像特征表示和文本特征表示构建第三损失函数;
参数调整子模块,用于基于所述第二损失函数和所述第三损失函数构建第四损失函数,并对所述文本生成器进行迭代训练,直到所述第四损失函数最小,得到预训练后的文本生成器。
3.根据权利要求2所述的胃镜检查报告生成装置,其特征在于,所述第一预训练子模块包括:
第一检查报告生成单元,用于将所述第二图像特征向量组中的第二图像特征向量输入至所述文本生成器中,得到基于图像特征的检查报告;
第二图像损失函数构建单元,用于基于所述基于图像特征的检查报告构建第二图像损失函数;
第二检查报告生成单元,用于将所述文本特征向量输入至所述文本生成器中,得到基于文本特征的检查报告;
第二文本损失函数构建单元,用于基于所述基于文本特征的检查报告构建第二文本损失函数;
第二损失函数构建单元,用于基于所述第二图像损失函数和所述第二文本损失函数构建第二损失函数。
4.根据权利要求3所述的胃镜检查报告生成装置,其特征在于,所述第二图像损失函数为:
其中,B表示胃镜图像子集的数量,表示基于图像特征的检查报告qi的概率,qi表示第i个胃镜图像子集对应的基于图像特征的检查报告,/>表示第i个胃镜图像子集对应的第一图像特征向量组,/> 表示第i个胃镜图像子集对应的第一图像特征向量组中的第m个第一图像特征向量,θ为文本生成器中的可训练参数,ai表示检查报告qi的文本长度,wi,j表示检查报告qi中的第j个文字,表示检查报告qi中的第j个文字的概率,/>表示第i个胃镜图像子集对应的第二图像特征向量组,/> 表示第i个胃镜图像子集对应的第二图像特征向量组中的第m个第二图像特征向量;
所述第二文本损失函数为:
其中,表示基于文本特征的检查报告gi的概率,gi表示第i个胃镜图像子集对应的基于文本特征的检查报告,/>表示第i个胃镜图像子集对应的文本特征向量,di表示检查报告gi的文本长度,ωi,j表示检查报告gi中的第j个文字,/>表示检查报告gi中的第j个文字的概率;
所述第二损失函数为:
5.根据权利要求2所述的胃镜检查报告生成装置,其特征在于,所述第二预训练子模块包括:
图像特征表示提取单元,用于将所述第一图像特征向量组中的第一图像特征向量分别输入至所述文本生成器中,基于所述文本生成器每次输出的第一个字符串得到图像特征表示;
文本特征表示提取单元,用于将所述文本特征向量输入至所述文本生成器中,将所述文本生成器输出的第一个字符串作为文本特征表示;
对比损失计算单元,用于构建基于图像特征表示的第一对比损失函数和基于文本特征表示的第二对比损失函数;
第三损失函数构建单元,用于基于所述第一对比损失函数和所述第二对比损失函数构建第三损失函数。
6.根据权利要求5所述的胃镜检查报告生成装置,其特征在于,所述第一对比损失函数为:
其中,B表示胃镜图像子集的数量,表示第i个胃镜图像子集对应的图像特征表示,表示第i个胃镜图像子集对应的文本特征表示,/>表示第k个胃镜图像子集对应的文本特征表示;Linear表示线性层,exp表示指数函数,τ为温度超参数;
所述第二对比损失函数为:
其中,表示第k个胃镜图像子集对应的图像特征表示;
所述第三损失函数为:
7.根据权利要求2所述的胃镜检查报告生成装置,其特征在于,所述第四损失函数为:
LPT=LGen+αLCont
其中,LGen为第二损失函数,LCont为第三损失函数,α为平衡超参数。
8.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,所述第一损失函数为:
其中,B表示胃镜图像子集的数量,表示胃镜检查报告yi的概率,yi表示第i个胃镜图像子集对应的胃镜检查报告,/>表示第i个胃镜图像子集对应的第一图像特征向量组,/> 表示第i个胃镜图像子集对应的第一图像特征向量组中的第m个第一图像特征向量,/>表示第i个胃镜图像子集对应的文本特征向量,li胃镜检查报告yi的文本长度,/>表示胃镜检查报告yi中的第j个文字,表示胃镜检查报告yi中的第j个文字的概率,θ为文本生成器中的可训练参数。
9.一种胃镜检查报告生成设备,其特征在于,包括:
胃镜图像采集及处理装置,用于采集胃镜图像,并对所述胃镜图像进行处理,得到多个胃镜图像子集;其中,每个胃镜图像子集中包括对应同一病例的多张胃镜图像;
血液检查报告采集装置,用于采集所述胃镜图像子集对应的血液检查报告;
上位机,与所述胃镜图像采集及处理装置和所述血液检查报告采集装置通讯连接,用于获取所述胃镜图像子集和所述血液检查报告,执行如权利要求1-8任一项所述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤,获取胃镜检查报告;
显示装置,与所述上位机通讯连接,用于显示胃镜检查报告结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤。
CN202311193603.3A 2023-09-15 2023-09-15 一种胃镜检查报告生成装置、设备及计算机可读存储介质 Active CN116913455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311193603.3A CN116913455B (zh) 2023-09-15 2023-09-15 一种胃镜检查报告生成装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311193603.3A CN116913455B (zh) 2023-09-15 2023-09-15 一种胃镜检查报告生成装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116913455A CN116913455A (zh) 2023-10-20
CN116913455B true CN116913455B (zh) 2023-12-15

Family

ID=88355150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311193603.3A Active CN116913455B (zh) 2023-09-15 2023-09-15 一种胃镜检查报告生成装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116913455B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275041A (zh) * 2020-01-20 2020-06-12 腾讯科技(深圳)有限公司 内窥镜图像展示方法、装置、计算机设备及存储介质
CN114332500A (zh) * 2021-09-14 2022-04-12 腾讯科技(深圳)有限公司 图像处理模型训练方法、装置、计算机设备和存储介质
CN115082747A (zh) * 2022-08-23 2022-09-20 紫东信息科技(苏州)有限公司 基于组块对抗的零样本胃溃疡分类系统
CN116631567A (zh) * 2023-07-21 2023-08-22 紫东信息科技(苏州)有限公司 一种胃镜检查报告生成装置、设备及计算机可读存储介质
CN116745807A (zh) * 2021-01-08 2023-09-12 爱尔康公司 实时检测眼科图像中的伪影

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026799B (zh) * 2019-12-06 2023-07-18 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告文本结构化方法、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275041A (zh) * 2020-01-20 2020-06-12 腾讯科技(深圳)有限公司 内窥镜图像展示方法、装置、计算机设备及存储介质
CN116745807A (zh) * 2021-01-08 2023-09-12 爱尔康公司 实时检测眼科图像中的伪影
CN114332500A (zh) * 2021-09-14 2022-04-12 腾讯科技(深圳)有限公司 图像处理模型训练方法、装置、计算机设备和存储介质
CN115082747A (zh) * 2022-08-23 2022-09-20 紫东信息科技(苏州)有限公司 基于组块对抗的零样本胃溃疡分类系统
CN116631567A (zh) * 2023-07-21 2023-08-22 紫东信息科技(苏州)有限公司 一种胃镜检查报告生成装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN116913455A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN115082747B (zh) 基于组块对抗的零样本胃溃疡分类系统
CN112101424B (zh) 一种视网膜病变识别模型的生成方法、识别装置及设备
CN114882978A (zh) 引入图片翻译信息的胃部图像处理方法及系统
CN114399465B (zh) 良恶性溃疡识别方法及系统
CN108877923A (zh) 一种基于深度学习的舌苔生成中药处方的方法
CN114782760B (zh) 一种基于多任务学习的胃部疾病图片分类系统
CN116759068A (zh) 针对消化系统的医学视觉问答方法及系统
CN115223193A (zh) 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法
CN116503668A (zh) 一种基于小样本元学习的医学影像分类方法
CN111462082A (zh) 一种病灶图片识别装置、方法、设备及可读存储介质
CN116884561B (zh) 基于自监督联合学习的胃部诊断报告生成系统
CN116631567B (zh) 一种胃镜检查报告生成装置、设备及计算机可读存储介质
CN117524402A (zh) 关于内镜影像分析并自动生成诊断报告的方法
CN116913455B (zh) 一种胃镜检查报告生成装置、设备及计算机可读存储介质
CN115171889B (zh) 一种小样本胃部肿瘤诊断系统
CN116597950A (zh) 一种医学图像分层方法
CN116467675A (zh) 一种融合多模态特征的内脏器官属性编码方法及系统
CN115170942B (zh) 一种声音与视觉多级融合的鱼类行为识别方法
CN116309754A (zh) 一种基于局部-全局信息协作的大脑医学图像配准方法及系统
CN108986889A (zh) 一种病变识别模型训练方法、装置及存储设备
CN115035339A (zh) 一种基于人工智能的膀胱镜图像分类方法
CN114943740A (zh) 一种基于深度学习的舌象实时分割方法
CN115240847B (zh) 一种胃溃疡诊断装置、设备及存储介质
CN114283301A (zh) 一种基于Transformer的自适应医学影像分类方法及系统
Ferber et al. In-context learning enables multimodal large language models to classify cancer pathology images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant