CN114882978A - 引入图片翻译信息的胃部图像处理方法及系统 - Google Patents

引入图片翻译信息的胃部图像处理方法及系统 Download PDF

Info

Publication number
CN114882978A
CN114882978A CN202210815343.8A CN202210815343A CN114882978A CN 114882978 A CN114882978 A CN 114882978A CN 202210815343 A CN202210815343 A CN 202210815343A CN 114882978 A CN114882978 A CN 114882978A
Authority
CN
China
Prior art keywords
stomach
picture
disease
sequence
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210815343.8A
Other languages
English (en)
Inventor
鹿伟民
张希钢
赖春晓
李峰
何顺辉
王镇煜
邱霖
戴捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zidong Information Technology Suzhou Co ltd
Original Assignee
Zidong Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zidong Information Technology Suzhou Co ltd filed Critical Zidong Information Technology Suzhou Co ltd
Priority to CN202210815343.8A priority Critical patent/CN114882978A/zh
Publication of CN114882978A publication Critical patent/CN114882978A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种引入图片翻译信息的胃部图像处理方法及系统,包括以下步骤:获取胃部疾病样本图像集;基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器;基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器;将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。其能够处理多图片输入的情况,引入了自然语言的处理技术,使得模型在不扩充数据集规模的情况下,也能拥有更强的图片分类能力。

Description

引入图片翻译信息的胃部图像处理方法及系统
技术领域
本发明涉及图像处理技术领域,尤其是指一种引入图片翻译信息的胃部图像处理方法及系统。
背景技术
胃部疾病是常见内科疾病,在人类的日常生活中发病率高、病情分类复杂。常见的胃部疾病包括胃炎、胃息肉、胃溃疡、胃癌、胆汁反流和胃出血等。患者发病后的临床反应常有胃部胀痛、反酸嗳气等特征,病发时还伴随恶心呕吐、食欲不振等感觉。一般患者不重视胃部疾病,不仅会影响身体健康,还会影响日常活动。如果胃部疾病不被即时发现和治疗,甚至会危及患者生命。因此,及时发现胃部疾病对人们的健康成长尤为重要。目前,临床上诊断胃部疾病的主要手段为胃镜,其流程复杂,价格昂贵,甚至过程难耐,导致很多患者不敢就医。除此之外,目前胃镜图片的分析和判断都由医生承担,大大消耗了医生的时间和精力。基于人工智能技术的胃部图片分类方法不仅可以缩短医生分析胃镜图片的时间,减低医生漏掉可疑的早期胃癌的概率,还可以从提高胃镜诊断效率的角度降低胃镜检查的医疗成本。
现有技术存在以下缺陷:首先,现有模型常常处理模型输入为一张图片的情况,而忽略了多张图片作为输入的情况;其次,同一病例中的多张图片存在大量冗余信息,这给现有模型对图片特征的理解能力带来了强烈的干扰,导致模型学习多图片输入困难;此外,现有模型对样本规模的依赖性高,模型的性能随着样本规模的扩大而提升。然而标注样本所耗费的人力资源和时间巨大,阻碍了胃部图片多标签分类技术的发展。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中胃部图片处理不适用多图片输入、特征提取干扰多和样本依赖性高的技术缺陷。
为解决上述技术问题,本发明提供了一种引入图片翻译信息的胃部图像处理方法,包括以下步骤:
S1、获取胃部疾病样本图像集,所述胃部疾病样本图像集包括多种胃部疾病病例,每种胃部疾病病例对应多张胃部图片;
S2、基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器,其中,所述疾病报告生成器包括依次设置的图像特征表示单元和报告生成单元,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书;
S3、基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器,其中,所述胃部疾病分类器包括依次设置的双模态特征表示单元和胃部疾病分类单元,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果;
S4、将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。
作为优选的,S2中,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,包括:
对同一病例中的多张胃部图片进行特征提取,获得图片特征;
将同一病例中的多个图片特征拼接成统一的图片序列,并对统一的图片序列进行降维处理,获得预设维度的图片特征序列编码。
作为优选的,S2中,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书,包括:
构建报告生成单元,所述报告生成单元由L个Encoder层和L个Decoder层构成的Transformer模型构成;
将图片特征序列编码与位置编码相加,获得带有位置编码信息的图片特征序列编码;
将带有位置编码信息的图片特征序列编码依次传入L个Encoder层和L个Decoder层,获得胃部图片对应的文本诊断报告,其中,每个所述Encoder层由多头注意力层和前馈网络层构成,每个所述Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成。
作为优选的,S2中,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书,具体包括:
将图片特征表示单元的输出
Figure 175702DEST_PATH_IMAGE001
与位置编码
Figure 573186DEST_PATH_IMAGE002
相加,作为报告生成单元的输入特征:
Figure 895582DEST_PATH_IMAGE003
Figure 36714DEST_PATH_IMAGE004
其中,
Figure 331429DEST_PATH_IMAGE005
为报告生成单元的输入特征,位置编码
Figure 837497DEST_PATH_IMAGE006
标记了每块图片区域在整个序列中的位置,
Figure 584873DEST_PATH_IMAGE007
将位置序号生成与图片特征相同维度的位置编码;
将输入特征
Figure 529695DEST_PATH_IMAGE008
传入L个Encoder层,每个Encoder层由多头注意力层和前馈网络层构成,获得图片序列的中间表示
Figure 475654DEST_PATH_IMAGE009
:
Figure 152623DEST_PATH_IMAGE010
其中,
Figure 655804DEST_PATH_IMAGE011
Figure 404318DEST_PATH_IMAGE012
为L个Encoder层;
将图片序列的中间表示
Figure 408046DEST_PATH_IMAGE013
传入L个Decoder层,解码获得文本序列
Figure 380550DEST_PATH_IMAGE014
,其中,每个Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成;
任意位置的词
Figure 102518DEST_PATH_IMAGE015
由Encoder层输出的中间表示
Figure 61247DEST_PATH_IMAGE016
和Decoder层预测的前
Figure 185061DEST_PATH_IMAGE017
个单词共同决定:
Figure 62887DEST_PATH_IMAGE018
作为优选的,所述报告生成单元在训练阶段的优化目标为:
Figure 272151DEST_PATH_IMAGE019
其中,L1表示真实文本序列和预测文本序列之间的交叉熵损失,yj表示真实文本序列中第j个元素,pj表示预测文本序列中第j个元素,
Figure 377115DEST_PATH_IMAGE020
表示序列长度。
作为优选的,S3中,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,包括:
获取同一病例的多张胃部图片的图片特征序列编码;
将胃部诊断报告书的报告文本经过Embedding层生成文本序列编码,其中,Embedding层采用预训练的BERT模型;
将图片特征序列编码与文本序列编码拼接,获得图文特征序列编码。
作为优选的,S3中,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,具体包括:
获取同一病例的多张胃部图片的图片特征序列编码
Figure 293119DEST_PATH_IMAGE021
;
胃部诊断报告书的报告文本T经过Embedding层生成文本编码
Figure 545109DEST_PATH_IMAGE022
,Embedding层采用预训练的BERT模型:
Figure 241669DEST_PATH_IMAGE023
将图片序列编码
Figure 666834DEST_PATH_IMAGE024
和文本序列编码
Figure 765240DEST_PATH_IMAGE025
拼接,得到图文特征编码A:
Figure 125815DEST_PATH_IMAGE026
其中,
Figure 309671DEST_PATH_IMAGE027
为拼接函数,
Figure 476210DEST_PATH_IMAGE028
Figure 694702DEST_PATH_IMAGE029
Figure 353741DEST_PATH_IMAGE030
将图文特征编码A与位置编码P、模态编码M相加,其中,位置编码P分别标记了每块图片区域在图片序列中的位置和每个子词在文本序列中的位置,模态编码M区分了图片和文本的序列区域:
Figure 759315DEST_PATH_IMAGE031
其中,
Figure 401649DEST_PATH_IMAGE032
为图文双模态的最终表示,
Figure 209068DEST_PATH_IMAGE033
将位置序号和模态序号分别生成与图片特征相同维度的位置编码和模态编码,用序号0表示图片区域,用序号1表示文本区域。
作为优选的,S3中,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果,包括:
使用BERT模型对图文特征编码序列
Figure 36078DEST_PATH_IMAGE034
进行编码,获得最终特征表示
Figure 928948DEST_PATH_IMAGE035
Figure 702869DEST_PATH_IMAGE036
,其中,
Figure 630373DEST_PATH_IMAGE037
Figure 300389DEST_PATH_IMAGE038
为BERT编码器;
取特征的最终表示
Figure 949064DEST_PATH_IMAGE039
Figure 526676DEST_PATH_IMAGE040
对应的特征编码
Figure 308687DEST_PATH_IMAGE041
传入由全连接层和激活函数构成的分类器:
Figure 477500DEST_PATH_IMAGE042
其中,
Figure 610541DEST_PATH_IMAGE043
表示每个标签分类概率的结合,c为胃部疾病标签的类别数,
Figure 460685DEST_PATH_IMAGE044
为Sigmoid激活函数,将每个标签的概率映射到0~1之间,FC()为全连接层。
作为优选的,所述胃部疾病分类单元在训练阶段的优化目标为:
Figure 628362DEST_PATH_IMAGE045
其中,L2表示真实标签和预测标签之间的二分类交叉熵损失,
Figure 905759DEST_PATH_IMAGE046
表示真实标签中第j个元素,
Figure 529026DEST_PATH_IMAGE047
表示预测概率中第j个元素,c表示类别数量,
Figure 854965DEST_PATH_IMAGE048
表示预测标签中第j个元素的预测概率。
本发明公开了一种引入图片翻译信息的胃部图像处理系统,包括:
样本获取模块,所述样本获取模块获取胃部疾病样本图像集,其中,所述胃部疾病样本图像集包括多种疾病样例,每种胃部疾病病例对应多张胃部图片;
疾病报告生成模块,所述疾病报告生成模块基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器,其中,所述疾病报告生成器包括依次设置的图像特征表示单元和报告生成单元,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书;
分类模块,所述分类模块基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器,其中,所述胃部疾病分类器包括依次设置的双模态特征表示单元和胃部疾病分类单元,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果;
测试模块,所述测试模块将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明能够处理多图片输入的情况,解决了现有技术只处理单图片输入的问题。
2、本发明采用卷积神经网络与Transformer架构相结合的模型框架,有效提升了模型对图片特征的理解能力。
3、本发明引入了图片生成文本的技术,在模型的输入端增加了由胃部图片生成的诊断报告,有效地引入了自然语言的处理技术,使得模型在不扩充数据集规模的情况下,也能拥有更强的图片分类能力。
附图说明
图1为本发明中胃部图像处理方法的流程图;
图2为本发明中胃部图像处理系统的结构示意图;
图3为疾病报告生成器的结构示意图;
图4为胃部疾病分类器的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明中,Transformer指变换网络,Decoder指解码器,Encoder指编码器,ResNet指残差网络。
参照图1-图4所示,本发明公开了一种引入图片翻译信息的胃部图像处理方法,包括以下步骤:
步骤一、获取胃部疾病样本图像集,所述胃部疾病样本图像集包括多种胃部疾病病例,每种胃部疾病病例对应多张胃部图片。
步骤二、基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器,其中,所述疾病报告生成器包括依次设置的图像特征表示单元和报告生成单元,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书。
其中,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,包括:对同一病例中的多张胃部图片进行特征提取,获得图片特征;将同一病例中的多个图片特征拼接成统一的图片序列,并对统一的图片序列进行降维处理,获得预设维度的图片特征序列编码。
其中,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书,包括:
构建报告生成单元,所述报告生成单元由L个Encoder层和L个Decoder层构成的Transformer模型构成;
将图片特征序列编码与位置编码相加,获得带有位置编码信息的图片特征序列编码;
将带有位置编码信息的图片特征序列编码依次传入L个Encoder层和L个Decoder层,获得胃部图片对应的文本诊断报告,其中,每个所述Encoder层由多头注意力层和前馈网络层构成,每个所述Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成。
所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书,具体包括:
将图片特征表示单元的输出
Figure 611569DEST_PATH_IMAGE001
与位置编码
Figure 325447DEST_PATH_IMAGE002
相加,作为报告生成单元的输入特征:
Figure 964238DEST_PATH_IMAGE049
Figure 156185DEST_PATH_IMAGE050
其中,
Figure 501716DEST_PATH_IMAGE051
为报告生成单元的输入特征,位置编码
Figure 183233DEST_PATH_IMAGE006
标记了每块图片区域在整个序列中的位置,
Figure 247004DEST_PATH_IMAGE052
将位置序号生成与图片特征相同维度的位置编码;
将输入特征
Figure 499432DEST_PATH_IMAGE053
传入L个Encoder层,每个Encoder层由多头注意力层和前馈网络层构成,获得图片序列的中间表示
Figure 230628DEST_PATH_IMAGE054
:
Figure 958412DEST_PATH_IMAGE055
其中,
Figure 775059DEST_PATH_IMAGE056
Figure 167863DEST_PATH_IMAGE057
为L个Encoder层;
将图片序列的中间表示
Figure 956827DEST_PATH_IMAGE058
传入L个Decoder层,解码获得文本序列
Figure 448988DEST_PATH_IMAGE059
,其中,每个Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成;
任意位置的词
Figure 752931DEST_PATH_IMAGE060
由Encoder层输出的中间表示
Figure 93301DEST_PATH_IMAGE061
和Decoder层预测的前
Figure 799089DEST_PATH_IMAGE062
个单词共同决定:
Figure 993310DEST_PATH_IMAGE063
所述报告生成单元在训练阶段的优化目标为:
Figure 581286DEST_PATH_IMAGE064
其中,L1表示真实文本序列和预测文本序列之间的交叉熵损失,yj表示真实文本序列中第j个元素,pj表示预测文本序列中第j个元素,
Figure 394521DEST_PATH_IMAGE065
表示序列长度。
步骤三、基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器,其中,所述胃部疾病分类器包括依次设置的双模态特征表示单元和胃部疾病分类单元,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果。
其中,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,包括:
获取同一病例的多张胃部图片的图片特征序列编码;
将胃部诊断报告书的报告文本经过Embedding层生成文本序列编码,其中,Embedding层采用预训练的BERT模型;
将图片特征序列编码与文本序列编码拼接,获得图文特征序列编码。
所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,具体包括:
获取同一病例的多张胃部图片的图片特征序列编码
Figure 954815DEST_PATH_IMAGE066
;
胃部诊断报告书的报告文本T经过Embedding层生成文本编码
Figure 788779DEST_PATH_IMAGE067
,Embedding层采用预训练的BERT模型:
Figure 801735DEST_PATH_IMAGE068
将图片序列编码
Figure 811803DEST_PATH_IMAGE024
和文本序列编码
Figure 820080DEST_PATH_IMAGE069
拼接,得到图文特征编码A:
Figure 824945DEST_PATH_IMAGE070
其中,
Figure 59617DEST_PATH_IMAGE071
为拼接函数,
Figure 542551DEST_PATH_IMAGE072
Figure 77437DEST_PATH_IMAGE073
Figure 925308DEST_PATH_IMAGE074
将图文特征编码A与位置编码P、模态编码M相加,其中,位置编码P分别标记了每块图片区域在图片序列中的位置和每个子词在文本序列中的位置,模态编码M区分了图片和文本的序列区域:
Figure 509260DEST_PATH_IMAGE075
其中,
Figure 795885DEST_PATH_IMAGE076
为图文双模态的最终表示,
Figure 654120DEST_PATH_IMAGE077
将位置序号和模态序号分别生成与图片特征相同维度的位置编码和模态编码,用序号0表示图片区域,用序号1表示文本区域。
所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果,包括:
使用BERT模型对图文特征编码序列
Figure 787DEST_PATH_IMAGE034
进行编码,获得最终特征表示
Figure 147735DEST_PATH_IMAGE035
Figure 238051DEST_PATH_IMAGE078
,其中,
Figure 481950DEST_PATH_IMAGE079
Figure 342064DEST_PATH_IMAGE080
为BERT编码器;
取特征的最终表示
Figure 38624DEST_PATH_IMAGE081
Figure 667052DEST_PATH_IMAGE040
对应的特征编码
Figure 31037DEST_PATH_IMAGE041
传入由全连接层和激活函数构成的分类器:
Figure 126032DEST_PATH_IMAGE082
其中,
Figure 575468DEST_PATH_IMAGE083
表示每个标签分类概率的结合,c为胃部疾病标签的类别数,
Figure 7586DEST_PATH_IMAGE044
为Sigmoid激活函数,将每个标签的概率映射到0~1之间,FC()为全连接层。
所述胃部疾病分类单元在训练阶段的优化目标为:
Figure 553974DEST_PATH_IMAGE084
其中,L2表示真实标签和预测标签之间的二分类交叉熵损失,
Figure 416275DEST_PATH_IMAGE085
表示真实标签中第j个元素,
Figure 87428DEST_PATH_IMAGE047
表示预测概率中第j个元素,c表示类别数量,
Figure 57658DEST_PATH_IMAGE048
表示预测标签中第j个元素的预测概率。
步骤四、将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。
本发明公开了一种引入图片翻译信息的胃部图像处理系统,包括样本获取模块、疾病报告生成模块、分类模块和测试模块。
所述样本获取模块获取胃部疾病样本图像集,其中,所述胃部疾病样本图像集包括多种疾病样例,每种胃部疾病病例对应多张胃部图片。
所述疾病报告生成模块基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器,其中,所述疾病报告生成器包括依次设置的图像特征表示单元和报告生成单元,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书。
所述分类模块基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器,其中,所述胃部疾病分类器包括依次设置的双模态特征表示单元和胃部疾病分类单元,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果;
所述测试模块将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。
下面,结合具体实施例,对本发明的技术方案做进一步的说明与解释。
本发明提出的基于多任务学习的深度学习模型如图2所示,先使用胃部疾病样本图像集中的全部样例经过预训练的Encoder和Decoder组成的疾病报告生成器。然后将胃部疾病分类数据集中同一病例的多张胃部图片经过疾病报告生成器,获得胃部诊断报告书。最后将胃部图片和诊断报告拼接,经过由Encoder和分类器构成的胃部疾病分类器,得到胃部疾病的类别预测。本发明中共包含两个主要模型:疾病报告生成器和胃部疾病分类器。
疾病报告生成器是基于Transformer的生成模型,结构如图3所示,包含图像特征表示单元和报告生成单元两个主要单元,下面将详细介绍这两个单元的功能和实现:
1、图片特征表示单元
该单元将同一病例中的多张图片表示为可输入文本生成模型的图片特征序列,具体而言:
(1)特征提取:给定胃部疾病样本图像集中一个样例里的n张图片X={x1,x2
Figure 130656DEST_PATH_IMAGE086
...
Figure 160929DEST_PATH_IMAGE086
xn},将它们依次传入图片的特征提取器,获取图片特征
Figure 991482DEST_PATH_IMAGE087
。特征提取器采用预训练的ResNet:
Figure 358878DEST_PATH_IMAGE088
其中,xi表示第i张图片,具体实施中一般
Figure 20804DEST_PATH_IMAGE089
且dimg=2048。
(2)特征下采样:为了模型更好地处理多张胃部图片,图片特征表示模块通过下采样将每张图片特征映射到更小的特征空间。具体而言,使用平均池化的方式将每个图片特征
Figure 224908DEST_PATH_IMAGE090
映射到
Figure 870653DEST_PATH_IMAGE091
个小区域,n张图片共被划分为
Figure 182685DEST_PATH_IMAGE092
个小区域:
Figure 230276DEST_PATH_IMAGE093
其中,
Figure 274455DEST_PATH_IMAGE094
为特征分割后的图片区域集合,任意一张图片
Figure 469813DEST_PATH_IMAGE095
,具体实施中一般取k=3,h=1,即每张图片被划分为3个小区域。
Figure 585537DEST_PATH_IMAGE096
为平均池化函数。
(3)特征有序化:为了将图片特征输入文本生成模型,特征有序化将一个样本中的多张图片展开并拼接成统一的图片序列。具体而言,将
Figure 222054DEST_PATH_IMAGE097
中的所有小区域依次进行拼接,成为一个图片序列
Figure 767961DEST_PATH_IMAGE098
,其中任意一个图片块
Figure 122719DEST_PATH_IMAGE099
(4)特征降维:为了将图片特征输入文本生成模型,还需将图片特征统一为指定维度,满足文本生成模型的输入要求:
Figure 42133DEST_PATH_IMAGE100
其中
Figure 595474DEST_PATH_IMAGE101
为图片特征表示模块的最终输出,
Figure 371669DEST_PATH_IMAGE102
且dmodel=768。Dense()为全连接层。
1、诊断报告生成
该模块的主要功能为由同一病例中的多张胃部图片生成对应的胃部诊断报告,疾病报告生成器由L个Encoder层和L个Decoder层构成的Transformer模型实现,具体而言:
(1)特征处理:将图片特征表示模块的输出
Figure 213723DEST_PATH_IMAGE021
与位置编码(Position Embedding)P相加,作为疾病报告生成器的输入:
Figure 671250DEST_PATH_IMAGE103
Figure 273570DEST_PATH_IMAGE104
其中,
Figure 423929DEST_PATH_IMAGE105
为疾病报告生成器的输入特征,位置编码
Figure 425383DEST_PATH_IMAGE106
标记了每块图片小区域在整个序列中的位置,Embedding()将位置序号生成与图片特征相同维度的位置编码。
(2)文本生成: 图片序列依次传入L个Encoder层和L个Decoder层,最终生成胃部图片对应的文本诊断报告,其中L=6。首先,将图片序列
Figure 811234DEST_PATH_IMAGE107
传入L个Encoder层,每个Encoder层由多头注意力层和前馈网络层构成,最终获得图片序列的中间表示
Figure 604747DEST_PATH_IMAGE054
:
Figure 598110DEST_PATH_IMAGE108
其中
Figure 745582DEST_PATH_IMAGE109
Figure 13753DEST_PATH_IMAGE110
为L个Encoder层。接着,将图片序列的中间表示
Figure 599455DEST_PATH_IMAGE111
传入L个Decoder层,每个Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成,最终将中间表示
Figure 91616DEST_PATH_IMAGE112
解码为文本序列
Figure 129979DEST_PATH_IMAGE113
,其中,任意位置的词
Figure 529737DEST_PATH_IMAGE114
由Encoder层输出的中间表示
Figure 235524DEST_PATH_IMAGE115
和Decoder层预测的前
Figure 367428DEST_PATH_IMAGE116
个单词共同决定:
Figure 161597DEST_PATH_IMAGE117
(3)模型优化:训练阶段,模型根据以下优化目标调整模型参数:
Figure 365045DEST_PATH_IMAGE118
其中,L1表示真实文本序列和预测文本序列之间的交叉熵损失。yj表示真实文本序列中第j个元素,pj表示预测文本序列中第j个元素。
Figure 925339DEST_PATH_IMAGE119
表示序列长度。测试阶段,该步骤省略。
胃部疾病分类器是基于BERT的双模态分类模型,结构如图4所示,包含双模态特征表示和胃部疾病分类两个主要模块,下面将详细介绍这两个模块功能和实现:
1、双模态特征表示
该模块将同一病例中的多张图片和由该病例生成的病例文本分别表示为可输入胃部疾病分类模型的特征序列,其中,图片特征表示的流程与疾病报告生成器的图片特征表示模块一致,故在此省略,下面展开说明文本特征表示的实现过程以及模态融合的实现过程:
(1)文本编码:报告文本T经过Embedding层生成文本编码
Figure 493724DEST_PATH_IMAGE120
。Embedding层采用预训练的BERT模型:
Figure 444362DEST_PATH_IMAGE121
(2)模态融合:首先,将图片序列编码
Figure 389184DEST_PATH_IMAGE122
和文本序列编码
Figure 803985DEST_PATH_IMAGE022
拼接,得到图文特征编码A:
Figure 608518DEST_PATH_IMAGE123
其中,
Figure 905507DEST_PATH_IMAGE124
为拼接函数,
Figure 388441DEST_PATH_IMAGE072
Figure 923327DEST_PATH_IMAGE073
Figure 567935DEST_PATH_IMAGE074
。接着,将图文特征编码A与位置编码(Position Embedding)P、模态编码(Modality Embedding)M相加,其中,位置编码P分别标记了每块图片小区域在图片序列中的位置和每个子词在文本序列中的位置,模态编码M区分了图片和文本的序列区域(用序号0表示图片区域,用序号1表示文本区域):
Figure 821062DEST_PATH_IMAGE125
其中
Figure 842108DEST_PATH_IMAGE126
为图文双模态的最终表示,
Figure 386545DEST_PATH_IMAGE127
将位置序号和模态序号分别生成与图片特征相同维度的位置编码和模态编码。
2、胃部疾病分类
该模块将图文特征编码输入胃部疾病分类器,得到胃部疾病的预测结果,其中胃部疾病分类器是由多层Transformer构成的BERT架构。具体而言:
(1)双模态编码:将特征编码
Figure 467634DEST_PATH_IMAGE128
输入BERT模型,得到特征的最终表示
Figure 942478DEST_PATH_IMAGE129
Figure 767214DEST_PATH_IMAGE130
其中
Figure 683217DEST_PATH_IMAGE131
Figure 200786DEST_PATH_IMAGE132
为BERT编码器。
(2)分类:取特征的最终表示
Figure 225243DEST_PATH_IMAGE133
中[CLS]对应的特征编码
Figure 588091DEST_PATH_IMAGE134
传入由全连接层和激活函数构成的分类器:
Figure 955006DEST_PATH_IMAGE135
其中
Figure 643477DEST_PATH_IMAGE136
表示每个标签分类概率的结合,c为胃部疾病标签的类别数。
Figure 827333DEST_PATH_IMAGE137
为Sigmoid激活函数,将每个标签的概率映射到0~1之间。FC()为全连接层。
(3)模型优化:训练阶段,模型根据以下优化目标调整模型参数:
Figure 993872DEST_PATH_IMAGE138
其中,L2表示真实标签和预测标签之间的二分类交叉熵损失。
Figure 133736DEST_PATH_IMAGE139
表示真实标签中第j个元素,
Figure 196370DEST_PATH_IMAGE140
表示预测概率中第
Figure 667190DEST_PATH_IMAGE141
个元素。c表示类别数量。
Figure 902999DEST_PATH_IMAGE048
表示预测标签中第j个元素的预测概率。测试阶段,该步骤省略。
将测试集中的样例先输入已训练好的疾病报告生成器中生成诊断报告,再将诊断报告和图片样例输入已训练好的胃部疾病分类器中获得胃部疾病的分类结果。同时,邀请2名经验丰富的内镜医师对测试集的胃部图片进行判读和诊断。得出模型和2名医师对疾病诊断的整体准确率、灵敏度和阳性预测值。
本发明中,诊断效果评价指标的计算方法为:
整体准确率=识别正确的病例数/测试集病的实际病例数×100%;
灵敏度=识别正确某一类别病例数/该类别的实际病例数×100%;
阳性预测值=识别正确某一类别的病例数/被模型或内镜医师识别成该类别的病例数×100%。
本发明收集了内镜中心胃镜检查(包括无痛胃镜、清醒镇静胃镜及普通胃镜检查)患者的胃镜图片。图片拍摄设备主要为 Olympus 公司 240、260、290系列以及日本Fujinon公司560、580系列内镜。所有图片在白光非放大模式下拍摄,BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。纳入标准:诊断为:胃炎、胃息肉、胃溃疡、胃癌、胆汁反流、胃出血和正常胃镜粘膜图片。排除标准:①患者小于16岁或者大于95岁;②图片异常模糊、伪影、异常失真等影响观察的图片;③有大量泡沫、粘液湖或者食物等干扰严重的图片。
按照应用模型的不同,将数据集分为胃部疾病样本图像集和胃部疾病分类数据集。胃部疾病样本图像集共包含样本50,000 例,胃部疾病分类数据集共包含样本3460例。胃部疾病分类数据集中,胃炎、胃息肉、胃溃疡、胃癌、胆汁反流、胃出血和正常胃的病例数分别为:650例、610例、400例、500例、200例、450例及650例。通过图像格式转换、图像尺寸缩放、图像增强、图像归一化等一系列的图像操作对所获得的病例图像数据进行处理,以确保人工智能模型对图像的识别。为了保证训练集、验证集及测试集的病例无重复部分,运用随机原则将原始病例按照大致8:1:1的比例分为训练集(胃炎520例、胃息肉488例、胃溃疡320例、胃癌400例、胆汁反流160例、胃出血360例和正常胃520例)、验证集(胃炎65例、胃息肉61例、胃溃疡40例、胃癌50例、胆汁反流200例、胃出血450例和正常胃650例)和测试集(胃炎65例、胃息肉61例、胃溃疡40例、胃癌50例、胆汁反流200例、胃出血450例和正常胃650例)。通过训练集对人工智能的模型参数进行训练,然后用验证集验证模型的有效性,提高模型的泛化能力,对并行的超参数进行调优后形成最终的人工智能算法模型,最后通过测试集对人工智能算法模型的性能进行评价和考量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种引入图片翻译信息的胃部图像处理方法,其特征在于,包括以下步骤:
S1、获取胃部疾病样本图像集,所述胃部疾病样本图像集包括多种胃部疾病病例,每种胃部疾病病例对应多张胃部图片;
S2、基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器,其中,所述疾病报告生成器包括依次设置的图像特征表示单元和报告生成单元,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书;
S3、基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器,其中,所述胃部疾病分类器包括依次设置的双模态特征表示单元和胃部疾病分类单元,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果;
S4、将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。
2.根据权利要求1所述的引入图片翻译信息的胃部图像处理方法,其特征在于,S2中,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,包括:
对同一病例中的多张胃部图片进行特征提取,获得图片特征;
将同一病例中的多个图片特征拼接成统一的图片序列,并对统一的图片序列进行降维处理,获得预设维度的图片特征序列编码。
3.根据权利要求1所述的引入图片翻译信息的胃部图像处理方法,其特征在于,S2中,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书,包括:
构建报告生成单元,所述报告生成单元由L个Encoder层和L个Decoder层构成的Transformer模型构成;
将图片特征序列编码与位置编码相加,获得带有位置编码信息的图片特征序列编码;
将带有位置编码信息的图片特征序列编码依次传入L个Encoder层和L个Decoder层,获得胃部图片对应的文本诊断报告,其中,每个所述Encoder层由多头注意力层和前馈网络层构成,每个所述Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成。
4.根据权利要求1所述的引入图片翻译信息的胃部图像处理方法,其特征在于,S2中,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书,具体包括:
将图片特征表示单元的输出
Figure 570083DEST_PATH_IMAGE001
与位置编码
Figure 196761DEST_PATH_IMAGE002
相加,作为报告生成单元的输入特征:
Figure 824051DEST_PATH_IMAGE003
Figure 581661DEST_PATH_IMAGE004
其中,
Figure 167887DEST_PATH_IMAGE005
为报告生成单元的输入特征,位置编码
Figure 87170DEST_PATH_IMAGE006
标记了每块图片区域在整个序列中的位置,
Figure 516271DEST_PATH_IMAGE007
将位置序号生成与图片特征相同维度的位置编码;
将输入特征
Figure 562725DEST_PATH_IMAGE008
传入L个Encoder层,每个Encoder层由多头注意力层和前馈网络层构成,获得图片序列的中间表示
Figure 469370DEST_PATH_IMAGE009
:
Figure 675399DEST_PATH_IMAGE010
其中,
Figure 670424DEST_PATH_IMAGE011
Figure 504257DEST_PATH_IMAGE012
为L个Encoder层;
将图片序列的中间表示
Figure 65076DEST_PATH_IMAGE013
传入L个Decoder层,解码获得文本序列
Figure 654058DEST_PATH_IMAGE014
,其中,每个Decoder层由掩码多头注意力层、多头注意力层和前馈网络层构成;
任意位置的词
Figure 401959DEST_PATH_IMAGE015
由Encoder层输出的中间表示
Figure 568977DEST_PATH_IMAGE009
和Decoder层预测的前
Figure 436833DEST_PATH_IMAGE016
个单词共同决定:
Figure 196716DEST_PATH_IMAGE017
5.根据权利要求4所述的引入图片翻译信息的胃部图像处理方法,其特征在于,所述报告生成单元在训练阶段的优化目标为:
Figure 290967DEST_PATH_IMAGE018
其中,L1表示真实文本序列和预测文本序列之间的交叉熵损失,yj表示真实文本序列中第j个元素,pj表示预测文本序列中第j个元素,
Figure 201023DEST_PATH_IMAGE019
表示序列长度。
6.根据权利要求1所述的引入图片翻译信息的胃部图像处理方法,其特征在于,S3中,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,包括:
获取同一病例的多张胃部图片的图片特征序列编码;
将胃部诊断报告书的报告文本经过Embedding层生成文本序列编码,其中,Embedding层采用预训练的BERT模型;
将图片特征序列编码与文本序列编码拼接,获得图文特征序列编码。
7.根据权利要求1所述的引入图片翻译信息的胃部图像处理方法,其特征在于,S3中,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,具体包括:
获取同一病例的多张胃部图片的图片特征序列编码
Figure 329910DEST_PATH_IMAGE020
胃部诊断报告书的报告文本T经过Embedding层生成文本编码
Figure 48643DEST_PATH_IMAGE021
,Embedding层采用预训练的BERT模型:
Figure 82720DEST_PATH_IMAGE022
将图片序列编码
Figure 376561DEST_PATH_IMAGE020
和文本序列编码
Figure 766478DEST_PATH_IMAGE021
拼接,得到图文特征编码A:
Figure 868164DEST_PATH_IMAGE023
其中,
Figure 948726DEST_PATH_IMAGE024
为拼接函数,
Figure 810372DEST_PATH_IMAGE025
Figure 989550DEST_PATH_IMAGE026
Figure 546957DEST_PATH_IMAGE027
将图文特征编码A与位置编码P、模态编码M相加,其中,位置编码P分别标记了每块图片区域在图片序列中的位置和每个子词在文本序列中的位置,模态编码M区分了图片和文本的序列区域:
Figure 850900DEST_PATH_IMAGE028
其中,
Figure 453919DEST_PATH_IMAGE029
为图文双模态的最终表示,
Figure 894128DEST_PATH_IMAGE030
将位置序号和模态序号分别生成与图片特征相同维度的位置编码和模态编码,用序号0表示图片区域,用序号1表示文本区域。
8.根据权利要求1所述的引入图片翻译信息的胃部图像处理方法,其特征在于,S3中,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果,包括:
使用BERT模型对图文特征编码序列
Figure 557191DEST_PATH_IMAGE031
进行编码,获得最终特征表示
Figure 82850DEST_PATH_IMAGE032
Figure 489560DEST_PATH_IMAGE033
,其中,
Figure 52784DEST_PATH_IMAGE034
Figure 355590DEST_PATH_IMAGE035
为BERT编码器;
取特征的最终表示
Figure 634124DEST_PATH_IMAGE036
Figure 578947DEST_PATH_IMAGE037
对应的特征编码
Figure 993747DEST_PATH_IMAGE038
传入由全连接层和激活函数构成的分类器:
Figure 405137DEST_PATH_IMAGE039
其中,
Figure 905389DEST_PATH_IMAGE040
表示每个标签分类概率的结合,c为胃部疾病标签的类别数,
Figure 653902DEST_PATH_IMAGE041
为Sigmoid激活函数,将每个标签的概率映射到0~1之间,FC()为全连接层。
9.根据权利要求8所述的引入图片翻译信息的胃部图像处理方法,其特征在于,所述胃部疾病分类单元在训练阶段的优化目标为:
Figure 657630DEST_PATH_IMAGE042
其中,L2表示真实标签和预测标签之间的二分类交叉熵损失,
Figure 836326DEST_PATH_IMAGE043
表示真实标签中第j个元素,
Figure 823874DEST_PATH_IMAGE044
表示预测概率中第j个元素,c表示类别数量,
Figure 110498DEST_PATH_IMAGE045
表示预测标签中第j个元素的预测概率。
10.一种引入图片翻译信息的胃部图像处理系统,其特征在于,包括:
样本获取模块,所述样本获取模块获取胃部疾病样本图像集,其中,所述胃部疾病样本图像集包括多种疾病样例,每种胃部疾病病例对应多张胃部图片;
疾病报告生成模块,所述疾病报告生成模块基于Transformer构建疾病报告生成器,使用胃部疾病样本图像集对疾病报告生成器进行训练,获得优化的疾病报告生成器,其中,所述疾病报告生成器包括依次设置的图像特征表示单元和报告生成单元,所述图像特征表示单元将同一病例中的多张胃部图片表示为图片特征序列编码,所述报告生成单元对图片特征序列编码进行处理,获得对应的胃部诊断报告书;
分类模块,所述分类模块基于BERT的双模态分类模型构建胃部疾病分类器,使用胃部疾病样本图像集对胃部疾病分类器进行训练,获得优化的胃部疾病分类器,其中,所述胃部疾病分类器包括依次设置的双模态特征表示单元和胃部疾病分类单元,所述双模态特征表示单元将同一病例中的多张图片和该病例的胃部诊断报告书的报告文本表示为图文特征序列编码,所述胃部疾病分类单元将图文特征序列编码进行分类,获得胃部疾病的预测结果;
测试模块,所述测试模块将待测的胃部图片输入至优化的疾病报告生成器和胃部疾病分类器,获得胃部图像的分类结果。
CN202210815343.8A 2022-07-12 2022-07-12 引入图片翻译信息的胃部图像处理方法及系统 Pending CN114882978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210815343.8A CN114882978A (zh) 2022-07-12 2022-07-12 引入图片翻译信息的胃部图像处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210815343.8A CN114882978A (zh) 2022-07-12 2022-07-12 引入图片翻译信息的胃部图像处理方法及系统

Publications (1)

Publication Number Publication Date
CN114882978A true CN114882978A (zh) 2022-08-09

Family

ID=82682838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210815343.8A Pending CN114882978A (zh) 2022-07-12 2022-07-12 引入图片翻译信息的胃部图像处理方法及系统

Country Status (1)

Country Link
CN (1) CN114882978A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082747A (zh) * 2022-08-23 2022-09-20 紫东信息科技(苏州)有限公司 基于组块对抗的零样本胃溃疡分类系统
CN115115897A (zh) * 2022-08-26 2022-09-27 紫东信息科技(苏州)有限公司 多模态预训练的胃部肿瘤分类系统
CN116246774A (zh) * 2023-03-15 2023-06-09 北京医准智能科技有限公司 一种基于信息融合的分类方法、装置及设备
CN116523914A (zh) * 2023-07-03 2023-08-01 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN117153343A (zh) * 2023-08-16 2023-12-01 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN112786160A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN113707257A (zh) * 2021-07-22 2021-11-26 中南大学 一种3d颅脑mri医学影像报告自动生成方法及系统
CN114399465A (zh) * 2021-12-08 2022-04-26 紫东信息科技(苏州)有限公司 良恶性溃疡识别方法及系统
CN114496151A (zh) * 2022-01-05 2022-05-13 南京航空航天大学 一种基于深度学习的医疗影像报告自动生成方法
CN114529758A (zh) * 2022-01-25 2022-05-24 哈尔滨工业大学 基于对比学习和多头自注意力机制的多模态情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN112786160A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN113707257A (zh) * 2021-07-22 2021-11-26 中南大学 一种3d颅脑mri医学影像报告自动生成方法及系统
CN114399465A (zh) * 2021-12-08 2022-04-26 紫东信息科技(苏州)有限公司 良恶性溃疡识别方法及系统
CN114496151A (zh) * 2022-01-05 2022-05-13 南京航空航天大学 一种基于深度学习的医疗影像报告自动生成方法
CN114529758A (zh) * 2022-01-25 2022-05-24 哈尔滨工业大学 基于对比学习和多头自注意力机制的多模态情感分析方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082747A (zh) * 2022-08-23 2022-09-20 紫东信息科技(苏州)有限公司 基于组块对抗的零样本胃溃疡分类系统
CN115115897A (zh) * 2022-08-26 2022-09-27 紫东信息科技(苏州)有限公司 多模态预训练的胃部肿瘤分类系统
CN115115897B (zh) * 2022-08-26 2022-12-09 紫东信息科技(苏州)有限公司 多模态预训练的胃部肿瘤分类系统
CN116246774A (zh) * 2023-03-15 2023-06-09 北京医准智能科技有限公司 一种基于信息融合的分类方法、装置及设备
CN116246774B (zh) * 2023-03-15 2023-11-24 浙江医准智能科技有限公司 一种基于信息融合的分类方法、装置及设备
CN116523914A (zh) * 2023-07-03 2023-08-01 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN116523914B (zh) * 2023-07-03 2023-09-19 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN117153343A (zh) * 2023-08-16 2023-12-01 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统
CN117153343B (zh) * 2023-08-16 2024-04-05 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统

Similar Documents

Publication Publication Date Title
CN114882978A (zh) 引入图片翻译信息的胃部图像处理方法及系统
Abedalla et al. Chest X-ray pneumothorax segmentation using U-Net with EfficientNet and ResNet architectures
Zhou et al. Cross-level feature aggregation network for polyp segmentation
CN115082747B (zh) 基于组块对抗的零样本胃溃疡分类系统
Cho et al. Comparison of convolutional neural network models for determination of vocal fold normality in laryngoscopic images
CN114782760B (zh) 一种基于多任务学习的胃部疾病图片分类系统
CN114399465B (zh) 良恶性溃疡识别方法及系统
CN112365980A (zh) 脑肿瘤多靶点辅助诊断与前瞻性治疗演化可视化方法及系统
CN115115897B (zh) 多模态预训练的胃部肿瘤分类系统
Liu et al. BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding
CN116759068A (zh) 针对消化系统的医学视觉问答方法及系统
CN113988274B (zh) 一种基于深度学习的文本智能生成方法
Liu et al. Medical visual question answering via conditional reasoning and contrastive learning
CN116884561B (zh) 基于自监督联合学习的胃部诊断报告生成系统
CN113592769B (zh) 异常图像的检测、模型的训练方法、装置、设备及介质
Soundrapandiyan et al. AI-based wavelet and stacked deep learning architecture for detecting coronavirus (COVID-19) from chest X-ray images
Haque et al. Generalized multi-task learning from substantially unlabeled multi-source medical image data
CN115171889B (zh) 一种小样本胃部肿瘤诊断系统
Haridas et al. MED-GPVS: A deep learning-based joint biomedical image classification and visual question answering system for precision e-health
CN116467675A (zh) 一种融合多模态特征的内脏器官属性编码方法及系统
Ali et al. Self-Supervised Learning for Accurate Liver View Classification in Ultrasound Images with Minimal Labeled Data
CN115240847B (zh) 一种胃溃疡诊断装置、设备及存储介质
CN113313177A (zh) 消化道内窥镜图片多标签分类系统
Thai et al. Uit-saviors at medvqa-gi 2023: Improving multimodal learning with image enhancement for gastrointestinal visual question answering
Diamantis et al. This Intestine Does Not Exist: Multiscale Residual Variational Autoencoder for Realistic Wireless Capsule Endoscopy Image Generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Qiu Lin

Inventor after: Li Feng

Inventor after: Lu Weimin

Inventor after: Zhang Xigang

Inventor after: Lai Chunxiao

Inventor after: He Shunhui

Inventor after: Wang Zhenyu

Inventor after: Dai Jie

Inventor before: Lu Weimin

Inventor before: Zhang Xigang

Inventor before: Lai Chunxiao

Inventor before: Li Feng

Inventor before: He Shunhui

Inventor before: Wang Zhenyu

Inventor before: Qiu Lin

Inventor before: Dai Jie