CN116631567B - 一种胃镜检查报告生成装置、设备及计算机可读存储介质 - Google Patents
一种胃镜检查报告生成装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116631567B CN116631567B CN202310897429.4A CN202310897429A CN116631567B CN 116631567 B CN116631567 B CN 116631567B CN 202310897429 A CN202310897429 A CN 202310897429A CN 116631567 B CN116631567 B CN 116631567B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- gastroscopy
- picture
- text
- report
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002575 gastroscopy Methods 0.000 title claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 198
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 208000024891 symptom Diseases 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 7
- 230000002902 bimodal effect Effects 0.000 abstract description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 22
- 238000000034 method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 210000002784 stomach Anatomy 0.000 description 8
- 210000001035 gastrointestinal tract Anatomy 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 210000001198 duodenum Anatomy 0.000 description 4
- 238000004043 dyeing Methods 0.000 description 4
- 210000003238 esophagus Anatomy 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 3
- 208000007107 Stomach Ulcer Diseases 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 208000000718 duodenal ulcer Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 201000005917 gastric ulcer Diseases 0.000 description 3
- 210000001187 pylorus Anatomy 0.000 description 3
- 208000018522 Gastrointestinal disease Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229920000715 Mucilage Polymers 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 229910052788 barium Inorganic materials 0.000 description 1
- DSAJWYNOEDNPEQ-UHFFFAOYSA-N barium atom Chemical compound [Ba] DSAJWYNOEDNPEQ-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000002318 cardia Anatomy 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 210000002599 gastric fundus Anatomy 0.000 description 1
- 231100001014 gastrointestinal tract lesion Toxicity 0.000 description 1
- 210000003709 heart valve Anatomy 0.000 description 1
- KHLVKKOJDHCJMG-QDBORUFSSA-L indigo carmine Chemical compound [Na+].[Na+].N/1C2=CC=C(S([O-])(=O)=O)C=C2C(=O)C\1=C1/NC2=CC=C(S(=O)(=O)[O-])C=C2C1=O KHLVKKOJDHCJMG-QDBORUFSSA-L 0.000 description 1
- 229960003988 indigo carmine Drugs 0.000 description 1
- 235000012738 indigotine Nutrition 0.000 description 1
- 239000004179 indigotine Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000002438 upper gastrointestinal tract Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种胃镜检查报告生成装置、设备及计算机可读存储介质,属于医学文本和图像双模态智能处理技术领域。该装置包括:文本特征提取模块,用于从预设的问题模版中提取文本特征向量;图片特征提取模块,用于从胃镜图片中提取图片特征向量;计算模块,用于计算文本特征向量和图片特征向量的相似度并将相似度度最高的文本特征向量作为目标文本特征向量;特征融合模块,用于将目标文本特征向量与图片特征向量融合得到目标特征向量;模型训练模块,用于将目标特征向量输入线性层进行训练,得到完成训练的胃镜检查报告生成模型。本发明通过结合图片特征和文本特征,充分利用了胃镜图片和预设问题模版中的有效信息,提高了胃镜检查报告的准确率。
Description
技术领域
本发明涉及医学文本和图像双模态智能处理技术领域,尤其是指一种胃镜检查报告生成装置、设备及计算机可读存储介质。
背景技术
胃镜的全称是“电子纤维胃-十二指肠镜”,是用来检查上消化道(包括食管、胃、十二指肠等)内部疾病的一种检查手段。在进行胃部检查时,医生将一条前端带有视频摄像头的纤细、柔软的管子,依次通过口腔、咽喉、食道、胃,最终到达十二指肠,在这个过程中对消化道的内部进行观测,观察有无异常、病变。相比于钡餐、超声、CT等检查不能发现的内部病变,胃镜是诊断上消化道病变的有效检查方法。目前胃镜中上消化道疾病的诊断主要依靠医生通过胃镜图片分析上消化道疾病的类别,而这会耗费医生大量的时间和精力,并且没有考虑到通过引入额外的领域专业信息。但是,随着人工智能在医学领域的快速发展,人工智能技术能够利用预设的问题(提示信息)和胃镜图像更高效地确定上消化道各部位状态并给出诊断意见供医生参考,从而降低胃镜检查中的人工成本,缓解医生的工作压力。
在人工智能领域,基于单图片的方法通常被用于判断上消化道各个部位的状态。这一方法通过预设的问题利用图像处理算法从单个图像中提取图像特征,并最终生成上消化道不同部位的状态信息。目前最为广泛的人工智能方法是将该问题建模为输入一张上消化道图像,然后输出此图像对应部位的状态信息,如“幽门:表面光滑,未见明显异常”。可以将其分为几个步骤:(1)专业医生标注大量关于上消化道各部位的胃镜图像,构建部位图片和部位报告的数据对,每个图片作为一个样本,对应的标注报告作为标签,获得大量的标注语料;(2)基于人工智能网络(包括图像特征提取的卷积网络和文本生成的Transformer网络)训练标注好的语料,获得部位检查报告的生成模型;(3)在预测过程中,每次输入一个胃部的影像图片,使用生成模型对未知标签的胃部图片进行预测,生成该胃镜图片对应上消化道部位的检查报告。其中,基于第(2)步的人工智能网络一般采取基于卷积神经网络的图像编码器和基于自注意力网络的文本解码器。图像编码器主要用于抽取胃镜图像特征,由一系列的卷积层、归一化层、激活层、池化层等组成,常用的图像编码器有AlexNet,VGG,GoogleNet,ResNet等。文本解码器主要由Transformer、GPT(Generative Pre-trainingTransformer,生成式预训练Transformer网络)等组成,负责将输入的图片特征进行解码生成最后上消化道部位的检查报告。但是这种方法往往只从图像中提取部分重要特征,忽视了领域内一些通用文本信息的提示作用。而随着机器视觉问答技术的发展,这些通用文本信息对于获取更好的图像特征也是非常有意义的,它可以指引模型更好地关注胃镜图像的特定部位。除此之外,单纯地依据胃镜图片信息也会增加消化道部位或疾病误判的可能,例如胃部溃疡和十二指肠溃疡,二者的胃镜图片相似度较高,很容易出现误判。
综上所述,现有的胃镜检查报告生成方法存在有效信息利用不充分,从而导致生成的胃镜检查报告准确率低的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中有效信息利用不充分,从而导致生成的胃镜检查报告准确率低的问题。
为解决上述技术问题,本发明提供了一种胃镜检查报告生成装置,包括:
文本特征提取模块,用于将预设的问题模版输入至文本特征提取器中,得到文本特征向量集合;
图片特征提取模块,用于将训练集中的胃镜图片输入至图片特征提取器中,得到图片特征向量;
计算模块,用于将所述文本特征向量集合中的文本特征向量分别与所述图片特征向量进行点积操作,得到所述文本特征向量与所述图片特征向量的相似度值,并将相似度值最大的文本特征向量作为目标文本特征向量;
特征融合模块,用于将所述目标文本特征向量与所述图片特征向量进行融合得到目标特征向量;
模型训练模块,用于将所述目标特征向量输入至线性层进行训练,得到完成训练的胃镜检查报告生成模型。
在本发明的一个实施例中,所述文本特征提取模块包括:
文本特征提取单元,用于将预设的问题模版中的问题分别输入至BERT模型中,得到文本特征向量;
文本特征组合单元,用于基于所述问题模板中每个问题对应的文本特征向量得到文本特征向量集合。
在本发明的一个实施例中,所述图片特征提取模块包括:
图片获取单元,用于获取训练集中的胃镜图片;
图片特征提取单元,用于将所述胃镜图片输入至Vision Transformer特征提取网络中,得到图片特征向量。
在本发明的一个实施例中,所述计算模块包括:
点积单元,用于将所述文本特征向量集合中的文本特征向量分别与所述图片特征向量进行点积操作,得到所述文本特征向量与所述图片特征向量的相似度值,其计算公式为:
,
其中,为图片特征向量,/>为文本特征向量;
选择单元,用于使用函数选择相似度值最大的文本特征向量作为目标文本特征向量;其中,所述/>函数为:
,
其中,表示最高相似度值,/>表示问题模版中的问题次序,/>用于获取问题模板中相似度最大值以及最大值对应的问题。
在本发明的一个实施例中,所述特征融合模块包括:
特征拼接单元,用于将所述目标文本特征向量和所述图片特征向量进行拼接;
特征融合单元,用于将拼接后的特征向量输入至文本图像融合编码器中,得到融合后的特征向量;
目标特征向量生成单元,用于将所述融合后的特征向量输入至文本解码器中,得到目标特征向量。
在本发明的一个实施例中,所述模型训练模块包括:
线性变换及概率计算单元,用于将所述目标特征向量输入至线性层中进行线性变换,利用softmax函数计算线性变换后的特征向量进行计算,得到输出结果中每个字符的概率,其计算公式为:
,
,
其中,表示训练集中第/>个样本的输出结果中第/>个字符的概率,/>为训练集中第/>个样本的目标特征向量中第/>个字符的特征表示,/>为/>经过线性变换后输出的特征向量,/>为线性层中可学习的参数矩阵,/>为线性层中可学习的偏置参数,/>为分布缩放度超参数,/>为词表/>中的词数;
参数调整单元,用于将概率大于预设阈值的字符组合作为预测的胃镜检查报告,根据所述预测的胃镜检查报告调整所述线性层中的参数,直到胃镜检查报告损失函数最小化,得到完成训练的胃镜检查报告生成模型。
在本发明的一个实施例中,所述胃镜检查报告损失函数为:
,
其中,表示真实结果和预测的胃镜检查报告之间的交叉熵损失,/>为真实结果,为预测的胃镜检查报告,/>为训练集中胃镜图片数量。
在本发明的一个实施例中,还包括模型测试模块,所述模型测试模块包括:
第一特征提取单元,用于将预设的问题模版输入至完成训练的胃镜检查报告生成模型中的文本特征提取器,得到文本特征向量集合;
第二特征提取单元,用于将测试集中的胃镜图片输入至所述完成训练的胃镜检查报告生成模型中的图片特征提取器,得到测试图片特征向量;
点积及选择单元,用于将所述文本特征向量集合中的文本特征向量分别与所述测试图片特征向量进行点积操作,得到所述文本特征向量与所述测试图片特征向量的相似度值,并将相似度值最大的文本特征向量作为目标文本特征向量;
文本图片特征融合单元,用于将所述目标文本特征向量与所述测试图片特征向量进行融合得到目标特征向量;
检测单元,用于将所述目标特征向量输入至所述完成训练的胃镜检查报告生成模型中的线性层进行检测,输出胃镜检查报告。
本发明还提供了一种胃镜检查报告生成设备,包括:
胃镜图片采集装置,用于采集胃镜图片;
问题模版采集装置,用于采集预设问题模版;
上位机,与所述胃镜图片采集装置和所述问题模版采集装置通讯连接,用于获取胃镜图片和预设问题模版,执行上述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤,获取胃镜检查报告;
显示装置,与所述上位机通讯连接,用于显示胃镜检查报告结果。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤。
本发明所述的胃镜检查报告生成装置,包括文本特征提取模块,用于从预设的问题模版中提取文本特征向量,引入预设问题模板,对胃镜检查具有指引作用;图片特征提取模块,用于从胃镜图片中提取图片特征向量;计算模块,用于计算文本特征向量和图片特征向量的相似度并选择相似度最高的文本特征向量作为目标文本特征向量,进一步缩小胃镜图片的检查范围;特征融合模块,用于将目标文本特征向量与图片特征向量进行融合得到目标特征向量,不仅考虑了胃镜图片的特征信息,还考虑了与之对应的文本特征信息;模型训练模块,用于将目标特征向量输入至线性层进行训练,得到完成训练的胃镜检查报告生成模型。本发明通过结合胃镜图片的图片特征和预设问题的文本特征,充分利用了胃镜图片和预设问题模版中的有效信息,以提高胃镜检查报告的准确率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明提供的胃镜检查报告生成装置结构示意图;
图2是本发明提供的胃镜检查报告生成模型结构示意图;
图3是本发明提供的胃镜检查报告生成模型的训练和测试过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例1:
如图1所示为本发明提供的胃镜检查报告生成装置结构示意图,包括:
文本特征提取模块10,用于将预设的问题模版输入至文本特征提取器中,得到文本特征向量集合。
本申请引入预设的问题模版,可以对胃镜检查的部位以及状态进行指引,对于一些胃镜图片比较相似的部位,例如胃部溃疡和十二指肠溃疡,二者的胃镜图片相似度较高,很容易出现误判,通过引入问题模版的方式也可以对其进行区分。
图片特征提取模块20,用于将训练集中的胃镜图片输入至图片特征提取器中,得到图片特征向量。
计算模块30,用于将文本特征向量集合中的文本特征向量分别与图片特征向量进行点积操作,得到文本特征向量与图片特征向量的相似度值,并将相似度值最大的文本特征向量作为目标文本特征向量。
特征融合模块40,用于将目标文本特征向量与图片特征向量进行融合得到目标特征向量。
模型训练模块50,用于将目标特征向量输入至线性层中进行训练,得到完成训练的胃镜检查报告生成模型。
示例地,在本实施例中,预设的问题模版中包括胃镜图片可能显示的各个部位,以及每个部位可能存在的症状,如表1所示。需要说明的是,表1是关于胃镜图片可能涉及的部位及症状的不完全列举,在其他实施例中,问题模版中还可以设置其他问题,本申请对此不做限定。
表1
部位 | 问题 |
食管 | 当前胃镜图片显示的是食道吗?状态如何? |
贲门 | 当前胃镜图片显示的是贲门吗?状态如何? |
胃底 | 当前胃镜图片显示的是胃底吗?状态如何? |
胃体 | 当前胃镜图片显示的是胃体吗?状态如何? |
胃窦 | 当前胃镜图片显示的是胃窦吗?状态如何? |
幽门 | 当前胃镜图片显示的是幽门吗?状态如何? |
十二指肠 | 当前胃镜图片显示的是十二指肠吗?状态如何? |
本申请引入胃镜图片可能对应的部位及症状的问题模版,对胃镜检查报告的生成具有指引作用。
具体地,文本特征提取模块10包括:
文本特征提取单元100,用于将预设的问题模版中的问题分别输入至BERT模型中,得到文本特征向量。
示例地,利用BERT模型得到的文本特征向量可以表示为:
,/>,
其中,为预设的问题模版中的问题次序。
文本特征组合单元101,用于基于问题模板中每个问题对应的文本特征向量得到文本特征向量集合。
示例地,该文本特征向量集合可以表示为。
本实施例中采用BERT模型作为文本特征提取器,能够更好的学习带有上下语境的词向量和句子的前后顺序。在其他实施例中,还可以采用其他特征提取方法提取文本特征向量,例如:one-hot编码、word2vec等,本申请对此不做限定。
具体地,图片特征提取模块20包括:
图片获取单元200,用于获取训练集中的胃镜图片。
本实施例将多张带有诊断结果的胃镜图片作为训练集,以对胃镜检查报告生成模型进行训练。
图片特征提取单元201,用于将胃镜图片输入至Vision Transformer(ViT)特征提取网络中,得到图片特征向量。
示例地,通过ViT特征提取网络得到的图片特征向量可以表示为:
。
相比传统的CNN网络,ViT模型保留了更多的空间信息,且通过大量的数据学习,ViT模型能够学习到高质量的中间特征,因此,在本实施例中采用ViT模型提取图片的特征信息。可选地,在其他实施例中,还可以选择卷积神经网络等作为图片特征提取器,本申请对此不做限定。
具体地,计算模块30包括:
点积单元300,用于将文本特征向量集合中的文本特征向量分别与图片特征向量进行点积操作,计算文本特征向量与图片特征向量的相似度值。
具体地,相似度值计算公式为:
。
选择单元301,用于使用函数选择相似度值最大的文本特征向量作为目标文本特征向量。
具体地,函数公式为:
,
其中,表示最高相似度值,/>表示问题模版中的问题次序,/>用于获取问题模板中相似度最大值以及最大值对应的问题。
可选地,在本发明的其他实施例中,还可以通过将文本特征向量中的CLS向量与图片特征向量中的CLS向量/>进行点积操作计算该文本特征向量和图片特征向量中的相似度值。
示例地,若问题模版中第三个问题对应的文本特征向量与该胃镜图片的图片特征向量的相似度值最大,则将/>作为目标文本特征向量。
通过选择目标文本特征向量,能够针对性地从预设问题模版中选择出与当前胃镜图片最匹配的问题,进一步缩小了胃镜检查报告的范围,以使最后的胃镜检查报告更准确。
具体地,特征融合模块40包括:
特征拼接单元400,用于将目标文本特征向量和图片特征向量进行拼接。
示例地,若目标文本特征向量为,其中,/>表示目标文本特征向量中的特征个数;图片特征向量为/>,其中/>表示图片特征向量中的特征个数,则拼接后的特征向量表示为:
,/>。
特征融合单元401,用于将拼接后的特征向量输入至文本图像融合编码器中,得到融合后的特征向量。
为了使目标文本特征向量和图片特征向量进行充分的融合,获得更好的融合特征表示,本实施例采用文本图像融合编码器对其进行融合。
示例地,融合后的特征向量可以表示为:
,
其中,f_extracter为文本图像融合编码器,采用Transformer结构。
目标特征向量生成单元402,用于将融合后的特征向量输入至文本解码器中,得到目标特征向量。
具体地,目标特征向量为:
。
其中,为文本解码器,该解码器由多层Transformer组成。
通过对目标文本特征向量和图片特征向量进行融合后得到包含文本信息和图片信息的特征向量,并利用线性层和全连接层进行训练,以得到胃镜检查报告生成模型。
具体地,模型训练模块50包括:
线性变换及概率计算单元500,用于将目标特征向量输入至线性层中进行线性变换,利用softmax函数对线性变换后的特征向量进行计算,得到输出结果中每个字符的概率。
具体地,将目标特征向量进行线性变换后得到的特征向量为:
,
其中,为训练集中第/>个样本的目标特征向量/>中第/>个字符的特征表示,/>为经过线性变换后输出的特征向量,/>为线性层中可学习的参数矩阵,/>为线性层中可学习的偏置参数。
具体地,输出结果中每个字符的概率为:
,
其中,表示训练集中第/>个样本的输出结果中第/>个字符的概率,/>为分布缩放度超参数,/>为词表/>中的词数。
在一些实施例中,分布缩放度超参数的值一般设置为2。
参数调整单元501,用于将概率大于预设阈值的字符组合作为预测的胃镜检查报告,根据预测的胃镜检查报告调整线性层中的参数,直到胃镜检查报告损失函数最小化,得到完成训练的胃镜检查报告生成模型。
具体地,胃镜检查报告损失函数为:
,
其中,表示真实结果和预测的胃镜检查报告之间的交叉熵损失,/>为真实结果,为预测的胃镜检查报告,/>为训练集中胃镜图片数量。
示例地,完成训练的胃镜检查报告生成模型如图2所示。
可选地,本实施例提供的胃镜检查报告生成装置还包括模型测试模块,用于在得到完成训练的胃镜检查报告生成模型后对该模型进行测试,其具体包括:
第一特征提取单元,用于将预设的问题模版输入至完成训练的胃镜检查报告生成模型中的文本特征提取器,得到文本特征向量集合。
第二特征提取单元,用于将测试集中的胃镜图片输入至完成训练的胃镜检查报告生成模型中的图片特征提取器,得到测试图片特征向量。
点积及选择单元,用于将文本特征向量集合中的文本特征向量分别与测试图片特征向量进行点积操作,得到文本特征向量与测试图片特征向量的相似度值,并将相似度值最大的文本特征向量作为目标文本特征向量。
文本图片特征融合单元,用于将目标文本特征向量与测试图片特征向量进行融合得到目标特征向量。
检测单元,用于将目标特征向量输入至完成训练的胃镜检查报告生成模型中的线性层进行检测,输出胃镜检查报告。
本申请提供的胃镜检查报告生成装置在现有技术的基础上增加了多个预设问题作为输入,从而更好地指引模型关注胃镜图片的某一部位,并且能够兼顾胃镜图片中每个部位所关联的症状,除此之外,通过充分融合文本特征信息和图片特征信息,以使生成的胃镜检查报告更准确。
实施例2:
基于上述实施例提供的胃镜检查报告生成模型,本申请实施例还对该模型进行了训练、测试和验证。
本实施例收集了内镜中心胃镜检查(包括无痛胃镜、清醒镇静胃镜以及普通胃镜检查)患者的胃镜图片。
其图片拍摄设备主要为Olympus公司240、260、290系列以及日本Fujinon公司560、580系列内镜。所有图片在白光非放大模式下拍摄,BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。其中,纳入数据集的标准为:带有诊断报告的胃镜各部位图像;排除的标准为:1、患者小于16岁或大于95岁;2、图片异常模糊、伪影、异常失真等影响观察的图片;3、有大量泡沫、粘液糊或食物等干扰严重的图片。
该数据集共包括标注病例样本10000例,每个病例均包含有一段包含各个部位诊断报告的文本、至少10张胃镜图片和多个预设问题。图片预处理将图片进行格式转化,图像尺寸缩放至384*384,图像归一化。同时为了验证人工智能模型的准确性,将数据集按照8:1:1的比例划分训练集(8000例)、验证集(1000例)和测试集(1000例)。
数据集划分结束后,分别利用训练集、验证集和测试集对胃镜检查报告生成模型进行训练、验证及测试,如图3所示。
将训练集输入至构建好的胃镜检查报告生成模型中进行参数训练;之后使用验证集验证模型的有效性,提高模型的泛化能力,对并行的参数进行优调后获得训练好的胃镜检查报告生成模型;最后将测试集输入至训练好的模型中对模型的性能进行评价和考量。
本实施例还邀请了两名内镜医师对测试集中的胃镜图片进行了判读和诊断,并分别计算了内镜医师的诊断精确率。
经过对模型进行测试,本申请提供的胃镜检查报告生成模型在测试集上的精确率(BLEU)、召回率(ROUGE)、临床疗效(CE)都明显优于现有的胃镜检查报告生成方法,且其生成的胃镜检查报告准确率更接近经验丰富的内镜医师。
其具体结果如下:医生对测试集中胃镜图片的诊断整体精确率为60%,本申请提供的胃镜检查报告生成模型的精确率为57.5%;医生的检测召回率为57%,本申请模型的检测召回率为60%;医生的诊断率为50%,本申请模型的诊断率为53.2%。而现有技术中的胃镜检查报告生成方法所生成的胃镜检查报告的整体精确率、召回率和诊断率均不足30%。
其中,BLEU=标注文本(标签)中的词组数出现在胃镜检查报告中的比例*100%;
ROUGE=胃镜检查报告中的词组数出现在标签中的比例*100%;
CE=胃镜检查报告中的疾病种类/标签中的疾病种类*100%。
由此可以看出,本申请通过增加多个预设问题并提取文本特征,将文本特征和图片特征进行融合,充分利用了有效信息,不仅能够检测出胃镜图片所显示的部位以及该部位对应的症状,还能兼顾到不同部位的症状,能够根据胃镜图片高效的生成胃镜检查报告,并且具有较高的准确率。
本申请实施例还提供了一种胃镜检查报告生成设备,包括:
胃镜图片采集装置,用于采集胃镜图片。
问题模版采集装置,用于采集预设问题模版。
上位机,与胃镜图片采集装置和问题模版采集装置通讯连接,用于获取胃镜图片和预设问题模版,执行胃镜检查报告生成装置所实现的胃镜检查报告生成步骤,获取胃镜检查报告。
显示装置,与上位机通讯连接,用于显示胃镜检查报告。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.一种胃镜检查报告生成装置,其特征在于,包括:
文本特征提取模块,用于将预设的问题模版输入至文本特征提取器中,得到文本特征向量集合;其中,所述预设的问题模板中包括胃镜图片涉及的多个部位及每个部位涉及的多个症状;
图片特征提取模块,用于将训练集中的胃镜图片输入至图片特征提取器中,得到图片特征向量;
计算模块,用于将所述文本特征向量集合中的文本特征向量分别与所述图片特征向量进行点积操作,得到所述文本特征向量与所述图片特征向量的相似度值,并将相似度值最大的文本特征向量作为目标文本特征向量;
特征融合模块,用于将所述目标文本特征向量与所述图片特征向量进行融合得到目标特征向量;
模型训练模块,用于将所述目标特征向量输入至线性层进行训练,得到完成训练的胃镜检查报告生成模型,其具体包括:
线性变换及概率计算单元,用于将所述目标特征向量输入至线性层中进行线性变换,利用softmax函数计算线性变换后的特征向量进行计算,得到输出结果中每个字符的概率,其计算公式为:
其中,cj,i表示训练集中第j个样本的输出结果中第i个字符的概率,fj,i为训练集中第j个样本的目标特征向量中第i个字符的特征表示,为fj,i经过线性变换后输出的特征向量,W为线性层中可学习的参数矩阵,b为线性层中可学习的偏置参数,t为分布缩放度超参数,|V|为词表V中的词数;
参数调整单元,用于将概率大于预设阈值的字符组合作为预测的胃镜检查报告,根据所述预测的胃镜检查报告调整所述线性层中的参数,直到胃镜检查报告损失函数最小化,得到完成训练的胃镜检查报告生成模型。
2.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,所述文本特征提取模块包括:
文本特征提取单元,用于将预设的问题模版中的问题分别输入至BERT模型中,得到文本特征向量;
文本特征组合单元,用于基于问题模板中每个问题对应的文本特征向量得到文本特征向量集合。
3.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,所述图片特征提取模块包括:
图片获取单元,用于获取训练集中的胃镜图片;
图片特征提取单元,用于将所述胃镜图片输入至Vision Transformer特征提取网络中,得到图片特征向量。
4.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,所述计算模块包括:
点积单元,用于将所述文本特征向量集合中的文本特征向量分别与所述图片特征向量进行点积操作,得到所述文本特征向量与所述图片特征向量的相似度值,其计算公式为:
s=Dot(V,Tk),
其中,V为图片特征向量,Tk为文本特征向量;
选择单元,用于使用Fmax函数选择相似度值最大的文本特征向量作为目标文本特征向量;其中,所述Fmax函数为:
max_score,k=Fmax(S),
其中,max_score表示最高相似度值,k表示问题模版中的问题次序,Fmax用于获取问题模板中相似度最大值以及最大值对应的问题。
5.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,所述特征融合模块包括:
特征拼接单元,用于将所述目标文本特征向量和所述图片特征向量进行拼接;
特征融合单元,用于将拼接后的特征向量输入至文本图像融合编码器中,得到融合后的特征向量;
目标特征向量生成单元,用于将所述融合后的特征向量输入至文本解码器中,得到目标特征向量。
6.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,所述胃镜检查报告损失函数为:
其中,L表示真实结果和预测的胃镜检查报告之间的交叉熵损失,uj为真实结果,cj为预测的胃镜检查报告,R为训练集中胃镜图片数量。
7.根据权利要求1所述的胃镜检查报告生成装置,其特征在于,还包括模型测试模块,所述模型测试模块包括:
第一特征提取单元,用于将预设的问题模版输入至完成训练的胃镜检查报告生成模型中的文本特征提取器,得到文本特征向量集合;
第二特征提取单元,用于将测试集中的胃镜图片输入至所述完成训练的胃镜检查报告生成模型中的图片特征提取器,得到测试图片特征向量;
点积及选择单元,用于将所述文本特征向量集合中的文本特征向量分别与所述测试图片特征向量进行点积操作,得到所述文本特征向量与所述测试图片特征向量的相似度值,并将相似度值最大的文本特征向量作为目标文本特征向量;
文本图片特征融合单元,用于将所述目标文本特征向量与所述测试图片特征向量进行融合得到目标特征向量;
检测单元,用于将所述目标特征向量输入至所述完成训练的胃镜检查报告生成模型中的线性层进行检测,输出胃镜检查报告。
8.一种胃镜检查报告生成设备,其特征在于,包括:
胃镜图片采集装置,用于采集胃镜图片;
问题模版采集装置,用于采集预设问题模版;
上位机,与所述胃镜图片采集装置和所述问题模版采集装置通讯连接,用于获取胃镜图片和预设问题模版,执行如权利要求1-7任一项所述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤,获取胃镜检查报告;
显示装置,与所述上位机通讯连接,用于显示胃镜检查报告结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的胃镜检查报告生成装置所实现的胃镜检查报告生成步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310897429.4A CN116631567B (zh) | 2023-07-21 | 2023-07-21 | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310897429.4A CN116631567B (zh) | 2023-07-21 | 2023-07-21 | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631567A CN116631567A (zh) | 2023-08-22 |
CN116631567B true CN116631567B (zh) | 2023-10-13 |
Family
ID=87613779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310897429.4A Active CN116631567B (zh) | 2023-07-21 | 2023-07-21 | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631567B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913455B (zh) * | 2023-09-15 | 2023-12-15 | 紫东信息科技(苏州)有限公司 | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
CN115223021A (zh) * | 2022-07-21 | 2022-10-21 | 华南农业大学 | 一种基于视觉问答的果树全生长期农事作业决策方法 |
CN116259407A (zh) * | 2023-05-16 | 2023-06-13 | 季华实验室 | 基于多模态数据的疾病诊断方法、装置、设备及介质 |
-
2023
- 2023-07-21 CN CN202310897429.4A patent/CN116631567B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
CN115223021A (zh) * | 2022-07-21 | 2022-10-21 | 华南农业大学 | 一种基于视觉问答的果树全生长期农事作业决策方法 |
CN116259407A (zh) * | 2023-05-16 | 2023-06-13 | 季华实验室 | 基于多模态数据的疾病诊断方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116631567A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7037220B2 (ja) | 消化器官の内視鏡画像による疾患の診断支援システム、診断支援システムの作動方法、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体 | |
US20180263568A1 (en) | Systems and Methods for Clinical Image Classification | |
WO2019245009A1 (ja) | 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体 | |
CN110600122A (zh) | 一种消化道影像的处理方法、装置、以及医疗系统 | |
JPWO2018225448A1 (ja) | 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体 | |
CN116631567B (zh) | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 | |
CN110367913B (zh) | 无线胶囊内窥镜图像幽门和回盲瓣定位方法 | |
Cho et al. | Comparison of convolutional neural network models for determination of vocal fold normality in laryngoscopic images | |
CN112466466B (zh) | 基于深度学习的消化道辅助检测方法、装置和计算设备 | |
CN114882978A (zh) | 引入图片翻译信息的胃部图像处理方法及系统 | |
CN115115897B (zh) | 多模态预训练的胃部肿瘤分类系统 | |
CN113610847B (zh) | 一种白光模式下胃部标志物评估方法及系统 | |
CN112801958A (zh) | 超声内镜、人工智能辅助鉴别方法、系统、终端、介质 | |
CN111341437A (zh) | 基于舌图像的消化道疾病判断辅助系统 | |
CN116664929A (zh) | 一种基于多模态信息融合的喉镜图像多属性分类方法 | |
Li et al. | Intelligent detection endoscopic assistant: An artificial intelligence-based system for monitoring blind spots during esophagogastroduodenoscopy in real-time | |
CN113436173A (zh) | 基于边缘感知的腹部多器官分割建模、分割方法及系统 | |
CN116884561B (zh) | 基于自监督联合学习的胃部诊断报告生成系统 | |
CN114782760A (zh) | 一种基于多任务学习的胃部疾病图片分类系统 | |
CN116759068A (zh) | 针对消化系统的医学视觉问答方法及系统 | |
CN114913173A (zh) | 内镜辅助检查系统、方法、装置及存储介质 | |
Li et al. | Development and validation of the artificial intelligence (AI)-based diagnostic model for bronchial lumen identification | |
CN115223193A (zh) | 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法 | |
CN115171889B (zh) | 一种小样本胃部肿瘤诊断系统 | |
CN117524402A (zh) | 关于内镜影像分析并自动生成诊断报告的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |