CN117333462A - 一种基于肝脏属性分析的超声诊断智能交互系统 - Google Patents

一种基于肝脏属性分析的超声诊断智能交互系统 Download PDF

Info

Publication number
CN117333462A
CN117333462A CN202311317130.3A CN202311317130A CN117333462A CN 117333462 A CN117333462 A CN 117333462A CN 202311317130 A CN202311317130 A CN 202311317130A CN 117333462 A CN117333462 A CN 117333462A
Authority
CN
China
Prior art keywords
liver
image
text
attribute
ultrasonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311317130.3A
Other languages
English (en)
Inventor
程栋梁
黄琦
王晨
刘振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Hebin Intelligent Robot Co ltd
Original Assignee
Hefei Hebin Intelligent Robot Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Hebin Intelligent Robot Co ltd filed Critical Hefei Hebin Intelligent Robot Co ltd
Priority to CN202311317130.3A priority Critical patent/CN117333462A/zh
Publication of CN117333462A publication Critical patent/CN117333462A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30056Liver; Hepatic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

本发明涉及医学人工智能技术领域,公开了一种基于肝脏属性分析的超声诊断智能交互系统,该系统包括图像对齐子系统、属性分析子系统和大语言模型对话子系统。图像对齐子系统用于对肝脏超声图像进行特征识别,并根据一个问题描述的文本获取需要的图像特征,然后将图像特征对齐到文本空间上,进而得到能够被大语言模型识别的图像文本对齐特征。属性分析子系统用于对肝脏超声图像进行肝脏以及肝脏占位性区域目标检测,并对肝脏的占位性病变属性进行分类识别,进而得到肝脏属性分类结果。大语言模型对话子系统用于将问题描述、图像文本对齐特征和肝脏属性分类结果作为输入,利用大语言模型输出诊断结果,该系统生成的诊断结果更加智能和准确。

Description

一种基于肝脏属性分析的超声诊断智能交互系统
技术领域
本发明涉及医学人工智能技术领域,尤其是一种基于肝脏属性分析的超声诊断智能交互系统。
背景技术
超声诊断技术是一种快速、方便、安全、无创的医学检查方式,但是由于成像原理的限制,超声图像容易受到噪声污染,使得图像质量降低,且灰度不均匀、对比度低,给病灶分割及疾病诊断带来了较大的挑战。传统超声图像分析方法依赖医生主观判断,对医生的临床经验要求较高,手法因人而异,后续无追踪复核方法,且在大规模检查时,医生容易疲劳,效率降低,漏检也容易增加,已不能满足现代医疗模式向智能医疗快速发展的要求。
随着深度学习技术的发展,通过结合影像学、医学图像处理技术以及计算机的分析计算,能够辅助发现病灶,提高诊断的准确率。例如公开号为CN107133942的中国专利申请中公开了一种基于深度学习的医疗图像处理方法,其选用标注好的医疗训练集图像对迁移的神经网络模型进行训练和适配,获得经过训练的医疗诊断模型;根据所述医疗诊断模型的要求转换医疗图片的图像格式,并对所述医疗图片进行图像增强处理;提取所述医疗图片的瓶颈特征,利用所述医疗诊断模型根据所述瓶颈特征进行影像诊断,并输出诊断结果。
图像处理对于肝脏超声医疗智能诊断的需求来说存在一定的局限性,得到的结果仍是病灶图像数据,缺少没有自然语言文本信息,而大语言模型(LLM)为诊断交互系统带来了优秀的交互问答能力。目前多数应用大语言模型的诊断交互系统仅针对图像中的特征进行分析,虽然能得到直观的特征分析结果,但是针对多样的肝脏占位性病变,缺少对特征关联的隐含属性分析,使得诊断分析结果的智能性和准确性与专业医生仍存在一定差距。
发明内容
为了克服现有技术中肝脏诊断交互系统在分析肝脏超声图像时,缺少对肝脏占位性病变的属性进行分析,诊断结果的智能性和准确性亟需提高的技术问题,本发明提出了一种基于肝脏属性分析的超声诊断智能交互系统。
为实现上述目的,本发明公开一种基于肝脏属性分析的超声诊断智能交互系统,包括:图像对齐子系统、属性分析子系统以及大语言模型对话子系统。
图像对齐子系统用于对肝脏超声图像进行特征识别,并根据一个问题描述文本获取需要的图像特征,然后将图像特征对齐到文本空间上,进而得到能够被大语言模型识别的图像文本对齐特征。
属性分析子系统用于对肝脏超声图像进行肝脏以及肝脏占位性区域目标检测,并对肝脏的占位性病变属性进行分类识别,进而得到肝脏属性分类结果。
大语言模型对话子系统用于将问题描述文本、图像文本对齐特征和肝脏属性分类结果作为输入,利用大语言模型输出肝脏超声图像的诊断结果。
作为上述方案的进一步改进,属性分析子系统采用YOLOV8模型进行肝脏以及肝脏占位性区域目标检测,且在对肝脏占位性病变属性进行分类识别时的分类器采用改进的网络结构,改进内容如下:
(1)获取传统分类器的主干网络即resnet18网络,按照数据传输方向,在resnet18网络的前三个残差模块之后分别加入多尺度注意力模块。其中,通过将残差模块输出的特征和经过多尺度注意力模块输出的特征进行乘积运算,得到一个含有多尺度空间注意力的融合特征。
(2)在主干网络之后增加辅助训练网络。其中,主干网络输出的融合特征经过卷积和平均池化之后,同时输入至辅助训练网络和一个多属性二分类头模块中,进而对属性分类进行训练。辅助训练网络具有多个分类头,分别用于检测多个肝脏占位性病变分类项目的子分类。多属性二分类头模块用于对肝脏多个占位性病变分类项目进行二分类。
作为上述方案的进一步改进,属性分析子系统的网络结构训练方法包括以下步骤:
标注样本:获取若干个肝脏超声图像的样本,并对样本的肝脏属性进行标注。
训练检测器:将标注后的样本按照8∶2的比例划分为训练集和验证集,经过预设轮回训练次数的检测训练后保存YOLOV8模型并输出剪切的肝脏超声图像。
训练分类器:将剪切的肝脏超声图像输入至分类器,并将输入数据统一缩放至预设大小,采用改进的网络结构进行分类训练。
作为上述方案的进一步改进,辅助训练网络采用一个组合的损失函数L(C),其表达式如下:
L(C)=a*CrossEntropyLoss+b*IBLoss
其中,CrossEntropyLoss为多分类交叉熵损失。IBLoss为类别不平衡损失。在初始的10个轮回训练次数中,a=1,b=0。在末尾的40个轮回训练次数中,a=b=0.5。
作为上述方案的进一步改进,样本的肝脏属性即多个肝脏占位性病变分类项目包括:回声、形态、基底、内部回声和后方回声,各自的子分类具体如下:
回声:无回声、低回声、高回声、等回声、强回声或混合回声。
形态:规则或不规则。
基底:清晰或不清晰。
内部回声:均匀或不均匀。
后方回声:无改变、增强或伴声影。
作为上述方案的进一步改进,多属性二分类头模块采用的损失函数L的表达式如下:
式中,log的底数为e。yi表示第i样本的标签,正类为1,负类为0。pi表示样本i预测为正类的概率。N表示样本个数,i≤N。Li表示第i个样本的损失值。
作为上述方案的进一步改进,图像对齐子系统包括图像编码模块和图像文本对齐模块。图像编码模块采用Vision Transformer模型,用于识别肝脏超声图像中的图像特征。图像文本对齐模块采用Q-former网络结构。Q-former网络结构具有多组可学习的查询向量,并通过图像文本对进行预训练,使得查询向量学习并提取出与文本最相关的视觉表示,进而输出图像文本对齐特征。
作为上述方案的进一步改进,图像对齐子系统的网络结构训练方法包括以下步骤:
构建肝脏超声图像文本对数据,其包含多个肝脏超声图像以及多段描述文本;
将图像编码模块参数固定,并将图片经过图像编码得到图像特征,然后把图像特征输入到所述图像文本对齐模块,对应的描述文本输入到Q-former网络结构得到文本特征;将查询向量与文本特征进行交互,计算各个图像特征和文本特征之间的相似度。
根据相似度的大小将图像文本对划分为正样本和负样本,通过自注意模块获取图像中与文本查询相关的视觉特征。
采用Causal Attention掩码来控制查询向量和文本特征的交互,该过程由查询向量提取生成文本所需的信息,以使得查询向量学习到包含文本描述的视觉特征。
经过迭代保存最优Q-former网络模型及参数。
作为上述方案的进一步改进,大语言模型采用ChatGLM-6B。大语言模型对话子系统的网络结构训练方法包括以下步骤:
构建在医疗场景下患者和病人的对话文本数据集。
在大语言模型的网络结构增加LoRA结构,随后将对话文本数据输入至大语言模型中,将图像文本对齐模块的Q-former经过一个全连接层与大语言模型进行连接,只更新LoRA参数进行微调训练,保存优化后的模型。
作为上述方案的进一步改进,大语言模型对话子系统采用肝脏超声图像结构化数据知识图谱作为查询的背景知识约束,肝脏超声图像结构化数据知识图谱的构建过程如下:
由多位专家确定常见的肝脏超声疾病种类。
由多位超声医生根据属性分析的结构化要求,从多个方面的肝脏信息对各种肝脏超声疾病进行描述以形成文档。其中,多个方面的肝脏信息包括:肝脏形态、肝脏大小、肝脏边缘、肝脏包膜、回声、静脉、血管和流速。
对超声提示进行说明,并核查文档数据是否有误。
与现有技术相比,本发明具有如下有益效果:
(1)、本发明公开的基于肝脏属性分析的超声诊断智能交互系统,针对目前深度学习在肝脏超声图像诊断上的不足,结合最新大语言模型多轮对话人性化交互功能,对肝脏超声进行交互式的诊断分析,能够对超声图像进行文字生成。在此基础上,通过引入属性分析子系统,对肝脏超声图像进行肝脏以及肝脏占位性区域目标检测,并对肝脏的占位性病变属性进行分类识别,以此作为大语言模型的另外输入,从而使得诊断结果更加智能和准确。
(2)、本发明通过对属性分析子系统在进行分类识别时的网络结构进行改进,一方面,在主干网络中引入多尺度注意力模块,通过更大的卷积获取更精确的空间位置信息,并且能够融合不同空间位置信息。另一方面,通过增加辅助训练网络,使得输出的分类结果更加准确,对分类属性进行优化。同时辅助训练网络设计组合式的损失函数,进一步提高分类准确度。
(3)、本发明还通过构建肝脏超声图像结构化数据知识图谱作为大语言模型查询时的背景知识约束,从而保证生成分析结果的准确性,减少错误语句的发生,综合优化最终生成的诊断结果。
附图说明
图1为本发明实施例1中基于肝脏属性分析的超声诊断智能交互系统的框架示意图。
图2为本发明实施例1中属性分析子系统的网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本实施例提供一种基于肝脏属性分析的超声诊断智能交互系统,包括:图像对齐子系统、属性分析子系统以及大语言模型对话子系统。
图像对齐子系统用于对肝脏超声图像进行特征识别,并根据一个问题描述文本获取需要的图像特征,然后将图像特征对齐到文本空间上,进而得到能够被大语言模型识别的图像文本对齐特征。图片对齐子系统的输入是一张图片和一个问题,一般来说,一张图片对应一个问题或多个问题,可以对一张图片进行分析提问,本实施例中,一张图片对应一个问题,后文将对问题格式进行举例说明。图像对齐子系统包括图像编码模块和图像文本对齐模块。
本实施例中,图像编码模块用于识别肝脏超声图像中的图像特征,可采用Transformer架构的VIT-G模型,视觉Transformer(ViT,Vision Transformer)是一种新型的计算机视觉模型,它使用Transformer网络架构,可以让计算机能够识别图像中的对象和细节,可以更快地处理更大规模的图像,能够更好地处理模糊和不完整的图像。
图像文本对齐模块可采用BLIP2提出的Q-former网络结构,负责弥合视觉和语言两种模态的差距,由两个共享相同自注意力层的transformer子模块组成,分别为V模块和T模块。Q-former网络结构有32组可学习的查询向量,用query表示,使用图像文本对进行预训练,使得query学习并提取出与文本最相关的视觉表示,输出作为大语言模型的输入之一。Q-former网络结构具有多组可学习的查询向量,并通过图像文本对进行预训练,使得查询向量学习并提取出与文本最相关的视觉表示,进而输出图像文本对齐特征。
本实施例中,图像对齐子系统的网络结构训练方法包括以下步骤:
(1)、构建肝脏超声图像文本对数据,它包含了多个肝脏超声图像以及多个描述文本。
(2)、图像文本对的对比学习(Contrastive Learning):将图像编码模块参数固定,并将图片经过图像编码得到图像特征,然后把图像特征输入到图像文本对齐模块,对应的描述文字输入到Q-former网络结构经过T模块得到文本特征。将查询向量query与文本特征进行交互,计算各个文本和图像之间的相似度,相似度越大,说明获取的图像特征和文本越相关。
(3)、图像文本匹配任务(Matching Learning):该过程是一个二分类的任务,将相似度高的数据作为正样本,相似度低的数据作为负样本,通过自注意力self_attention模块以获取图像中与文本查询相关的更细节的视觉特征,从而使模型能够生成与查询更加一致的图像描述。
(4)、图生成文字学习:采用Causal Attention(因果注意力)掩码来控制查询向量和文本特征的交互,该过程由查询向量提取生成文本所需的信息,以使得查询向量学习到包含文本描述的视觉特征。
(5)、经过迭代保存最优的Q-former网络模型,模型参数不动。
属性分析子系统主要分为两个部分,首先可采用YOLOV8模型进行肝脏以及肝脏占位性区域目标检测,得到肝脏位置,在一些实施例中,还可通过肝脏位置输出弥漫性病变标签,例如脂肪肝、肝炎、淤血肝或正常肝等。然后对检测的目标区域进行分类属性分析,获得该图片的具体细节,即肝脏属性分类结果。本实施例中,属性分析子系统的网络结构训练方法可包括以下步骤:
(1)、标注样本:获取若干个肝脏超声图像的样本,并对样本的肝脏属性进行标注。
其中,样本的肝脏属性即多个肝脏占位性病变分类项目,以及各自的子分类具体如下:
回声:无回声、低回声、高回声、等回声、强回声或混合回声;
形态:规则或不规则;
基底:清晰或不清晰;
内部回声:均匀或不均匀;
后方回声:无改变、增强或伴声影。
(2)、训练检测器:将标注后的样本按照8∶2的比例划分为训练集和验证集,经过500个epoch的检测训练后保存YOLOV8模型并输出剪切的肝脏超声图像。
(3)、训练分类器:将剪切的肝脏超声图像输入至分类器,并将输入数据统一缩放至预设大小,即224*224。
(4)采用改进的网络结构进行分类训练,训练50epoch后保存分类指标最高的模型。
本发明为了提高属性分析子系统在对肝脏占位性病变属性进行分类识别时的准确性,分类器采用改进的网络结构,改进内容如下:
(1)获取传统分类器的主干网络即resnet18网络,按照数据传输方向,在resnet18网络的前三个残差模块之后分别加入多尺度注意力模块(EMA,efficient multi-scaleattention),目的是将精确的空间结构信息保存到通道中,该结构内部有三个分支,两个1*1分支,一个3*3分支,前者负责特征图在宽和高两个方向的位置注意力提取,后者通过更大的卷积获取更精确的空间位置信息。同时为了更好融合不同空间位置信息,在两个1*1融合的特征通道以及3*3分支通道,分别连接2D全局平均池化以将全局空间信息编码到1*1分支的输出中,2D全局平均池化公式如下:
式中,H为特征图的高,W为特征图的宽,xc(i,j)表示特征图中位置为第i行j列的特征数值。内部使用交叉矩阵乘法,得到2组融合多位置多通道的注意力特征图,进行相加融合,维度是1*H*W,通过sigmoid将数字归一化到0-1之间,最后将获取的1*H*W空间注意力特征图和输入的C*H*W特征进行相乘,得到带有空间注意力的特征图,即含有多尺度空间注意力的融合特征。
(2)在主干网络之后增加辅助训练网络,辅助训练网络仅在训练阶段实现辅助训练,测试不需要该结构。其中,主干网络输出的融合特征经过卷积和平均池化之后,同时输入至辅助训练网络和一个多属性二分类头模块中,进而对属性分类进行训练。如图2中右边的虚线框区域所示,辅助训练网络具有5个分类头,分别用于检测前述5个肝脏占位性病变分类项目(即回声、形态、基底、内部回声和后方回声)的子分类。多属性二分类头模块用于对肝脏多个占位性病变分类项目进行二分类,此分支没有多级分类,每个子分类都当成二分类,损失函数可采用binary_crossentropy(BSE),公式如下:
式中,log的底数为e;yi表示第i样本的标签,正类为1,负类为0;pi表示样本i预测为正类的概率,是经过sigmoid后的数;N表示样本个数,i≤N;Li表示第i个样本的损失值。
在预测阶段去除辅助网络,直接获取属性分类的预测结果multi-hot编码形式,例如:“0110010”,其中“1”的位置对应的属性表示存在这个属性,“0”表示不存在。
另外,辅助训练网络采用一个组合的损失函数L(C),其表达式如下:
L(C)=a*CrossEntropyLoss+b*IBLoss
其中,CrossEntropyLoss为多分类交叉熵损失;IBLoss为类别不平衡损失;在初始的10个轮回训练次数中,a=1,b=0;在末尾的40个轮回训练次数中,a=b=0.5。
大语言模型对话子系统用于将用户的问题描述文本(一般输入到大语言模型中再转换成文本特征)、图像文本对齐特征(是将图像特征对齐到文本维度的一组特征)和肝脏属性分类文本结果(和问题描述文本的概念相同,也是输入到大语言模型中再转换成文本特征)作为输入,利用大语言模型输出肝脏超声图像的诊断结果。大语言模型对话子系统的主要功能是交互式问答,根据问题描述、图像文本对齐特征和肝脏属性分类结果,对图片进行综合性分析,输出符合规范的文字。
其中,如表1所示,用户的问题描述文本以及交互系统输出对应的诊断结果文本示例。
表1:问题描述文本和诊断结果文本示例
本实施例中,大语言模型可采用ChatGLM-6B,ChatGLM-6B是一个开源的、支持中英双语的对话语言模型,基于General Language Model(GLM)架构,具有62亿参数,针对中文问答和对话进行了优化,同时支持中文和英文医学对话和分析。但是通用的大语言对话模型,在超声场景下的对话性能并不理想,具体体现在输出有各种错误和偏差,因此本发明采用的优化微调方式是添加LoRA参数进行微调,同时构建知识图谱作为背景约束信息,防止输出结果错误,其中LoRA的全称是“Low-Rank Adaption”,即低秩自适应,可以在不改变原有模型参数基础上低成本进行大模型微调,减少硬件资源的依赖,增加在特定场景下,LoRA技术原理公式如下:
h=w0x+BAx
其中,h表示模型中间层的输出结果;w0+BA是计算新的W模型权重;w0在训练阶段被冻结;A、B包含了可训练的参数。通过这种低秩自适应的方法得到的模型在目标数据上性能可以稳定提升。
大语言模型对话子系统的网络结构训练方法包括以下步骤:
(1)、构建在医疗场景下患者和病人的对话文本数据集。本实施例中,该对话文本数据集可包括一个包含7000个真实超声诊断场景下的患者-医生对话数据集,以及网上开源的医疗场景下医生和病人对话数据集(100000对)。
另外,本发明还通过采用肝脏超声图像结构化数据知识图谱作为查询的背景知识约束,包括疾病名称、症状、属性,借助ChatGPT生成指令微调数据集。肝脏超声图像结构化数据知识图谱可以由医疗团队构建。
(2)、在大语言模型的网络结构增加LoRA结构。
(3)、随后将对话文本数据输入至大语言模型中,将图像文本对齐模块的Q-former经过一个全连接层与大语言模型进行连接,只更新LoRA参数进行微调训练,保存优化后的模型。
本实施例中,肝脏超声图像结构化数据知识图谱的构建过程如下:
(1)、由2位专家确定常见的肝脏超声疾病种类。
(2)、由3位超声医生根据属性分析的结构化要求,从多个方面的肝脏信息对各种肝脏超声疾病进行描述以形成文档;其中,多个方面的肝脏信息包括:肝脏形态、肝脏大小、肝脏边缘、肝脏包膜、回声、静脉、血管和流速。
(3)、对超声提示进行说明。
(4)、核查文档数据是否有误。
上述结构化数据知识图谱中的局部肝脏疾病结构化数据示例如下。
1.正常肝脏:
肝脏形态、大小正常,边缘锐利,包膜光整,表面光滑,肝左叶:上下径85mm前后径50mm,肝右叶最大斜径125mm,肝实质回声分布均匀,未见明显占位性病变,肝内管道结构清晰、门静脉未见明显扩张,CDFI:肝内血管走形正常、门静脉主干内径10mm、流速18cm/s。
超声提示:肝脏未见明显异常。
2.均匀性脂肪肝:
肝脏形态正常、大小正常,肝右叶最大斜径125mm,包膜光整,边缘锐利,实质回声细密、弥漫性增强、分布均匀、后方回声无改变,未见明显占位性病变,肝内管道结构模糊、肝静脉无变细,CDFI:肝内血管走形正常、门静脉主干内径10mm、流速18cm/。
超声提示:肝脏大小正常,,均匀性脂肪肝。
3.不均匀性脂肪肝:
肝脏形态正常、体积增大、肝右叶最大斜径142mm,包膜光整,边缘变钝,实质回声细密、弥漫性增强、分布不均匀、肝右后下叶见片状低回声区,形态不规则、肝脏后方回声衰减,肝内管道结构模糊,CDFI:肝内血管走形正常、门静脉主干内径10mm、流速18cm/s。
超声提示:肝脏增大,非均匀性脂肪肝。
4.急性肝炎:
肝脏增大、形态失常,肝右叶最大斜径145mm,包膜光整,实质回声增粗、增强、分布不均匀,实质内未见明显占位性病变,肝内管道清晰、门静脉管壁回声稍增强、增厚,门静脉主干内径11mm、流速18cm/s。
超声提示:肝脏弥漫性改变,符合急性肝炎。
当然,对于本领域技术人员而言,本发明不限于上述示范性实施例的细节,而还包括在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现的相同或类似结构。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (10)

1.一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,包括:
图像对齐子系统,用于对肝脏超声图像进行特征识别,并根据一个问题描述文本获取需要的图像特征,然后将图像特征对齐到文本空间上,进而得到能够被大语言模型识别的图像文本对齐特征;
属性分析子系统,用于对所述肝脏超声图像进行肝脏以及肝脏占位性区域目标检测,并对肝脏的占位性病变属性进行分类识别,进而得到肝脏属性分类结果;以及
大语言模型对话子系统,用于将所述问题描述文本、所述图像文本对齐特征和所述肝脏属性分类结果作为输入,利用大语言模型输出所述肝脏超声图像的诊断结果。
2.根据权利要求1所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述属性分析子系统采用YOLOV8模型进行肝脏以及肝脏占位性区域目标检测,且在对肝脏占位性病变属性进行分类识别时的分类器采用改进的网络结构,改进内容如下:
(1)获取传统分类器的主干网络即resnet18网络,按照数据传输方向,在resnet18网络的前三个残差模块之后分别加入多尺度注意力模块;其中,通过将残差模块输出的特征和经过多尺度注意力模块输出的特征进行乘积运算,得到一个含有多尺度空间注意力的融合特征;
(2)在主干网络之后增加辅助训练网络;其中,主干网络输出的融合特征经过卷积和平均池化之后,同时输入至辅助训练网络和一个多属性二分类头模块中,进而对属性分类进行训练;所述辅助训练网络具有多个分类头,分别用于检测多个肝脏占位性病变分类项目的子分类;所述多属性二分类头模块用于对肝脏多个占位性病变分类项目进行二分类。
3.根据权利要求2所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述属性分析子系统的网络结构训练方法包括以下步骤:
标注样本:获取若干个肝脏超声图像的样本,并对样本的肝脏属性进行标注;
训练检测器:将标注后的样本按照8∶2的比例划分为训练集和验证集,经过预设轮回训练次数的检测训练后保存YOLOV8模型并输出剪切的肝脏超声图像;
训练分类器:将剪切的肝脏超声图像输入至分类器,并将输入数据统一缩放至预设大小,采用所述改进的网络结构进行分类训练。
4.根据权利要求3所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述辅助训练网络采用一个组合的损失函数L(C),其表达式如下:
L(C)=a*CrossEntropyLoss+b*IBLoss
其中,CrossEntropyLoss为多分类交叉熵损失;IBLoss为类别不平衡损失;在初始的10个轮回训练次数中,a=1,b=0;在末尾的40个轮回训练次数中,a=b=0.5。
5.根据权利要求3所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述样本的肝脏属性即多个肝脏占位性病变分类项目包括:回声、形态、基底、内部回声和后方回声,各自的子分类具体如下:
回声:无回声、低回声、高回声、等回声、强回声或混合回声;
形态:规则或不规则;
基底:清晰或不清晰;
内部回声:均匀或不均匀;
后方回声:无改变、增强或伴声影。
6.根据权利要求2所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述多属性二分类头模块采用的损失函数L的表达式如下:
式中,log的底数为e;yi表示第i样本的标签,正类为1,负类为0;pi表示样本i预测为正类的概率;N表示样本个数,i≤N;Li表示第i个样本的损失值。
7.根据权利要求1所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述图像对齐子系统包括图像编码模块和图像文本对齐模块;所述图像编码模块采用Vision Transformer模型,用于识别肝脏超声图像中的图像特征;所述图像文本对齐模块采用Q-former网络结构;Q-former网络结构具有多组可学习的查询向量,并通过图像文本对进行预训练,使得查询向量学习并提取出与文本最相关的视觉表示,进而输出所述图像文本对齐特征。
8.根据权利要求7所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述图像对齐子系统的网络结构训练方法包括以下步骤:
构建肝脏超声图像文本对数据,其包含多个肝脏超声图像以及多段描述文本;
将图像编码模块参数固定,并将图片经过图像编码得到图像特征,然后把图像特征输入到所述图像文本对齐模块,对应的描述文本输入到Q-former网络结构得到文本特征;将查询向量与文本特征进行交互,计算各个图像特征和文本特征之间的相似度;
根据相似度的大小将图像文本对划分为正样本和负样本,通过自注意模块获取图像中与文本查询相关的视觉特征;
采用Causal Attention掩码来控制查询向量和文本特征的交互,该过程由查询向量提取生成文本所需的信息,以使得查询向量学习到包含文本描述的视觉特征;
经过迭代保存最优Q-former网络模型及参数。
9.根据权利要求7所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述大语言模型采用ChatGLM-6B;所述大语言模型对话子系统的网络结构训练方法包括以下步骤:
构建在医疗场景下患者和病人的对话文本数据集;
在所述大语言模型的网络结构增加LoRA结构,随后将对话文本数据输入至大语言模型中,将所述图像文本对齐模块的Q-former经过一个全连接层与所述大语言模型进行连接,只更新LoRA参数进行微调训练,保存优化后的模型。
10.根据权利要求1所述的一种基于肝脏属性分析的超声诊断智能交互系统,其特征在于,所述大语言模型对话子系统采用肝脏超声图像结构化数据知识图谱作为查询的背景知识约束,所述肝脏超声图像结构化数据知识图谱的构建过程如下:
由多位专家确定常见的肝脏超声疾病种类;
由多位超声医生根据属性分析的结构化要求,从多个方面的肝脏信息对各种肝脏超声疾病进行描述以形成文档;其中,多个方面的肝脏信息包括:肝脏形态、肝脏大小、肝脏边缘、肝脏包膜、回声、静脉、血管和流速;
对超声提示进行说明,并核查文档数据是否有误。
CN202311317130.3A 2023-10-12 2023-10-12 一种基于肝脏属性分析的超声诊断智能交互系统 Pending CN117333462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311317130.3A CN117333462A (zh) 2023-10-12 2023-10-12 一种基于肝脏属性分析的超声诊断智能交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311317130.3A CN117333462A (zh) 2023-10-12 2023-10-12 一种基于肝脏属性分析的超声诊断智能交互系统

Publications (1)

Publication Number Publication Date
CN117333462A true CN117333462A (zh) 2024-01-02

Family

ID=89276907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311317130.3A Pending CN117333462A (zh) 2023-10-12 2023-10-12 一种基于肝脏属性分析的超声诊断智能交互系统

Country Status (1)

Country Link
CN (1) CN117333462A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117852627A (zh) * 2024-03-05 2024-04-09 湘江实验室 一种预训练模型微调方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117852627A (zh) * 2024-03-05 2024-04-09 湘江实验室 一种预训练模型微调方法及系统

Similar Documents

Publication Publication Date Title
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
US20190139642A1 (en) System and methods for medical image analysis and reporting
Bilge et al. Towards zero-shot sign language recognition
Yang et al. Writing by memorizing: Hierarchical retrieval-based medical report generation
US20220188636A1 (en) Meta pseudo-labels
Alsharid et al. Captioning ultrasound images automatically
CN112530584A (zh) 一种医疗诊断辅助方法及系统
CN117333462A (zh) 一种基于肝脏属性分析的超声诊断智能交互系统
Hou et al. Automatic report generation for chest X-ray images via adversarial reinforcement learning
Alsharid et al. Gaze-assisted automatic captioning of fetal ultrasound videos using three-way multi-modal deep neural networks
Amjoud et al. Automatic generation of chest x-ray reports using a transformer-based deep learning model
Sun et al. Study on medical image report generation based on improved encoding-decoding method
Liu et al. Parameter-efficient transfer learning for medical visual question answering
Pan et al. Muvam: A multi-view attention-based model for medical visual question answering
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
Yang et al. Weakly guided hierarchical encoder-decoder network for brain ct report generation
US20220083878A1 (en) Label inference system
CN114496151A (zh) 一种基于深度学习的医疗影像报告自动生成方法
CN113658690A (zh) 一种智能导医方法、装置、存储介质以及电子设备
CN117316369B (zh) 平衡跨模态信息的胸部影像诊断报告自动生成方法
Gu et al. Automatic generation of pulmonary radiology reports with semantic tags
CN117633558A (zh) 基于视觉语言模型的多激励融合零样本病变检测方法
Tannert et al. FlowchartQA: the first large-scale benchmark for reasoning over flowcharts
Wijerathna et al. Chest x-ray caption generation with chexnet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination