CN110084297A - 一种面向小样本的影像语义对齐结构 - Google Patents
一种面向小样本的影像语义对齐结构 Download PDFInfo
- Publication number
- CN110084297A CN110084297A CN201910327483.9A CN201910327483A CN110084297A CN 110084297 A CN110084297 A CN 110084297A CN 201910327483 A CN201910327483 A CN 201910327483A CN 110084297 A CN110084297 A CN 110084297A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- small sample
- alignment structures
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明基于编码‑解码模型,公开了一种面向小样本的影像语义对齐结构,是人工智能领域下医学影像报告自动生成的辅助诊疗模型。该结构主要分为三大层次结构:预处理层、编码层和解码层。预处理层包含图像增强、图像分割、图像矩阵转换以及标签对齐;编码层主要利用卷积神经网络(Convolutional Neural Network,CNN)编码器提取图像特征;解码层主要利用长短期记忆网络(long short‑term memory,LSTM)循环网络解码文本匹配。本发明的对齐结构通过调整图像编码层中卷积网络的结构,以适应小样本图像描述的生成。
Description
技术领域
本发明涉及自然语言处理(NLP)领域和计算机视觉(CV)领域,具体涉及了一种面向小样本的影像语义对齐结构,实现了医学影像自动转化成文本报告的功能。
背景技术
在过去二十年中,自然语言处理和计算机视觉领域在分析和生成文本以及理解图像和视频方面取得了巨大的进步。虽然这两个领域都有一套类似于人工智能和机器学习的方法,但它们在历史上是分开发展的,而且它们的科学界通常只有很少的交互作用。然而,近年来对需要结合语言和视觉信息的问题兴趣激增,自动图像描述已经成为关键任务。
图像描述的生成方法抽象为抽取摘要方法,从SumBasic模型抽取摘要技术到基于查询的词分布与候选描述之间的Kullback-Leibler分歧,以及最近提出的 VisualGeometry Group卷积神经网络提取特征技术,经被证明在许多计算机视觉问题中是有效的。自15年开始,图像描述任务逐渐形成了一个编解码的主流解决方案,使用不同的卷积网提取有效的图像特征以及不同的序列处理模型生成更好的表达语句成为了技术攻坚的方向,于此同时注意力机制也在图像和文本两个部分被逐渐引入该任务。
随着智能医疗的兴起、图像描述任务的不断发展,影像的特征分析、理解以及报告文本的自动生成的研究也显得尤其重要。
发明内容
本发明的目的是:设计一种人工智能领域下医学影像报告自动生成的辅助诊疗模型,尤其适用于小样本的影像数据。
为了达到上述目的,本发明的技术方案是提供了一种面向小样本的影像语义对齐结构,其特征在于,包括数据预处理层、编码层和解码层,其中:
数据预处理层为数据前期准备阶段,对输入的影像图像和文本的数据进行预处理操作;
编码层采用CNN作为编码器将影像图编码成固定长度的向量,在CNN中提取图像特征;
解码层采用LSTM特殊形式的循环网络构建语言模型。
优选地,所述数据预处理层对图像进行的预处理操作包括常规的医学影像增强的方法,并对包含大面积背景的影像进行阈值分割减少背景区域。
优选地,所述数据预处理层对文本进行的预处理操作包括分词和报告主要含义语句的提取。
优选地,所述编码层由参数数量更少、权重更易传递的残差网络和对单通道灰度影像更为敏感的全卷积网络构成。
优选地,所述解码层每个输出时间步骤都会在序列中生成一个新词,然后每个生成的词都会使用一个词嵌入进行编码,该编码会作为输入被传递给解码器以生成后续的词。
本发明的另一个技术方案是提供了一种上述小样本影像语义对齐结构的应用,其特征在于,用于在小样本影像上的训练以及预测
本发明的有益效果是,克服了小规模数据集上参数的训练造成的欠拟合及过拟合问题,对于少参数、小样本的数据集,该对齐结构可以良好的生成对应的文本描述。此外,该模型还具有如下特点:
(1)影像报告不受医生的个人经验而产生的个人差异影响;
(2)擅长在数据中识别复杂的模式,并以自动化方式提供定量评估;
(3)对医学影像中的病灶对象及对象关系的结构学习,可以更好地构建图像语义,增加辅助诊疗模型的可解释性。
附图说明
图1为影像语义对齐结构结构图。该结构分为三大层次:数据预处理层、 CNN编码层和LSTM解码层。
图2为残差网络结构图。卷积和池化部分就是残差网络结构,对于输出层做出调整,添加一个1×256的全连接层来压缩数据维度,并进一步提高语义特征的精度,以用于后续序列预测。
图3为全卷积网络结构图。网络的输出层之后添加了一个1×1卷积来代替全连接进一步减少网络参数,并使用一个均值池化获得最终256维长度的语义向量这与残差网最后一层的全连接层等效。
图4为乳腺癌钼靶影像报告生成比较图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供的一种面向小样本的影像语义对齐结构是面向小样本的影像报告自动生成而提出的一种新的解决方案。
为了实现上述目的,本发明的技术方案如下:
(一)影像语义对齐结构的要求
影像语义对齐结构作为医疗辅助诊断下影像报告自动生成的模型,适用于少参数、小样本,需要满足如下要求:
(1)自动识别影像中的可疑实体并进行标注;
(2)基于深度学习的医学影像语义表达方法,从放射影像中获取足够的语义内容并进行良好表达;
(3)基于影像的语义特征,自动生成病变的语义描述;
(4)保证影像报告描述的准确度。
(二)影像语义对齐结构的架构
本发明的语义对齐结构的主要目标是面向小样本数据集的图像描述。因此,可以将该结构分为三个大的层次:数据预处理层,编码层和解码层。
数据预处理层是该结构的数据前期准备阶段,对影像和报告文本数据进行处理,更好的提取特征以及识别实体。
编码层是该结构的核心层,将影像图转变成固定长度的向量,在CNN中提取图像特征,利用编码解码模型,解决长度不一致的额映射问题。
解码层是该结构的语言生成层,利用LSTM网络很好的解决梯度消失或者梯度爆炸的问题,从而生成目标句子。
1、影像语义对齐结构的数据预处理层
数据预处理包含图像和文本的两个方面。图像的处理包含常规的医学影像增强的方法(限制对比度自适应直方图均衡/Contrast Limited Adaptive histgramequalization:CLAHE),并对包含大面积背景的影像进行阈值分割减少背景区域。考虑到数据量较少的问题,对图像进行了一定程度的裁剪、旋转、平移等操作来增强数据集。
报告文本的处理,主要集中在分词和报告主要含义语句的提取,参考医学相关术语添加了自定义词典和停用词表,词向量的编码过程嵌入到联合模型中进行训练获得最好的表达方式。对报告主旨句的提取工作主要利用序列模型进行词性标注和实体识别来完成。
2、影像语义对齐结构的编码层
利用U-Net简单地将编码器的特征图拼接至每个阶段解码器的上采样特征而形成一个梯形结构,简单的解决了使用卷积神经网络进行语义分割存在的扩大感受野、聚合语境而造成了位置信息的丢失的问题。除此之外,语义分割要求类别图完全贴合,因此需要保留位置信息。采用残差网络结构,在神经网的前向传播过程中,通过前向神经网络输出+shortcut连接实现。shortcut连接相当于简单执行了恒等映射,不会产生额外的参数,也不会增加计算复杂度。而且,整个网络可以依旧通过端到端的反向传播训练,使得浅层网络的特征信息得以传递到深层。最后使用一个1×256的全连接层来压缩数据维度,并进一步提高语义特征的精度,以用于后续序列预测。
3、影像语义对齐结构的解码层
RNN的序列处理往往会存在梯度消失和梯度爆炸。为了解决逆向传播过程中的这一问题,选择了在文本处理/翻译和序列处理/预测面取得了很好的成果的 LSTM的特殊形式的循环网络。初始时刻输入image-embedding的特征向量,输入序列经word-embedding后形成相应维词向量,目标序列为输入序列右移一个位置,最终被训练成一个以图像编码为条件的语言模型。
如图4所示,是根据本发明的乳腺癌钼靶影像报告生成图,图中左侧为以残差网为特征提取网络的结果,右侧为全卷积网做特征提取的结果,可以看到,参数数量较少的网络在我们的数据集上表现出了更为出色的性能,可以差异化的表达影像中的实体类别,腺体分型等信息。
Claims (6)
1.一种面向小样本的影像语义对齐结构,其特征在于,包括数据预处理层、编码层和解码层,其中:
数据预处理层为数据前期准备阶段,对输入的影像图像和文本的数据进行预处理操作;
编码层采用CNN作为编码器将影像图编码成固定长度的向量,在CNN中提取图像特征;
解码层采用LSTM特殊形式的循环网络构建语言模型。
2.如权利要求1所述的一种面向小样本的影像语义对齐结构,其特征在于,所述数据预处理层对图像进行的预处理操作包括常规的医学影像增强的方法,并对包含大面积背景的影像进行阈值分割减少背景区域。
3.如权利要求1所述的一种面向小样本的影像语义对齐结构,其特征在于,所述数据预处理层对文本进行的预处理操作包括分词和报告主要含义语句的提取。
4.如权利要求1所述的一种面向小样本的影像语义对齐结构,其特征在于,所述编码层由参数数量更少、权重更易传递的残差网络和对单通道灰度影像更为敏感的全卷积网络构成。
5.如权利要求1所述的一种面向小样本的影像语义对齐结构,其特征在于,所述解码层每个输出时间步骤都会在序列中生成一个新词,然后每个生成的词都会使用一个词嵌入进行编码,该编码会作为输入被传递给解码器以生成后续的词。
6.一种如权利要求1所述小样本影像语义对齐结构的应用,其特征在于,用于在小样本影像上的训练以及预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327483.9A CN110084297B (zh) | 2019-04-23 | 2019-04-23 | 一种面向小样本的影像语义对齐系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327483.9A CN110084297B (zh) | 2019-04-23 | 2019-04-23 | 一种面向小样本的影像语义对齐系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084297A true CN110084297A (zh) | 2019-08-02 |
CN110084297B CN110084297B (zh) | 2023-09-15 |
Family
ID=67416116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910327483.9A Active CN110084297B (zh) | 2019-04-23 | 2019-04-23 | 一种面向小样本的影像语义对齐系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084297B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145277A (zh) * | 2019-12-31 | 2020-05-12 | 山东浪潮人工智能研究院有限公司 | 一种深度语义感知与bpg压缩工具的图像压缩方法 |
CN112164446A (zh) * | 2020-10-13 | 2021-01-01 | 电子科技大学 | 一种基于多网络融合的医疗影像报告生成方法 |
CN112634255A (zh) * | 2020-12-30 | 2021-04-09 | 清华大学 | 脑部病灶检测模型的建立方法、装置以及计算机设备 |
CN113554719A (zh) * | 2020-04-24 | 2021-10-26 | 武汉Tcl集团工业研究院有限公司 | 一种图像编码方法、解码方法、存储介质及终端设备 |
CN114091507A (zh) * | 2021-09-02 | 2022-02-25 | 北京医准智能科技有限公司 | 超声病灶区域检测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846820A (zh) * | 2018-07-10 | 2018-11-20 | 深圳市唯特视科技有限公司 | 一种基于尺度递归网络的深度图像去模糊方法 |
CN109118491A (zh) * | 2018-07-30 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的图像分割方法、系统及电子设备 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109447994A (zh) * | 2018-11-05 | 2019-03-08 | 陕西师范大学 | 结合完全残差与特征融合的遥感图像分割方法 |
CN109545302A (zh) * | 2018-10-22 | 2019-03-29 | 复旦大学 | 一种基于语义的医学影像报告模板生成方法 |
CN109598728A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、诊断系统及存储介质 |
-
2019
- 2019-04-23 CN CN201910327483.9A patent/CN110084297B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846820A (zh) * | 2018-07-10 | 2018-11-20 | 深圳市唯特视科技有限公司 | 一种基于尺度递归网络的深度图像去模糊方法 |
CN109118491A (zh) * | 2018-07-30 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的图像分割方法、系统及电子设备 |
CN109545302A (zh) * | 2018-10-22 | 2019-03-29 | 复旦大学 | 一种基于语义的医学影像报告模板生成方法 |
CN109447994A (zh) * | 2018-11-05 | 2019-03-08 | 陕西师范大学 | 结合完全残差与特征融合的遥感图像分割方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109598728A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、诊断系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
BAOYU JING ET AL: "On the Automatic Generation of Medical Imaging Reports", 《ARXIV:1711.08195V3》 * |
HOO-CHANG SHIN ET AL: "Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation", 《ARXIV:1603.08486V1》 * |
IRO LAINA ET AL: "Deeper Depth Prediction with Fully Convolutional Residual Networks", 《ARXIV:1606.00373V2》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145277A (zh) * | 2019-12-31 | 2020-05-12 | 山东浪潮人工智能研究院有限公司 | 一种深度语义感知与bpg压缩工具的图像压缩方法 |
CN113554719A (zh) * | 2020-04-24 | 2021-10-26 | 武汉Tcl集团工业研究院有限公司 | 一种图像编码方法、解码方法、存储介质及终端设备 |
CN112164446A (zh) * | 2020-10-13 | 2021-01-01 | 电子科技大学 | 一种基于多网络融合的医疗影像报告生成方法 |
CN112634255A (zh) * | 2020-12-30 | 2021-04-09 | 清华大学 | 脑部病灶检测模型的建立方法、装置以及计算机设备 |
CN112634255B (zh) * | 2020-12-30 | 2022-12-02 | 清华大学 | 脑部病灶检测模型的建立方法、装置以及计算机设备 |
CN114091507A (zh) * | 2021-09-02 | 2022-02-25 | 北京医准智能科技有限公司 | 超声病灶区域检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110084297B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cihan Camgoz et al. | Subunets: End-to-end hand shape and continuous sign language recognition | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110084297A (zh) | 一种面向小样本的影像语义对齐结构 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN111243699A (zh) | 基于字词信息融合的中文电子病历实体抽取方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN112541356A (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN111767718A (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN110852089A (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
Xiu et al. | A handwritten Chinese text recognizer applying multi-level multimodal fusion network | |
CN115545041A (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN114841167A (zh) | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 | |
CN111274826B (zh) | 一种基于语义信息融合的低频词翻译方法 | |
CN113204978A (zh) | 一种机器翻译增强训练方法及系统 | |
CN113220865A (zh) | 一种文本相似词汇检索方法、系统、介质及电子设备 | |
CN111523320A (zh) | 一种基于深度学习的中文病案分词方法 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |