CN111739035A - 基于人工智能的图像处理方法、装置、设备及存储介质 - Google Patents
基于人工智能的图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111739035A CN111739035A CN202010614446.9A CN202010614446A CN111739035A CN 111739035 A CN111739035 A CN 111739035A CN 202010614446 A CN202010614446 A CN 202010614446A CN 111739035 A CN111739035 A CN 111739035A
- Authority
- CN
- China
- Prior art keywords
- model
- pixel
- image
- target
- slice image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 73
- 230000008569 process Effects 0.000 claims abstract description 58
- 238000005520 cutting process Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 40
- 241000282414 Homo sapiens Species 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 20
- 230000002093 peripheral effect Effects 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 10
- 210000001519 tissue Anatomy 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 15
- 238000000605 extraction Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000001575 pathological effect Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000003902 lesion Effects 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 2
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 210000001165 lymph node Anatomy 0.000 description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 201000002528 pancreatic cancer Diseases 0.000 description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/695—Preprocessing, e.g. image segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种基于人工智能的图像处理方法、装置、设备及存储介质,属于计算机技术领域。本申请实施例涉及到人工智能,通过切割切片图像,直接将切割得到的多个图像块输入标注模型中,由标注模型自动标注出切片图像中多边形区域的顶点位置,连接顶点位置,输出标注信息,通过标注出多边形区域的顶点位置,来确定出多边形区域,一方面,多边形区域符合目标人体组织区域连续且没有孔洞的特性,准确性更高。无需逐像素预测,能够大大减少处理的复杂度。另一方面,标注过程不依赖于人工标注的数据,大大减少了人工成本,由标注模型自动标注,能够有效提高标注速度,进而提高图像处理效率。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于人工智能的图像处理方法、装置、设备及存储介质。
背景技术
淋巴结转移常发生在许多癌症中,例如乳腺癌、结直肠癌、胰腺癌等。通常,越多癌细胞转移到淋巴结,患者的预后就越差。因而,需要通过需要对切片图像进行处理来确定淋巴结转移区域的位置,继而进行诊断和计划治疗方案。
目前,基于人工智能的图像处理方法通常是由人工对完整的病理图像进行标注,标注出目标人体组织所在区域,得到病理图像的标注信息,使用带有标注信息的病理图像训练模型。例如,需要人工标注出边界框,或者由人工进行极端点的点标注或涂鸦标注,均需要人工标注信息作为先验信息,生成对应的语义分割掩码。
深度学习算法的训练依赖大量人工标注的数据,由于完整病理图像的尺寸通常为数万像素,因此标注过程非常繁琐且耗时,人工成本很高,且一些标注方法中标注出的目标人体组织所在区域是不相交的区域,与目标人体组织所在区域为连续的且没有孔洞的特性不符,图像处理效率很低,准确度不高。
发明内容
本申请实施例提供了一种基于人工智能的图像处理方法、装置、设备及存储介质,可以提高图像处理方法的准确性和效率。所述技术方案如下:
一方面,提供了一种基于人工智能的图像处理方法,所述方法包括:
获取切片图像;
对所述切片图像进行切割,得到多个图像块;
将所述多个图像块输入标注模型中,由所述标注模型根据所述多个图像块提取所述切片图像的像素特征,根据所述像素特征,确定所述切片图像中多边形区域的多个顶点位置,连接所述多个顶点位置,输出所述切片图像的标注信息,所述多边形区域为目标人体组织所在区域。
在一种可能实现方式中,所述对所述切片图像进行切割,得到多个图像块,包括:
按照目标尺寸,对所述切片图像进行切割,得到多个所述目标尺寸的图像块。
一方面,提供了一种基于人工智能的图像处理装置,所述装置包括:
获取模块,用于获取切片图像;
切割模块,用于对所述切片图像进行切割,得到多个图像块;
处理模块,用于将所述多个图像块输入标注模型中,由所述标注模型根据所述多个图像块提取所述切片图像的像素特征,根据所述像素特征,确定所述切片图像中多边形区域的多个顶点位置,连接所述多个顶点位置,输出所述切片图像的标注信息,所述多边形区域为目标人体组织所在区域。
在一种可能实现方式中,所述像素特征为分割掩码;
所述处理模块包括编码单元和解码单元;
所述编码单元,用于根据所述多个图像块的像素值,对所述多个图像块进行编码,得到所述多个图像块的特征;
所述解码单元,用于对编码得到的特征进行解码,得到所述切片图像的分割掩码。
在一种可能实现方式中,所述提取所述切片图像的像素特征基于多个卷积层实现;
所述编码单元用于:
基于多个第一卷积层,对所述多个图像块中相邻的图像块进行卷积运算;
对运算后的第一特征进行批归一化处理;
根据模型参数中的选择参数,以所述选择参数对应的卷积核,对所述批归一化处理后的第二特征进行下采样处理,得到所述多个图像块的特征。
在一种可能实现方式中,所述解码单元用于:
基于多个第二卷积层,对所述多个图像块中相邻的图像块的特征进行卷积运算;
对运算后的第三特征进行批归一化处理;
根据模型参数中的选择参数,以所述选择参数对应的卷积核,对所述批归一化处理后的第四特征进行反卷积运算,得到所述切片图像的分割掩码。
在一种可能实现方式中,所述解码单元用于:
对于每个第二卷积层,根据所述第二卷积层对应的第一卷积层输出的特征,所述第二卷积层的前一个第二卷积层输出的特征进行解码,得到所述第二卷积层的输出,所述多个第二卷积层两两相邻;
对所述多个第二卷积层输出的特征进行连结,得到所述切片图像的分割掩码。
在一种可能实现方式中,所述处理模块包括顶点确定单元,所述顶点确定单元用于基于两层卷积长短期记忆ConvLSTM模型,对所述像素特征进行卷积运算,得到所述切片图像中多边形区域的多个顶点位置。
在一种可能实现方式中,所述顶点确定单元用于将所述像素特征输入所述两层ConvLSTM模型中,由所述两层ConvLSTM模型对多个目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述目标网格的像素特征,将所述多个目标网格的像素特征作为所述切片图像中多边形区域的多个顶点位置。
在一种可能实现方式中,所述顶点确定单元用于:
将所述像素特征输入所述两层ConvLSTM模型中,由所述两层ConvLSTM模型对第一目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述第一目标网格的像素特征,将所述目标网格的像素特征作为第一顶点位置;
基于所述ConvLSTM模型基于所述像素特征与所述第一顶点位置,对第二目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述第二目标网格的像素特征,将所述第二目标网格的像素特征作为第二顶点位置;
继续基于所述像素特征、所述第一顶点位置和所述第二顶点位置进行卷积运算和编码,直至得到所述多变形区域的多个顶点位置。
在一种可能实现方式中,所述标注模型的训练过程包括:
获取多个样本切片图像,所述样本切片图像携带有目标标注信息;
将所述多个样本切片图像输入初始标注模型中,由所述初始标注模型对所述多个样本切片图像中标注信息进行预测,得到预测标注信息;
根据所述预测标注信息以及所述目标标注信息,对所述初始标注模型的模型参数进行调整,直至符合目标条件时停止,得到所述标注模型。
在一种可能实现方式中,所述由所述初始标注模型对所述多个样本切片图像中标注信息进行预测,得到预测标注信息,包括:
由所述初始模型将所述目标标注信息中的目标前两个顶点位置确定为所述样本切片图像中的前两个顶点位置;
基于所述前两个顶点位置和所述样本切片图像,预测下一个顶点位置,得到所述预测标注信息。
在一种可能实现方式中,所述根据所述预测标注信息以及所述目标标注信息,对所述初始标注模型的模型参数进行调整,包括:
执行根据所述预测标注信息以及所述目标标注信息获取预测损失值、根据所述样本切片图像的预测像素特征和目标像素特征获取分割损失值,或获取预测像素特征和预测标注信息之间的约束损失值中的至少一项;
根据获取到的至少一项损失值,对所述初始标注模型的模型参数进行调整。
在一种可能实现方式中,所述装置还包括修正模块,所述修正模块用于:
响应于对所述切片图像的标注信息的修正操作,根据所述修正操作,修正所述切片图像的标注信息;
将所述修正后的标注信息输入所述标注模型中,由所述标注模型基于所述修正后的标注信息,对所述切片图像中多边形区域的多个顶点位置,得到标注信息。
在一种可能实现方式中,所述切割模块用于按照目标尺寸,对所述切片图像进行切割,得到多个所述目标尺寸的图像块。
一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述程序代码由所述处理器加载并执行以实现所述基于人工智能的图像处理方法所执行的操作。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现所述基于人工智能的图像处理方法所执行的操作。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的基于人工智能的图像处理方法。
本申请实施例通过切割切片图像,直接将切割得到的多个图像块输入标注模型中,由标注模型自动标注出切片图像中多边形区域的顶点位置,连接顶点位置,输出标注信息,通过标注出多边形区域的顶点位置,来确定出多边形区域,一方面,多边形区域符合目标人体组织区域连续且没有孔洞的特性,准确性更高。无需逐像素预测,能够大大减少处理的复杂度。另一方面,标注过程不依赖于人工标注的数据,大大减少了人工成本,由标注模型自动标注,能够有效提高标注速度,进而提高图像处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于人工智能的图像处理方法的实施环境;
图2是本申请实施例提供的一种标注模型训练方法的流程图;
图3是本申请实施例提供的一种基于人工智能的图像处理方法的流程图;
图4是本申请实施例提供的一种标注模型的结构示意图;
图5是本申请实施例提供的一种图像标注比较结果的示意图;
图6是本申请实施例提供的一种图像标注比较结果的示意图;
图7是本申请实施例提供的一种基于人工智能的图像处理装置的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面对本申请涉及的名词进行介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。例如,对医疗图像进行分割的技术,又例如,对医疗图像中的病灶区域进行定位的技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。例如,通过机器学习的方法,训练得到图像处理模型,由图像处理模型对医疗图像进行处理。在一个具体应用场景中,该图像处理模型可以为标注模型,对医疗图像中的目标人体组织区域(比如病灶区域)进行标注。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术,具体涉及到智能医疗领域,通过如下实施例对方法的实施环境和具体实施方式进行说明。
图1是本申请实施例提供的一种基于人工智能的图像处理方法的实施环境,参见图1,该实施环境中可以包括计算机设备101和数据库102。其中,该计算机设备101可以通过有线连接方式与数据库102实现数据交互,也可以通过无线网络连接方式与数据库102实现数据交互,本申请实施例对此不作限定。
在本申请实施例中,计算机设备101可以用于对切片图像进行处理,在一种可能实现方式中,该切片图像可以是医学图像,也即是人体组织图像,则本申请实施例所提供的基于人工智能的图像处理方法可以应用于对目标人体组织进行定位,例如,定位乳腺癌、结直肠癌、胰腺癌等癌细胞转移到淋巴结的转移区域,当然也可以是对其他目标人体组织进行定位,本申请实施例对此不作限定。该基于人工智能的图像处理方法也可以应用于其他图像中区域的定位场景中,例如,风景图像中目标的定位场景。
该数据库102中可以存储有切片图像,计算机设备101可以从该数据库102中提取切片图像,对该切片图像进行处理。当然,该计算机设备101对切片图像处理后,还可以将处理后携带有标注信息的切片图像发送至该数据库102,以进行存储。
具体地,该计算机设备101可以被提供为终端,也可以被提供为服务器,本申请实施例对此不作限定。
图2是本申请实施例提供的一种基于人工智能的图像处理方法的流程图,该基于人工智能的图像处理方法可以应用于计算机设备中,该计算机设备可以为上述实施环境中的计算机设备101,也可以是其他计算机设备。也即是,可以在上述计算机设备101上训练得到标注模型,也可以在其他计算机设备上训练得到标注模型后,将该标注模型处理为配置文件,将该配置文件发送至计算机设备101,则该计算机设备101中即存储有标注模型。当然,也可以由计算机设备101在有标注需求时,调用其它计算机设备上训练得到的标注模型,本申请实施例对此不作限定。参见图2,该方法可以包括以下步骤:
201、计算机设备获取切片图像。
其中,该切片图像可以为病理切片的图像。该切片图像可以为将传统的玻璃病理切片通过全自动显微镜或光学放大系统扫描采集得到的数字图像,该数字图像可以为大尺寸高分辨的图像。该切片图像中的人体组织可以为肝部、脑部、肺部等部位,当然还可以为其他人体组织,在此仅提供了一种示例性说明,而不对该切片图像的具体种类进行限定。
在本申请实施例中,计算机设备可以通过标注模型对切片图像进行处理,标注出切片图像中目标人体组织区域的位置,在一种可能实现方式中,该目标人体组织区域可以称为病灶区域,为机体上发生病变的部分所在区域,也即是一个局限的、具有病原微生物的病变组织所在区域。例如,乳腺癌细胞所在区域。
202、计算机设备对该切片图像进行切割,得到多个图像块。
计算机设备可以对切片图像进行切割,将切割好的图像块作为标注模型的输入,该切割好的图像块无需由人工标注,而能够直接被输入标注模型中进行标注。
完整的切片图像一般包括数万像素,如果由人工对整个切片图像进行标注,工作量会很大,且较为繁琐。在本申请实施例中,将其切割后输入标注模型中,能够根据图像块进行预测,无需逐像素进行预测,能够大大减少预测的复杂度,提高处理效率。
203、计算机设备将该多个图像块输入标注模型中,由该标注模型根据该多个图像块提取该切片图像的像素特征,根据该像素特征,确定该切片图像中多边形区域的多个顶点位置,连接该多个顶点位置,输出该切片图像的标注信息,该多边形区域为目标人体组织所在区域。
计算机设备将该多个图像块输入标注模型,该标注模型能够根据多个图像块来预测目标人体组织所在区域的顶点位置,其中,将该目标人体组织所在区域为多边形区域,采用多边形来标注切片图像,能够保证标注得到的区域连续且没有孔洞,相较于逐像素预测的方式,准确性更高。
该标注模型可以为训练好的模型,该标注模型能够基于携带有目标标注信息的样本切片图像进行训练得到。
本申请实施例通过切割切片图像,直接将切割得到的多个图像块输入标注模型中,由标注模型自动标注出切片图像中多边形区域的顶点位置,连接顶点位置,输出标注信息,通过标注出多边形区域的顶点位置,来确定出多边形区域,一方面,多边形区域符合目标人体组织区域连续且没有孔洞的特性,准确性更高。无需逐像素预测,能够大大减少处理的复杂度。另一方面,标注过程不依赖于人工标注的数据,大大减少了人工成本,由标注模型自动标注,能够有效提高标注速度,进而提高图像处理效率。
图3是本申请实施例提供的一种基于人工智能的图像处理方法的流程图,参见图3,该方法可以包括:
301、计算机设备获取切片图像。
在一种可能实现方式中,该切片图像可以存储于图像数据库中,计算机设备可以从图像数据库中提取切片图像。在另一种可能实现方式中,该切片图像可以由该计算机设备或其他计算机设备采集得到,进而由该计算机设备对该切片图像进行处理。该切片图像的数量可以为一个,也可以为多个,本申请实施例对此不作限定
302、计算机设备对该切片图像进行切割,得到多个图像块。
计算机设备将切片图像切割为尺寸更小的图像块,无需对整个切片图像逐像素预测,能够减少预测复杂度。
在一种可能实现方式中,计算机设备可以将切片图像切割为相同尺寸的图像块,该多个图像块的尺寸相同。具体地,计算机设备可以按照目标尺寸,对该切片图像进行切割,得到多个该目标尺寸的图像块。这样图像块的尺寸相同,对图像块进行处理时的处理方式可以相同,从而能够降低计算机设备的计算难度,提高处理效率。
其中,该目标尺寸可以由相关技术人员根据需求进行设置,本申请实施例对此不作限定。
303、计算机设备将该多个图像块输入标注模型。
该标注模型可以为训练好的模型,其训练过程可以通过下述步骤一至步骤三实现,该训练过程可以在该计算机设备上进行,也可以在其他计算机设备上进行,本申请实施例对此不作限定。
步骤一、获取多个样本切片图像,该样本切片图像携带有目标标注信息。
该多个样本切片图像可以存储于图像数据库中,计算机设备可以从图像数据库中提取样本切片图像进行模型训练。
其中,该目标标注信息用于指示该样本切片图像的真实标注情况。根据该目标标注信息能够确定模型预测的标注信息的准确性,进而来确定是否需要对模型参数进行调整,来提高模型的预测准确性。
步骤二、将该多个样本切片图像输入初始标注模型中,由该初始标注模型对该多个样本切片图像中标注信息进行预测,得到预测标注信息。
该初始标注模型的模型参数为初始值,计算机设备可以将该多个样本切片图像作为训练样本和验证样本,对初始标注模型进行训练,也即是通过样本切片图像对初始标注模型的模型参数进行调整,以使得多次调整后的模型参数能够在对切片图像进行准确预测,输出准确性更好的标注信息。
具体地,计算机设备将该多个样本切片图像输入初始标注模型中,可以由初始标注模型对每个样本切片图像进行预测,基于预测结果以及目标标注信息,来确定初始标注模型的预测能力,从而可以通过调整该初始标注模型的模型参数,以不断提高初始标注模型的预测能力,以使得后续训练得到的标注模型能够准确标注。
步骤三、根据该预测标注信息以及该目标标注信息,对该初始标注模型的模型参数进行调整,直至符合目标条件时停止,得到该标注模型。
根据该预测标注信息以及该目标标注信息,能够获取该预测标注信息的准确度,根据该准确度来调整模型参数。其中,该目标条件可以为该准确度收敛,或者迭代次数达到目标次数等,本申请实施例对此不作限定。
在一种可能实现方式中,该初始标注模型对样本切片图像的处理过程可以如下:初始标注模型根据该多个图像块提取该样本切片图像的像素特征,根据该像素特征,确定该样本切片图像中多边形区域的多个顶点位置,连接该多个顶点位置,输出该样本切片图像的预测标注信息。该多边形区域为目标人体组织所在区域。
在一种可能实现方式中,该初始标注模型和标注模型的结构中可以包括特征提取模块和预测模块。其中,该特征提取模块用于执行特征提取步骤,该预测模块用于执行预测步骤。例如,该初始标注模型和标注模型的结构可以如图4所示,可以将特征提取模块称为Pi-Net模块,将预测模块称为Po-Net模块。
在一种可能实现方式中,该像素特征可以为分割掩码,该Pi-Net模块用来为输入图像生成像素级分割掩码。该Pi-Net模块可以执行编码过程和解码过程,来生成分割掩码。则上述像素特征的获取过程可以为:计算机设备根据该多个图像块的像素值,对该多个图像块进行编码,得到该多个图像块的特征,对编码得到的特征进行解码,得到该样本切片图像的分割掩码(也即是样本切片图像的像素特征)。
在一个具体的可能实施例中,该Pi-Net模块可以由编码器和解码器组成。编码器用于执行上述编码过程,解码器用于执行解码过程。
在一种可能实现方式中,上述编码和解码过程均可以基于多个卷积层实现,编码器的多个卷积层在此称为第一卷积层,解码器的多个卷积层在此称为第二卷积层。
相应地,上述编码过程可以为:计算机设备可以基于多个第一卷积层,对该多个图像块中相邻的图像块进行卷积运算,对运算后的第一特征进行批归一化处理,根据模型参数中的选择参数,以该选择参数对应的卷积核,对该批归一化处理后的第二特征进行下采样处理,得到该多个图像块的特征。
解码过程可以为:计算机设备可以基于多个第二卷积层,对该多个图像块中相邻的图像块的特征进行卷积运算,对运算后的第三特征进行批归一化处理;根据模型参数中的选择参数,以该选择参数对应的卷积核,对该批归一化处理后的第四特征进行反卷积运算,得到该样本切片图像的分割掩码。
需要说明的是,上述编码器的低层能够提取样本切片图像的低级特征(例如纹理,边缘等),编码器的高层能够提取图像的高级特征(例如形状等)。解码器用于将提取的特征进行反卷积操作以恢复出与原输入大小相同的分割掩码(也即是像素特征)。
对于上述编码过程,在相邻块之间引入“卷积->批归一化->核选择模块->下采样”操作,以将特征图的尺寸减半并将特征通道的数量加倍,对于解码过程,在相邻块之间引入“卷积->批归一化->核选择模块->反卷积”运算,以将特征图的尺寸加倍并将特征通道的数量减半,也即实现了恢复与原输入大小相同的分割掩码的过程。
其中,核选择模块的参数也即是该选择参数,该选择参数用于选择不同的卷积核。该选择参数能够在模型训练过程中通过学习得到,也即是上述步骤三中,对模型参数进行调整时,该选择参数也可以被调整,从而在模型训练过程中动态学习选择合适的卷积核进行预测,提高模型的特征提取能力,进而提高标注能力。该学习过程能够动态地学习不同卷积核(例如3×3、5×5、7×7)的特征表示,极大地丰富了感受野,有利于模型更好地提取特征。
在一种可能实现方式中,编码过程与解码过程之间可以建立跳跃连接,也即是第一卷积层和第二卷积层之间可以建立有跳跃连接,每个第二卷积层对前一个第二卷积层的输出进行处理时,还可以结合第一卷积层(编码时采用的卷积层)的输出结果,保证图像的细节信息能够更好地传递到编码环节,更有效地定位多边形区域(也可以称之为感兴趣区域)。
具体地,该解码过程中,对于每个第二卷积层,计算机设备根据该第二卷积层对应的第一卷积层输出的特征,该第二卷积层的前一个第二卷积层输出的特征进行解码,得到该第二卷积层的输出,该多个第二卷积层两两相邻,对该多个第二卷积层输出的特征进行连结,得到该样本切片图像的分割掩码。
对于Po-Net模块,该Po-Net模块可以为两层卷积长短期记忆(ConvolutionalLong Short-Term Memory,ConvLSTM)模型。具体地,计算机设备可以基于两层卷积长短期记忆ConvLSTM模型,对该像素特征进行卷积运算,得到该切片图像中多边形区域的多个顶点位置。
其中,长短期记忆(LSTM,Long Short-Term Memory)模型是一种时间循环神经网络,适用于解决一般的RNN(Recurrent Neural Network,循环神经网络)存在的长期依赖问题,能够对序列进行有效处理,上述多个图像块即为图像块序列,通过循环预测,将顶点位置一个个地预测出来,得到最终的标注信息。相比LSTM,ConvLSTM用卷积运算代替了矩阵乘法,这样能显著地减小训练参数,提高运行效率。
具体地,可以使用目标网格对应顶点,将目标网格的像素特征作为顶点位置。则上述预测过程中,可以将该像素特征输入该两层ConvLSTM模型中,由该两层ConvLSTM模型对多个目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该目标网格的像素特征,将该多个目标网格的像素特征作为该切片图像中多边形区域的多个顶点位置。
该目标网格的设定可以由相关技术人员根据需求进行设置,本申请实施例对此不作限定。对卷积运算结果进行编码时,可以采用任一种编码方式,在此以one-hot(独热)编码为例进行说明。例如,上述每个ConvLSTM步骤的输出为一个28×28大小的网格,进而通过独热编码,让某个网格单元对应多边形区域的一个顶点的空间位置(也即是顶点位置)。
具体地,该两层ConvLSTM模型具体可以通过下述过程实现预测过程,通过多次预测,一个个地预测出各个顶点位置。计算机设备可以将该像素特征输入该两层ConvLSTM模型中,由该两层ConvLSTM模型对第一目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该第一目标网格的像素特征,将该目标网格的像素特征作为第一顶点位置。计算机设备可以基于该ConvLSTM模型基于该像素特征与该第一顶点位置,对第二目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该第二目标网格的像素特征,将该第二目标网格的像素特征作为第二顶点位置。计算机设备继续基于该像素特征、该第一顶点位置和该第二顶点位置进行卷积运算和编码,直至得到该多变形区域的多个顶点位置。
例如,如图4所示,Po-Net在步骤t的输入可以包括三个部分:Pi-Net输出的连结特征图(提取到的像素特征),预测顶点y(t-1)、y(t-2)和初始顶点y0。
在一种可能实现方式中,在模型训练时,对于基于前两个顶点位置预测下一个顶点位置时,可以采用目标标注信息中的前两个顶点位置来预测该下一个顶点位置,从而根据真实的标注信息来指导预测,能够提高预测模块对金标准标注敏感,具体地,可以由该初始模型将该目标标注信息中的目标前两个顶点位置确定为该样本切片图像中的前两个顶点位置,基于该前两个顶点位置和该样本切片图像,预测下一个顶点位置,得到该预测标注信息。
例如,如图4所示,对于步骤t的预测,前两个顶点位置y(t-1)和y(t-2))采用了真实的多边形标注,而非预测的标注,来预测下一个顶点位置y(t),使ConvLSTM对金标准标注敏感。在模型的推理过程中,每个ConvLSTM步骤生成多边形标注的一个顶点,通过依次连接这些顶点,可以获得最终标注结果。
在一种可能实现方式中,上述训练过程中可以通过一种或多种损失值来衡量预测过程的准确度,具体地,该损失值可以为预测损失值、分割损失值或榆树损失值中的至少一项。
因而,上述步骤三中,计算机设备可以执行根据该预测标注信息以及该目标标注信息获取预测损失值、根据该样本切片图像的预测像素特征和目标像素特征获取分割损失值,或获取预测像素特征和预测标注信息之间的约束损失值中的至少一项,然后根据获取到的至少一项损失值,对该初始标注模型的模型参数进行调整。
其中,pi表示像素i被归类为多边形区域的概率,qi∈{0,1}指对应的像素的目标标注信息(真实分割掩码),ε是很小的正数,用于提高数值稳定性。∑为累加函数或求和函数。
该公式一中,可以由二值交叉熵损失函数与Dice(骰子)损失函数组成。这样在将对病灶区域定位过程视为顶点预测的过程时,也能考虑到面积约束,即真实的分割掩码与预测的多边形之间的并交比(Intersection Over Union,IoU)。该包含Dice损失函数,优化可以帮助改善并交比,从而提高标注质量。
对于预测损失值用来衡量预测的多边形和真实的多边形之间的差异。每个预测的多边形顶点在每个ConvLSTM步骤都是独热编码,该顶点预测过程可以视为分类任务,用于分类像素是否为目标人体组织,也即是是否为多边形区域内的点。下面通过公式二,采用二值交叉熵损失来优化
Lpo=-∑tntlog(mt), 公式二
其中,mt表示多边形顶点在步骤t处的预测位置,nt是该顶点的真实位置。
对于约束损失函数LCons,LCons用来约束Pi-Net和Po-Net的输出结果,它可以通过下述公式三计算得到。
LCons=-∑c|xc-yc|, 公式三
其中,xc表示Pi-Net生成的某像素点是多边形区域的概率,yc=1,表示像素点c在Po-Net生成的多边形标注框所围区域的内部,也即是在多边形区域内。该公式三中,采用L1损失使两个模块的输出保持一致,从而使两者能够互相辅助来学习特征,进一步提高标注的准确性。
304、计算机设备基于标注模型,根据该多个图像块提取该切片图像的像素特征。
该步骤304与上述步骤303所示的特征提取过程同理,该标注模型可以包括特征提取模块和预测模块,其中,该特征提取模块用于执行该步骤304,该预测模块用于执行下述步骤305,两个模块执行的步骤与上述模型训练过程中同理的特征提取步骤,对多个图像块进行处理,在此仅做简单说明,不再过多赘述。
在一种可能实现方式中,该像素特征可以为分割掩码,该步骤304相应可以为:计算机设备根据该多个图像块的像素值,对该多个图像块进行编码,得到该多个图像块的特征,对编码得到的特征进行解码,得到该切片图像的分割掩码。
上述编码和解码过程均可以基于多个卷积层实现,编码过程可以为:计算机设备可以基于多个第一卷积层,对该多个图像块中相邻的图像块进行卷积运算,对运算后的第一特征进行批归一化处理,根据模型参数中的选择参数,以该选择参数对应的卷积核,对该批归一化处理后的第二特征进行下采样处理,得到该多个图像块的特征。
相应地,解码过程可以为计算机设备可以基于多个第二卷积层,对该多个图像块中相邻的图像块的特征进行卷积运算,对运算后的第三特征进行批归一化处理;根据模型参数中的选择参数,以该选择参数对应的卷积核,对该批归一化处理后的第四特征进行反卷积运算,得到该切片图像的分割掩码。
在一种可能实现方式中,编码过程与解码过程之间可以建立跳跃连接,也即是第一卷积层和第二卷积层之间可以建立有跳跃连接,每个第二卷积层对前一个第二卷积层的输出进行处理时,还可以结合第一卷积层(编码时采用的卷积层)的输出结果,保证图像的细节信息能够更好地传递到编码环节,更有效地定位多边形区域(也可以称之为感兴趣区域)。
具体地,该解码过程中,对于每个第二卷积层,计算机设备根据该第二卷积层对应的第一卷积层输出的特征,该第二卷积层的前一个第二卷积层输出的特征进行解码,得到该第二卷积层的输出,该多个第二卷积层两两相邻,对该多个第二卷积层输出的特征进行连结,得到该切片图像的分割掩码。
305、计算机设备基于标注模型,根据该像素特征,确定该切片图像中多边形区域的多个顶点位置,该多边形区域为目标人体组织所在区域。
计算机设备提取到像素特征后,可以对顶点位置进行预测,获知顶点位置后,连接顶点位置即可确定该多边形区域。
在一种可能实现方式中,该预测过程可以由两层卷积长短期记忆(ConvolutionalLong Short-Term Memory,ConvLSTM)模型实现。具体地,计算机设备可以基于两层卷积长短期记忆ConvLSTM模型,对该像素特征进行卷积运算,得到该切片图像中多边形区域的多个顶点位置。
具体地,可以使用目标网格对应顶点,将目标网格的像素特征作为顶点位置。则上述预测过程中,可以将该像素特征输入该两层ConvLSTM模型中,由该两层ConvLSTM模型对多个目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该目标网格的像素特征,将该多个目标网格的像素特征作为该切片图像中多边形区域的多个顶点位置。
具体地,该两层ConvLSTM模型具体可以通过下述过程实现预测过程。计算机设备可以将该像素特征输入该两层ConvLSTM模型中,由该两层ConvLSTM模型对第一目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该第一目标网格的像素特征,将该目标网格的像素特征作为第一顶点位置。计算机设备可以基于该ConvLSTM模型基于该像素特征与该第一顶点位置,对第二目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该第二目标网格的像素特征,将该第二目标网格的像素特征作为第二顶点位置。计算机设备继续基于该像素特征、该第一顶点位置和该第二顶点位置进行卷积运算和编码,直至得到该多变形区域的多个顶点位置。
该步骤305与上述步骤303中模型训练过程中的预测步骤同理,在此不多做赘述。
306、计算机设备基于标注模型,连接该多个顶点位置,输出该切片图像的标注信息。
该步骤306与上述步骤303中所示的模型训练过程中对应的连接并输出的步骤同理,在此不多做赘述。
在一种可能实现方式中,该计算机设备还可以显示该切片图像的标注信息,如果用户觉得标注信息不够准确,想要对其进行修正时,可以对该标注信息进行修正操作。计算机设备检测到该修正操作,可以响应于对该切片图像的标注信息的修正操作,根据该修正操作,修正该切片图像的标注信息。计算机设备还可以修正后的标注信息重新输入标注模型中,由标注模型重新进行标注,得到准确度更高的标注信息。具体地,计算机设备可以将该修正后的标注信息输入该标注模型中,由该标注模型基于该修正后的标注信息,对该切片图像中多边形区域的多个顶点位置,得到标注信息。
计算机设备将标注过程视为多边形的顶点预测任务。多边形通常由一系列依次连接的顶点组成,其预测复杂度比逐像素掩码预测的复杂度低得多。因此,预测多边形区域(例如癌症转移区域)的边界多边形更容易,引进噪声的风险也将降低。此外,基于多边形的预测使人机交互成为可能,具体来说,如果生成的多边形不正确或边缘自相交,那么人工标注者可轻易调整多边形的顶点(即将预测不正确的顶点拖动到正确的位置)。进而新的人工校正的多边形可输入到算法中以进行新的迭代,直到获得较好的标注结果为止。
下面通过一个具体测试示例,对本申请提供的标注模型与现有的polygon-RNN(多边形-RNN)进行比较,具体如下:
采用Camelyon16数据集来测试上述标注模型和polygon-RNN,Camelyon16为一种数据集,该数据集包括158张病理切片(也即是切片图像),其中训练集、验证集和测试集分别为110,24,24张。所有切片(也即是切片图像)在10倍放大倍率下裁剪成224×224(也即是目标尺寸)的小图(也即是图像块),用作模型的输入。为了减少数据不平衡的问题,可以随机从病理切片中抽样1000张小图,如果其切割成的小图数量多于1000张,则仅保留只包含一个实例的小图。
在该示例中,在评估两个模型性能时采用的评估指标是灵敏度(Sensitivity),精度(Precision),Dice值(Dice Score)和并交比值(IoU Score)。在所有实验中,训练模型采用的批量大小为8,使用Adam优化器进行模型训练,初始学习率设置为1e-4,并在10个训练周期后降低10倍,该训练过程可以包括20个训练周期。上述两种模型均可以基于PyTorch框架实现,其配置环境可以采用24GB内存的NVIDIA Tesla P40 GPU卡。在此仅为一种示例性说明,并不对上述模型训练和配置情况造成限定。两种模型的算法以及本申请提供的多种结合算法的性能比较结果如表1所示。
表1
Polygon-RNN(第一行)采用VGG-16(Visual Geometry Group-16,视觉几何组-16)作为特征提取器。SkmUNet表示嵌入核选择模块(SKM)的UNet。UNet为一种深度学习分割网络。skm:一种基于模式结构和已有匹配知识的模式匹配模型,在此称之为核选择模块。本申请提供方案的Dice值和IoU值的显著提高,我们提供的特征提取模块能够更有效地提取特征,提高模型性能。的目的是衡量预测的多边形顶点与真实顶点标签之间的差异,因此的优化仅考虑多边形的轮廓/边界,而忽略了多边形内部区域的信息。基于此,被引进旨在提供更多的监督信息(比较模型2和3)。实现逐像素分割任务,实现基于多边形的标注任务。两者彼此协作,联合优化,可使特征提取模块能够学习两个任务共享的特征。如果整个网络仅使用进行训练,那么可能会导致过度拟合。
引入LCons目的使两个任务的输出保持一致(比较模型3和4),因为理想情况下,Pi-Net的预测结果应该与Po-Net的预测的结果相同。最小化LCons使两个任务相互约束,Pi-Net可以辅助Po-Net预测,从而提高标注结果的准确度。在将本申请提供的方法与像素分割方法(即Pi-Net)进行了比较,评估结果为:Dice值0.89,IoU值0.84。与这种纯逐像素分割方法相比,本申请提供的模型将Dice和IoU值提高了2.25%和2.38%,能够实现高质量的初始标注结果。
如图5所示,提供多种算法对图像进行处理后的标注信息的比较结果。如图6所示,本申请提供的方法生成的标注结果有时比病理学家标记的更准确。本申请提出的方法可以节省的大量标注成本。
本申请实施例通过切割切片图像,直接将切割得到的多个图像块输入标注模型中,由标注模型自动标注出切片图像中多边形区域的顶点位置,连接顶点位置,输出标注信息,通过标注出多边形区域的顶点位置,来确定出多边形区域,一方面,多边形区域符合目标人体组织区域连续且没有孔洞的特性,准确性更高。无需逐像素预测,能够大大减少处理的复杂度。另一方面,标注过程不依赖于人工标注的数据,大大减少了人工成本,由标注模型自动标注,能够有效提高标注速度,进而提高图像处理效率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图7是本申请实施例提供的一种基于人工智能的图像处理装置的结构示意图,参见图7,该装置包括:
获取模块701,用于获取切片图像;
切割模块702,用于对该切片图像进行切割,得到多个图像块;
处理模块703,用于将该多个图像块输入标注模型中,由该标注模型根据该多个图像块提取该切片图像的像素特征,根据该像素特征,确定该切片图像中多边形区域的多个顶点位置,连接该多个顶点位置,输出该切片图像的标注信息,该多边形区域为目标人体组织所在区域。
在一种可能实现方式中,该像素特征为分割掩码;
该处理模块703包括编码单元和解码单元;
该编码单元,用于根据该多个图像块的像素值,对该多个图像块进行编码,得到该多个图像块的特征;
该解码单元,用于对编码得到的特征进行解码,得到该切片图像的分割掩码。
在一种可能实现方式中,该提取该切片图像的像素特征基于多个卷积层实现;
该编码单元用于:
基于多个第一卷积层,对该多个图像块中相邻的图像块进行卷积运算;
对运算后的第一特征进行批归一化处理;
根据模型参数中的选择参数,以该选择参数对应的卷积核,对该批归一化处理后的第二特征进行下采样处理,得到该多个图像块的特征。
在一种可能实现方式中,该解码单元用于:
基于多个第二卷积层,对该多个图像块中相邻的图像块的特征进行卷积运算;
对运算后的第三特征进行批归一化处理;
根据模型参数中的选择参数,以该选择参数对应的卷积核,对该批归一化处理后的第四特征进行反卷积运算,得到该切片图像的分割掩码。
在一种可能实现方式中,该解码单元用于:
对于每个第二卷积层,根据该第二卷积层对应的第一卷积层输出的特征,该第二卷积层的前一个第二卷积层输出的特征进行解码,得到该第二卷积层的输出,该多个第二卷积层两两相邻;
对该多个第二卷积层输出的特征进行连结,得到该切片图像的分割掩码。
在一种可能实现方式中,该处理模块703包括顶点确定单元,该顶点确定单元用于基于两层卷积长短期记忆ConvLSTM模型,对该像素特征进行卷积运算,得到该切片图像中多边形区域的多个顶点位置。
在一种可能实现方式中,该顶点确定单元用于将该像素特征输入该两层ConvLSTM模型中,由该两层ConvLSTM模型对多个目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该目标网格的像素特征,将该多个目标网格的像素特征作为该切片图像中多边形区域的多个顶点位置。
在一种可能实现方式中,该顶点确定单元用于:
将该像素特征输入该两层ConvLSTM模型中,由该两层ConvLSTM模型对第一目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该第一目标网格的像素特征,将该目标网格的像素特征作为第一顶点位置;
基于该ConvLSTM模型基于该像素特征与该第一顶点位置,对第二目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到该第二目标网格的像素特征,将该第二目标网格的像素特征作为第二顶点位置;
继续基于该像素特征、该第一顶点位置和该第二顶点位置进行卷积运算和编码,直至得到该多变形区域的多个顶点位置。
在一种可能实现方式中,该标注模型的训练过程包括:
获取多个样本切片图像,该样本切片图像携带有目标标注信息;
将该多个样本切片图像输入初始标注模型中,由该初始标注模型对该多个样本切片图像中标注信息进行预测,得到预测标注信息;
根据该预测标注信息以及该目标标注信息,对该初始标注模型的模型参数进行调整,直至符合目标条件时停止,得到该标注模型。
在一种可能实现方式中,该由该初始标注模型对该多个样本切片图像中标注信息进行预测,得到预测标注信息,包括:
由该初始模型将该目标标注信息中的目标前两个顶点位置确定为该样本切片图像中的前两个顶点位置;
基于该前两个顶点位置和该样本切片图像,预测下一个顶点位置,得到该预测标注信息。
在一种可能实现方式中,该根据该预测标注信息以及该目标标注信息,对该初始标注模型的模型参数进行调整,包括:
执行根据该预测标注信息以及该目标标注信息获取预测损失值、根据该样本切片图像的预测像素特征和目标像素特征获取分割损失值,或获取预测像素特征和预测标注信息之间的约束损失值中的至少一项;
根据获取到的至少一项损失值,对该初始标注模型的模型参数进行调整。
在一种可能实现方式中,该装置还包括修正模块,该修正模块用于:
响应于对该切片图像的标注信息的修正操作,根据该修正操作,修正该切片图像的标注信息;
将该修正后的标注信息输入该标注模型中,由该标注模型基于该修正后的标注信息,对该切片图像中多边形区域的多个顶点位置,得到标注信息。
在一种可能实现方式中,该切割模块702用于按照目标尺寸,对该切片图像进行切割,得到多个该目标尺寸的图像块。
本申请实施例提供的装置,通过切割切片图像,直接将切割得到的多个图像块输入标注模型中,由标注模型自动标注出切片图像中多边形区域的顶点位置,连接顶点位置,输出标注信息,通过标注出多边形区域的顶点位置,来确定出多边形区域,一方面,多边形区域符合目标人体组织区域连续且没有孔洞的特性,准确性更高。无需逐像素预测,能够大大减少处理的复杂度。另一方面,标注过程不依赖于人工标注的数据,大大减少了人工成本,由标注模型自动标注,能够有效提高标注速度,进而提高图像处理效率。
需要说明的是:上述实施例提供的基于人工智能的图像处理装置在处理图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于人工智能的图像处理装置与基于人工智能的图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述计算机设备可以被提供为下述图8所示的终端,也可以被提供为下述图9所示的服务器,本申请实施例对此不作限定。
图8是本申请实施例提供的一种终端的结构示意图。该终端800可以是:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器801所执行以实现本申请中方法实施例提供的基于人工智能的图像处理方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时,由处理器801根据用户对触摸显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)901和一个或一个以上的存储器902,其中,该存储器902中存储有至少一条程序代码,该至少一条程序代码由该处理器901加载并执行以实现上述每个方法实施例提供的基于人工智能的图像处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的基于人工智能的图像处理方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例中各种可选实现方式中提供的基于人工智能的图像处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种基于人工智能的图像处理方法,其特征在于,所述方法包括:
获取切片图像;
对所述切片图像进行切割,得到多个图像块;
将所述多个图像块输入标注模型中,由所述标注模型根据所述多个图像块提取所述切片图像的像素特征,根据所述像素特征,确定所述切片图像中多边形区域的多个顶点位置,连接所述多个顶点位置,输出所述切片图像的标注信息,所述多边形区域为目标人体组织所在区域。
2.根据权利要求1所述的方法,其特征在于,所述像素特征为分割掩码;
所述根据所述多个图像块提取所述切片图像的像素特征,包括:
根据所述多个图像块的像素值,对所述多个图像块进行编码,得到所述多个图像块的特征;
对编码得到的特征进行解码,得到所述切片图像的分割掩码。
3.根据权利要求2所述的方法,其特征在于,所述提取所述切片图像的像素特征基于多个卷积层实现;
所述根据所述多个图像块的像素值,对所述多个图像块进行编码,得到所述多个图像块的特征,包括:
基于多个第一卷积层,对所述多个图像块中相邻的图像块进行卷积运算;
对运算后的第一特征进行批归一化处理;
根据模型参数中的选择参数,以所述选择参数对应的卷积核,对所述批归一化处理后的第二特征进行下采样处理,得到所述多个图像块的特征。
4.根据权利要求3所述的方法,其特征在于,所述对编码得到的特征进行解码,得到所述切片图像的分割掩码,包括:
基于多个第二卷积层,对所述多个图像块中相邻的图像块的特征进行卷积运算;
对运算后的第三特征进行批归一化处理;
根据模型参数中的选择参数,以所述选择参数对应的卷积核,对所述批归一化处理后的第四特征进行反卷积运算,得到所述切片图像的分割掩码。
5.根据权利要求3所述的方法,其特征在于,所述对编码得到的特征进行解码,得到所述切片图像的分割掩码,包括:
对于每个第二卷积层,根据所述第二卷积层对应的第一卷积层输出的特征,所述第二卷积层的前一个第二卷积层输出的特征进行解码,得到所述第二卷积层的输出,所述多个第二卷积层两两相邻;
对所述多个第二卷积层输出的特征进行连结,得到所述切片图像的分割掩码。
6.根据权利要求1所述的方法,其特征在于,所述根据所述像素特征,确定所述切片图像中多边形区域的多个顶点位置,连接所述多个顶点位置,输出所述切片图像的标注信息,包括:
基于两层卷积长短期记忆ConvLSTM模型,对所述像素特征进行卷积运算,得到所述切片图像中多边形区域的多个顶点位置。
7.根据权利要求6所述的方法,其特征在于,所述基于两层卷积长短期记忆ConvLSTM模型,对所述像素特征进行卷积运算,得到所述切片图像中多边形区域的多个顶点位置,包括:
将所述像素特征输入所述两层ConvLSTM模型中,由所述两层ConvLSTM模型对多个目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述目标网格的像素特征,将所述多个目标网格的像素特征作为所述切片图像中多边形区域的多个顶点位置。
8.根据权利要求7所述的方法,其特征在于,所述将所述像素特征输入所述两层ConvLSTM模型中,由所述两层ConvLSTM模型对多个目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述目标网格的像素特征,将所述多个目标网格的像素特征作为所述切片图像中多边形区域的多个顶点位置,包括:
将所述像素特征输入所述两层ConvLSTM模型中,由所述两层ConvLSTM模型对第一目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述第一目标网格的像素特征,将所述目标网格的像素特征作为第一顶点位置;
基于所述ConvLSTM模型基于所述像素特征与所述第一顶点位置,对第二目标网格的周围网格的像素特征进行卷积运算,对卷积运算结果进行编码,得到所述第二目标网格的像素特征,将所述第二目标网格的像素特征作为第二顶点位置;
继续基于所述像素特征、所述第一顶点位置和所述第二顶点位置进行卷积运算和编码,直至得到所述多变形区域的多个顶点位置。
9.根据权利要求1所述的方法,其特征在于,所述标注模型的训练过程包括:
获取多个样本切片图像,所述样本切片图像携带有目标标注信息;
将所述多个样本切片图像输入初始标注模型中,由所述初始标注模型对所述多个样本切片图像中标注信息进行预测,得到预测标注信息;
根据所述预测标注信息以及所述目标标注信息,对所述初始标注模型的模型参数进行调整,直至符合目标条件时停止,得到所述标注模型。
10.根据权利要求9所述的方法,其特征在于,所述由所述初始标注模型对所述多个样本切片图像中标注信息进行预测,得到预测标注信息,包括:
由所述初始模型将所述目标标注信息中的目标前两个顶点位置确定为所述样本切片图像中的前两个顶点位置;
基于所述前两个顶点位置和所述样本切片图像,预测下一个顶点位置,得到所述预测标注信息。
11.根据权利要求9所述的方法,其特征在于,所述根据所述预测标注信息以及所述目标标注信息,对所述初始标注模型的模型参数进行调整,包括:
执行根据所述预测标注信息以及所述目标标注信息获取预测损失值、根据所述样本切片图像的预测像素特征和目标像素特征获取分割损失值,或获取预测像素特征和预测标注信息之间的约束损失值中的至少一项;
根据获取到的至少一项损失值,对所述初始标注模型的模型参数进行调整。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于对所述切片图像的标注信息的修正操作,根据所述修正操作,修正所述切片图像的标注信息;
将所述修正后的标注信息输入所述标注模型中,由所述标注模型基于所述修正后的标注信息,对所述切片图像中多边形区域的多个顶点位置,得到标注信息。
13.一种基于人工智能的图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取切片图像;
切割模块,用于对所述切片图像进行切割,得到多个图像块;
处理模块,用于将所述多个图像块输入标注模型中,由所述标注模型根据所述多个图像块提取所述切片图像的像素特征,根据所述像素特征,确定所述切片图像中多边形区域的多个顶点位置,连接所述多个顶点位置,输出所述切片图像的标注信息,所述多边形区域为目标人体组织所在区域。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述程序代码由所述处理器加载并执行以实现如权利要求1至权利要求12任一项所述的基于人工智能的图像处理方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的基于人工智能的图像处理方法所执行的操作。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614446.9A CN111739035B (zh) | 2020-06-30 | 2020-06-30 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
EP21832435.8A EP4044115A4 (en) | 2020-06-30 | 2021-06-11 | IMAGE PROCESSING METHOD AND DEVICE BASED ON ARTIFICIAL INTELLIGENCE, AS WELL AS DEVICE AND STORAGE MEDIA |
JP2022555626A JP2023520846A (ja) | 2020-06-30 | 2021-06-11 | 人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 |
PCT/CN2021/099559 WO2022001623A1 (zh) | 2020-06-30 | 2021-06-11 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
US17/750,183 US20220277572A1 (en) | 2020-06-30 | 2022-05-20 | Artificial intelligence-based image processing method, apparatus, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614446.9A CN111739035B (zh) | 2020-06-30 | 2020-06-30 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739035A true CN111739035A (zh) | 2020-10-02 |
CN111739035B CN111739035B (zh) | 2022-09-30 |
Family
ID=72653752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010614446.9A Active CN111739035B (zh) | 2020-06-30 | 2020-06-30 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220277572A1 (zh) |
EP (1) | EP4044115A4 (zh) |
JP (1) | JP2023520846A (zh) |
CN (1) | CN111739035B (zh) |
WO (1) | WO2022001623A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699887A (zh) * | 2020-12-30 | 2021-04-23 | 科大讯飞股份有限公司 | 一种获得数学对象标注模型、数学对象标注的方法和装置 |
CN112712546A (zh) * | 2020-12-21 | 2021-04-27 | 吉林大学 | 一种基于孪生神经网络的目标跟踪方法 |
CN112925938A (zh) * | 2021-01-28 | 2021-06-08 | 上海商汤智能科技有限公司 | 一种图像标注方法、装置、电子设备及存储介质 |
CN113298931A (zh) * | 2021-05-14 | 2021-08-24 | 中国科学院深圳先进技术研究院 | 一种物体模型的重建方法、装置、终端设备和存储介质 |
WO2022001623A1 (zh) * | 2020-06-30 | 2022-01-06 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
CN116518868A (zh) * | 2023-07-05 | 2023-08-01 | 深圳市海塞姆科技有限公司 | 基于人工智能的变形测量方法、装置、设备及存储介质 |
CN117337691A (zh) * | 2023-09-21 | 2024-01-05 | 仲恺农业工程学院 | 基于深度神经网络的火龙果采摘方法及采摘机器人 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272980B (zh) * | 2022-09-22 | 2023-05-23 | 常州海图信息科技股份有限公司 | 一种基于机器视觉的运输皮带表面检测方法及系统 |
CN115471765B (zh) * | 2022-11-02 | 2023-04-07 | 广东工业大学 | 一种航拍图像的语义分割方法、装置、设备及存储介质 |
CN115830001B (zh) * | 2022-12-22 | 2023-09-08 | 抖音视界有限公司 | 肠道图像处理方法、装置、存储介质及电子设备 |
CN117132777B (zh) * | 2023-10-26 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN117314908B (zh) * | 2023-11-29 | 2024-03-01 | 四川省烟草公司凉山州公司 | 一种烤烟病毒溯源方法、介质及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629772A (zh) * | 2018-05-08 | 2018-10-09 | 上海商汤智能科技有限公司 | 图像处理方法及装置、计算机设备和计算机存储介质 |
CN108846385A (zh) * | 2018-07-10 | 2018-11-20 | 浪潮通用软件有限公司 | 基于卷积-反卷积神经网络的图像识别、校正方法和装置 |
CN109543683A (zh) * | 2018-11-30 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 图像标注修正方法、装置、设备和介质 |
CN109800631A (zh) * | 2018-12-07 | 2019-05-24 | 天津大学 | 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法 |
US20190188848A1 (en) * | 2017-12-20 | 2019-06-20 | International Business Machines Corporation | Automatic Contour Annotation of Medical Images Based on Correlations with Medical Reports |
CN110909756A (zh) * | 2018-09-18 | 2020-03-24 | 苏宁 | 用于医学图像识别的卷积神经网络模型训练方法和装置 |
CN111091576A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100104158A1 (en) * | 2006-12-21 | 2010-04-29 | Eli Shechtman | Method and apparatus for matching local self-similarities |
CN108022238B (zh) * | 2017-08-09 | 2020-07-03 | 深圳科亚医疗科技有限公司 | 对3d图像中对象进行检测的方法、计算机存储介质和系统 |
US10325373B2 (en) * | 2017-09-07 | 2019-06-18 | Here Global B.V. | Method, apparatus, and system for constructing a polygon from edges for object detection |
CA3091035C (en) * | 2018-03-23 | 2024-01-23 | The Governing Council Of The University Of Toronto | Systems and methods for polygon object annotation and a method of training an object annotation system |
CN109461167B (zh) * | 2018-11-02 | 2020-07-21 | Oppo广东移动通信有限公司 | 图像处理模型的训练方法、抠图方法、装置、介质及终端 |
CN110766701B (zh) * | 2019-10-31 | 2020-11-06 | 北京推想科技有限公司 | 网络模型训练方法及装置、区域划分方法及装置 |
CN111739035B (zh) * | 2020-06-30 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
-
2020
- 2020-06-30 CN CN202010614446.9A patent/CN111739035B/zh active Active
-
2021
- 2021-06-11 JP JP2022555626A patent/JP2023520846A/ja active Pending
- 2021-06-11 EP EP21832435.8A patent/EP4044115A4/en active Pending
- 2021-06-11 WO PCT/CN2021/099559 patent/WO2022001623A1/zh unknown
-
2022
- 2022-05-20 US US17/750,183 patent/US20220277572A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188848A1 (en) * | 2017-12-20 | 2019-06-20 | International Business Machines Corporation | Automatic Contour Annotation of Medical Images Based on Correlations with Medical Reports |
CN108629772A (zh) * | 2018-05-08 | 2018-10-09 | 上海商汤智能科技有限公司 | 图像处理方法及装置、计算机设备和计算机存储介质 |
CN108846385A (zh) * | 2018-07-10 | 2018-11-20 | 浪潮通用软件有限公司 | 基于卷积-反卷积神经网络的图像识别、校正方法和装置 |
CN110909756A (zh) * | 2018-09-18 | 2020-03-24 | 苏宁 | 用于医学图像识别的卷积神经网络模型训练方法和装置 |
CN109543683A (zh) * | 2018-11-30 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 图像标注修正方法、装置、设备和介质 |
CN109800631A (zh) * | 2018-12-07 | 2019-05-24 | 天津大学 | 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法 |
CN111091576A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022001623A1 (zh) * | 2020-06-30 | 2022-01-06 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置、设备及存储介质 |
CN112712546A (zh) * | 2020-12-21 | 2021-04-27 | 吉林大学 | 一种基于孪生神经网络的目标跟踪方法 |
CN112699887A (zh) * | 2020-12-30 | 2021-04-23 | 科大讯飞股份有限公司 | 一种获得数学对象标注模型、数学对象标注的方法和装置 |
CN112925938A (zh) * | 2021-01-28 | 2021-06-08 | 上海商汤智能科技有限公司 | 一种图像标注方法、装置、电子设备及存储介质 |
WO2022160736A1 (zh) * | 2021-01-28 | 2022-08-04 | 上海商汤智能科技有限公司 | 图像标注方法、装置、电子设备、存储介质及程序 |
CN113298931A (zh) * | 2021-05-14 | 2021-08-24 | 中国科学院深圳先进技术研究院 | 一种物体模型的重建方法、装置、终端设备和存储介质 |
CN113298931B (zh) * | 2021-05-14 | 2023-09-05 | 中国科学院深圳先进技术研究院 | 一种物体模型的重建方法、装置、终端设备和存储介质 |
CN116518868A (zh) * | 2023-07-05 | 2023-08-01 | 深圳市海塞姆科技有限公司 | 基于人工智能的变形测量方法、装置、设备及存储介质 |
CN116518868B (zh) * | 2023-07-05 | 2023-08-25 | 深圳市海塞姆科技有限公司 | 基于人工智能的变形测量方法、装置、设备及存储介质 |
CN117337691A (zh) * | 2023-09-21 | 2024-01-05 | 仲恺农业工程学院 | 基于深度神经网络的火龙果采摘方法及采摘机器人 |
CN117337691B (zh) * | 2023-09-21 | 2024-04-05 | 仲恺农业工程学院 | 基于深度神经网络的火龙果采摘方法及采摘机器人 |
Also Published As
Publication number | Publication date |
---|---|
JP2023520846A (ja) | 2023-05-22 |
WO2022001623A1 (zh) | 2022-01-06 |
EP4044115A1 (en) | 2022-08-17 |
CN111739035B (zh) | 2022-09-30 |
EP4044115A4 (en) | 2023-05-17 |
US20220277572A1 (en) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739035B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN110348543B (zh) | 眼底图像识别方法、装置、计算机设备及存储介质 | |
WO2020224479A1 (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN110555839A (zh) | 缺陷检测识别方法、装置、计算机设备及存储介质 | |
CN111091166B (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
CN111091576A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN112884770B (zh) | 图像分割处理方法、装置及计算机设备 | |
CN112598686B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN110544272A (zh) | 脸部跟踪方法、装置、计算机设备及存储介质 | |
CN111192262A (zh) | 基于人工智能的产品缺陷分类方法、装置、设备及介质 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN111062981A (zh) | 图像处理方法、装置及存储介质 | |
CN111860485A (zh) | 图像识别模型的训练方法、图像的识别方法、装置、设备 | |
CN110570460A (zh) | 目标跟踪方法、装置、计算机设备及计算机可读存储介质 | |
CN114332554A (zh) | 图像分割模型的训练方法、图像分割方法、装置及设备 | |
CN113706440A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN115082490B (zh) | 异常预测方法、异常预测模型的训练方法、装置及设备 | |
CN113076814A (zh) | 文本区域的确定方法、装置、设备及可读存储介质 | |
CN113724189A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114511864B (zh) | 文本信息提取方法、目标模型的获取方法、装置及设备 | |
CN113705302A (zh) | 图像生成模型的训练方法、装置、计算机设备及存储介质 | |
CN113570645A (zh) | 图像配准方法、装置、计算机设备及介质 | |
CN112037305B (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN113821658A (zh) | 对编码器进行训练的方法、装置、设备及存储介质 | |
CN112528760A (zh) | 图像处理方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030071 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |