CN108416776B - 图像识别方法、图像识别装置、计算机产品和可读存储介质 - Google Patents
图像识别方法、图像识别装置、计算机产品和可读存储介质 Download PDFInfo
- Publication number
- CN108416776B CN108416776B CN201810219787.9A CN201810219787A CN108416776B CN 108416776 B CN108416776 B CN 108416776B CN 201810219787 A CN201810219787 A CN 201810219787A CN 108416776 B CN108416776 B CN 108416776B
- Authority
- CN
- China
- Prior art keywords
- target
- image
- targets
- determining
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30101—Blood vessel; Artery; Vein; Vascular
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例公开了一种图像识别方法、图像识别装置、计算机产品和可读存储介质。所提供的图像识别方法包括:确定待测图像中的多个目标的类别,以及各所述目标所在的目标区域;获得各所述目标区域在所述待测图像中的位置,以及各所述目标区域的大小;根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系;根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。
Description
技术领域
本公开的实施例涉及图像处理技术领域,尤指一种图像识别方法、图像识别装置、计算机产品和可读存储介质。
背景技术
随着计算机辅助诊断(computer aided diagnosis,CAD)技术的迅速发展,对医学影像进行自动化分析越来越流行。目前,CAD的主要应用方式是基于医疗影像进行疾病的诊断,例如将医学图像中与诊断、治疗等高度相关的目标区域分离出来,也就是通常的神经网络、机器学习中所使用的图像分割过程。通过分割出感兴趣的(ROI)区域,有利于减少后期模型数据处理的工作量,提高系统的识别效率。
发明内容
根据本公开的一个方面,本公开的实施例提供了一种图像识别方法,包括:
确定待测图像中的多个目标的类别,以及各所述目标所在的目标区域;
获得各所述目标区域在所述待测图像中的位置,以及各所述目标区域的大小;
根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系;
根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。
在一些实施例中,所述确定待测图像中的多个目标,以及各所述目标所在的目标区域,具体包括:
通过神经网络确定出确定出待测图像中的多个目标,以及各所述目标所在的目标区域。
在一些实施例中,所述神经网络包括区域卷积神经网络;在区域卷积神经网络中,候选区域设置为不低于200个。
在一些实施例中,所述候选区域的重叠度阈值大于或等于0.5。
在一些实施例中,所述候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。
在一些实施例中,所述根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系,具体包括:
通过双重空间掩码方法,根据具有关联的两个所述目标区域的位置和大小确定具有关联的两个所述目标区域所对应的目标之间的相对位置关系。
在一些实施例中,还包括:
选择距离在预设范围内的任意两个所述目标区域为具有关联的两个所述目标区域。
在一些实施例中,根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读,具体包括:
将所述目标的类别和所述目标之间的相对位置关系输入到概率知识网络获得所述目标之间的相对位置关系的语义解读。
根据本公开的另一个方面,本公开的实施例提供一种图像识别装置,包括:
目标识别单元,被配置为确定待测图像中的多个目标的类别,以及各所述目标所在的目标区域;
目标位置确定单元,被配置为获得各所述目标区域在所述待测图像中的位置,以及各所述目标区域的大小;
目标关系识别单元,被配置为根据各所述目标区域的位置和大小通确定各所述目标之间的相对位置关系;
语义解读单元,被配置为根据所述目标的类别和所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。
在一些实施例中,所述目标识别单元包括区域卷积神经网络。
在一些实施例中,在所述区域卷积神经网络中,候选区域设置为不低于200个。
在一些实施例中,在所述区域卷积神经网络中,所述候选区域的重叠度阈值大于或等于0.5。
在一些实施例中,所述语义解读单元包括概率知识网络,所述概率知识网络被配置为基于所述目标的类别和所述目标之间的相对位置关系关联的语义的概率,输出所述目标之间的相对位置关系的语义解读。
在本公开的还一个方面,本公开的实施例提供一种计算机产品,包括一个或多个处理器,所述处理器被配置为执行计算机指令以执行所述方法中的一个或多个步骤。
在本公开的又一个方面,本公开的实施例提供一种可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行所述方法中的一个或多个步骤。
附图说明
图1为本公开实施例中提供的图像识别方法的流程图之一;
图2为本公开实施例中提供的图像识别方法的流程图之二;
图3为本公开实施例中提到的待测图像的示意图;
图4a至图4c分别为图3所示待测图像中各目标的空间掩码;
图5为图3所示待测图像中各目标的空间掩码的对比图;
图6为本公开实施例中提供的图像识别装置的结构示意图;
图7为本公开实施例提供的计算机产品的结构示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
附图中各部件的形状和大小不反映真实比例,目的只是示意说明本公开内容。
相关技术中,基于机器学习(神经网络)、机器视觉等实现的计算机辅助诊断,是基于提取图像中的有效特征并对特征进行分类或聚类,从而基于对应分类或聚类的标注来描述ROI的语义。发明人认知到,这种方法无法用来描述医疗影像本身的整体内容,也无法在整体上对医疗影像中的内容进行解读。例如,图像中有两个目标,目前往往只能识别出图像中某个区域是目标1(此时目标2区域作为干扰特征会在训练中被去除)或者某个区域是目标2(此时目标1区域作为干扰特征会在训练中被去除),而无法提供一个全局性的语言描述,例如具有存在某种关系的目标1和目标2这样的语言性描述。
在发明人所知的知识中,在诸多领域,例如医学领域,医生等有经验的医疗专业人士在观察医疗影像时不仅关注病灶区域,而且会注意病灶区域周边的器官或病理部位的状态以给出准确的诊断。由此,发明人意识到如果能够给出图像整体在语义上的全部或者部分解读,其至少部分地能够克服相关技术的不足。
本公开实施例提供的一种图像识别方法,如图1所示,包括:
S101、确定待测图像中的多个目标的类别,以及各目标所在的目标区域;
S102、确定各目标区域在待测图像中的位置,以及各目标区域的大小;
S103、根据各目标区域的位置和大小确定各目标之间的相对位置关系;
S104、根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。
本公开实施例提供的图像识别方法,首先确定出待测图像中的多个目标,以及各目标所在的目标区域;之后确定出各目标区域在待测图像中的位置,以及各目标区域的大小;最后根据各目标区域的位置和大小确定各目标之间的相对位置关系,从而实现对待测图像中的多个目标之间的相对位置关系在语义上的识别。
此处,所称的语义,指的是对图像在内容上进行的文字(或等效于文字,例如将文字转换为语音)的描述。例如,对于一副包含人骑着自行车的图片,在语义上解读为人-骑-自行车(或者类似的概念,人在自行车上)。
可选地,在本公开实施例提供的图像识别方法中,确定出待测图像中的多个目标,以及各目标所在的目标区域,具体包括:
采用神经网络确定出确定出待测图像中的多个目标,以及各目标所在的目标区域。
具体地,可以采用神经网络方法提取待测图像中每个目标的边框和形貌特征,常用的神经网络可以是RCNN(Regions with Convolutional Neural Network)、Fast RCNN、Faster RCNN或者Yolo等,在此不作限定。
具体地,采用神经网络方法时,候选区域的数量的设定不能太低,否则网络的召回率太高,因此候选区域的数量设置的越多,越能准确的确定出的检测目标,但是候选区域的数量设置的越多,计算量也会相应的增多,因此根据实际情况设置候选区域的数量。
可选地,在本公开实施例提供的图像识别方法中,采用神经网络,例如RCNN、FastRCNN、Faster RCNN时,候选区域(Region Proposal)设置为不低于200个。
可选地,在本公开实施例提供的图像识别方法中,候选区域的重叠度阈值IOU大于或等于0.5,从而使得待测图像中每个潜在的目标均能够被检查至少15-20次,从而提高图像中目标被识别的概率,又不会过多的增加目标检测的工作量。
具体地,在本公开实施例提供的图像识别方法中,候选区域有很多是彼此重叠或者大面积重叠的不是每一个重叠的候选区域都有必要进行目标检测,为此设定重叠度阈值IOU,IOU设定为0.5代表仅保留覆盖率不超过0.5的局部最大分数的候选区域,对于IOU>0.5的区域全部合并并送到目标检测。
可选地,在本公开实施例提供的图像识别方法中,候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。例如,IOU设定为0.6或者0.7。
在具体实施时,检测出的目标区域一般为矩形区域。具体地,在本公开实施例提供的图像识别方法中,各目标区域在待测图像中的位置一般指目标区域(矩形区域)的中心在待测图像中的坐标(x,y)。各目标区域的大小是指矩形区域的宽度和长度(w,h);或者矩形区域相对待测图像的相对位置描述,例如各目标区域在待测图像中的位置可以是候选框的相对边界参数(tx、ty、tw、th):x、y代表一个比例不变的平移w、h代表相对于主体或者特定目标其在对数空间的高或者宽的变换。比如以整个图像背景为参照系,以图像背景的位置为x1、y1、w1、h1,候选框的位置为x、y、w、h,那么相对边界参数tx、ty、tw、th为(x-x1)/w1、(y-y1)/h1、log w1/w、log h1/h)。
可选地,对于一个待测图像中的多个目标区域而言,基于逻辑上的理解或先验知识容易得知,待测图像中相互距离过远的目标之间存在关系的概率较低或部分目标之间不太可能具有关联。例如,如果一副皮肤损伤图像中具有部分衣物的成像区域,基于已有的医学常识容易知道衣物跟皮肤损伤的病情不具有关联;例如在待测图像的边缘具有一个斑点,距离皮肤损伤区域距离较远,与皮肤损伤有关系的概率较低。因此,在一些实施例中,通过检测目标区域之间的距离(例如中心点之间的距离),或根据目标的类别,排除彼此之间没有关联的目标区域,以提高处理效率。因此,在本公开实施例提供的图像识别方法中,根据各目标区域的位置和大小确定各目标之间的相对位置关系,具体包括在确定相对位置关系以前,选择距离在预设范围内的任意两个目标区域为具有关联的两个目标区域。
可选地,根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系,具体包括:通过双重空间掩码方法,根据具有关联的两个所述目标区域的位置和大小确定具有关联的两个所述目标区域所对应的目标之间的相对位置关系。
其中,所称的双重空间掩码方法,是将具有关联的两个目标区域在位置和大小上分别进行掩码mask,从而获得每个对象之间的相对位置关系和相对尺寸,例如第一目标区域大于第二目标区域,且局部重叠;或者第一目标区域位于第二目标区域的上方。
可选地,根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读,具体包括:将所述目标的类别和所述目标之间的相对位置关系输入到概率知识网络获得所述目标之间的相对位置关系的语义解读。
其中,目标的类别例如可以是根据目标的几何外观、颜色、分布等特征(例如大小、形状等)判断对象的类别,例如通过前述的RCNN判断目标为妇女还或少女,将其类别划分为女性;通过前述的RCNN判断目标为心脏心室区域。基于前述的双重空间掩码方法,获得目标之间的位置关系和相对尺寸,例如目标(女性)位于目标(自行车)左边,二者无重叠;例如,目标(心脏)大于目标(血管肿块),二者在目标(心脏)左侧局部重叠等。基于所获得的目标类别、目标之间的位置关系和相对尺寸输入到概率知识网络中进行连接,从而获得对二者关系的语义描述。
在此处,所称的概率知识网络,例如可以包括知识库(例如专家知识库或搜索知识库),例如上述的目标类别、目标之间的位置关系和相对尺寸连接到谷歌搜索引擎、维基百科、pubmed等检索工具产生对某种关联的关系描述。例如概率知识网络中描述了出现妇女和儿童时描述二者相对关系的各种词汇及其对应的位置关系的概率,将其中满足全连接输入的概率部分输出,例如女性骑自行车,例如心脏出现血管肿胀等;例如可以包括经过训练的神经网络(通过将大量图片基于上述的过程对图片的内容进行语义解读和标注,从而使得该神经网络能够对接下来输入的图片的内容进行解读,这样的神经网络例如可以通过CNN实现、可以通过全卷积神经网络FCN实现、可以通过长短时记忆网络LSTM实现等;所用的训练数据集可以采用ImageNet、CIFAR-10dataset、CIFAR-100dataset、Microsoft COCOdataset、Flickr Open Image dataset、CoPhIR、MSRA-MM等图像数据库);例如可以包括经过训练的具有知识描述的神经网络,例如对于特定的应用领域,如医学领域,由于图片中可能出现的病灶、生理器官等是医学专业人士可以在医学层次的语义表达上进行解读的,可以通过对大量医学图片的语义解读作为样本数据训练形成上述的神经网络(如以标类别、目标之间的位置关系和相对尺寸作为样本数据格式,以医学专业人士的人工语义理解作为标注,例如标注的格式可以是在肺部图像的右上方出现病理阴影),从而可以基于训练的神经网络输出对医学图片的医学语义解读。
本公开实施例提供的图像识别方法中,对目标区域进行识别,在识别目标后进一步判断目标之间的相对关系。基于目标之间的相对关系输出的语义对医学影像识别是十分有价值的。例如在血管影像图片中,不仅能对对血管肿大的地方进行识别,而且能够识别血管在何者位置出现了肿大,从而产生有意义的病历描述(如血管出现局部肿大,肿大的区域位于血管左侧,肿大的区域相对其它血管区域大两倍)。
下面以图3所示的图像为例说明本公开实施例提供的图像识别方法,如图2所示,具体包括:
S201、确定出待测图像中的多个目标,以及各目标所在的目标区域。例如确定出图3的图像中的目标A为男性,目标B为男性,目标C为自行车。
S202、确定出各目标区域在待测图像中的位置,以及各目标区域的大小。例如图4a至图4c所示的各目标的空间掩码。
S203、将距离在预设范围内的任意两个目标区域规定为具有关联的两个目标区域。例如将目标的掩码进行重叠,如图5中,可以得出目标A的区域与目标C的区域具有重叠区域,目标B的区域与目标C的区域具有重叠区域,目标A的区域与目标B的区域邻近,因此目标A的区域与目标C的区域为具有具有关联的两个目标区域,目标B的区域与目标C的区域为具有关联的两个目标区域,目标A的区域与目标B的区域为具有关联的两个目标区域。
S204、根据具有关联的两个目标区域的位置和大小通过概率知识网络确定具有关联的两个目标区域所对应的目标之间的相对位置关系。例如将类别与目标区域进行全连接,将其连接到一个概率知识网络,该概率知识网络基于谷歌搜索引擎、维基百科、pubmed等检索工具产生对某种关联的关系描述。例如概率知识网络中描述了出现男性和自行时描述二者相对位置关系的各种词汇及其对应的位置关系的概率,将其中满足全连接输入的概率部分输出。例如当将男性与自行车连接到一个概率知识网络时,概率知识网络收集可以得到的所有关于男性与自行车的图片,并预先保存这些图片中当男性与自行车的相对位置在某一情况时,男性骑自行车的概率为多少、男性推自行车手把的概率为多少、男性坐在自行车后座的概率为多少,男性推自行车后座的概率为多少、男性站在自行车的旁边的概率为多少。例如图5中目标A的区域与目标C的区域具有重叠区域,且目标A的中心是位于目标C的中心的上方,这种情况在概率知识网络中属于男性骑自行车的概率较大,因此可以得出目标A与目标C为相对位置关系为:男性骑自行车。例如图5中目标B的区域与目标C的区域具有重叠区域,且目标B的中心是位于目标C的后上方,这种情况在概率知识网络中属于男性推自行车后座的概率比较大,因此可以得出目标B与目标C为相对位置关系为:男性推自行车后座。
基于同一发明构思,本公开实施例还提供了一种图像识别装置,于该图像识别装置解决问题的原理与前述一种图像识别方法相似,因此该图像识别装置的实施可以参见前述图像识别方法的实施,重复之处不再赘述。
具体地,在本公开实施例提供的图像识别装置中,如图6所示,包括:
目标识别单元01,用于确定待测图像中的多个目标的类别,以及各目标所在的目标区域;
目标位置确定单元02,用于获得各目标区域在待测图像中的位置,以及各目标区域的大小;
目标关系识别单元03,用于根据各目标区域的位置和大小确定各目标之间的相对位置关系;
语义解读单元04,用于根据所述目标的类别和所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。
可选地,在本公开实施例提供的图像识别装置中,目标识别单元具体用于:
采用神经网络确定出确定出待测图像中的多个目标,以及各目标所在的目标区域。
可选地,在本公开实施例提供的图像识别装置中,目标识别单元采用区域卷积神经网络,候选区域设置为不低于200个。
可选地,在本公开实施例提供的图像识别装置中,候选区域的重叠度阈值大于或等于0.5。
可选地,在本公开实施例提供的图像识别装置中,候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。
可选地,在本公开实施例提供的图像识别装置中,目标关系识别单元具体用于:
将距离在预设范围内的任意两个目标区域规定为具有关联的两个目标区域;根据具有关联的两个目标区域的位置和大小确定具有关联的两个目标区域所对应的目标之间的相对位置关系。
可选地,所述语义解读单元包括概率知识网络,所述概率知识网络用于基于目标的类别和目标之间的相对位置关系关联的语义的概率,输出所述目标之间的相对位置关系的语义解读。
其中,所述概率知识网络可以通过搜索知识库实现,也可以基于神经网络实现。
参考图7,本公开的实施例还提供了一种计算机产品500,以实现上述实施例所描述的图像识别装置。该计算机产品可以包括一个或多个处理器502,处理器502被配置为运行计算机指令以执行如前所述方法中的一个或多个步骤。
可选地,所述计算机产品500还包括存储器501,连接所述处理器602,被配置为存储所述计算机指令。
计算机产品500可以实现为本地计算的计算机产品结构,即计算机产品500在用户侧实现上述方法;计算机产品500也可以实现为本地和远端交互的计算机产品结构,即计算机产品500在用户侧的终端实现上述实施例所描述的方法以输入图像,在与用户侧终端连接的网络服务器接收所述图像以执行所述方法。
在一些实施例中,计算机产品可以包括多个终端设备和与多个终端设备连接的网络服务器。
其中,多个终端设备,将各终端设备的图片上传至网络服务器;
其中,网络服务器,获取各终端设备上传的图像,将所获取的图像执行上述实施例的图像识别方法。
存储器501可以是各种由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502可以是中央处理单元(CPU)或者现场可编程逻辑阵列(FPGA)或者单片机(MCU)或者数字信号处理器(DSP)或者专用集成电路(ASIC)或者图形处理器(GPU)等具有数据处理能力和/或程序执行能力的逻辑运算器件。
计算机指令包括了一个或多个由对应于处理器的指令集架构定义的处理器操作,这些计算机指令可以被一个或多个计算机程序在逻辑上包含和表示。
该计算机产品500还可以连接各种输入设备(例如用户界面、键盘等)、各种输出设备(例如扬声器等)、以及显示设备等实现计算机产品与其它产品或用户的交互,本文在此不再赘述。
连接可以是通过网络连接,例如无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者Wi-Fi等通信方式。
本公开实施例还提供一种计算机可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行如前所述图像识别方法中的一个或多个步骤。
本公开实施例提供的图像识别方法及图像识别装置,首先确定出待测图像中的多个目标,以及各目标所在的目标区域;之后确定出各目标区域在待测图像中的位置,以及各目标区域的大小;最后根据各目标区域的位置和大小确定各目标之间的相对位置关系,从而实现对待测图像中的多个目标之间的相对位置关系的语义解读。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
Claims (11)
1.一种图像识别方法,其特征在于,包括:
确定待测图像中的多个目标的类别,以及各所述目标所在的目标区域;
获得各所述目标区域在所述待测图像中的位置,以及各所述目标区域的大小;
根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系;
根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读;
其中,所述根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系,具体包括:
选择距离在预设范围内的任意两个所述目标区域为具有关联的两个所述目标区域;
通过双重空间掩码方法,根据具有关联的两个所述目标区域的位置和大小确定具有关联的两个所述目标区域所对应的目标之间的相对位置关系;其中,所述双重空间掩码方法,是将具有关联的两个目标区域在位置和大小上分别进行掩码;
所述图像为医学影像图像,所述多个目标分别为病灶和生理器官,所述方法包括:确定所述医学影像图像中的病灶和生理器官,以及所述病灶和生理器官所在的目标区域;获得所述病灶和生理器官所在的目标区域在所述医学影像图像中的位置和大小;根据所述位置和大小确定病灶和生理器官之间的相对位置关系;将所述病灶和生理器官的类别和相对位置关系输入到概率知识网络获得病灶和生理器官之间的相对位置关系的语义解读,其中,
所述概率知识网络包括知识库,根据知识库中出现所述病灶和生理器官二者相对关系的词汇及对应的位置关系的概率确定所述语义解读;
或者,所述概率知识网络包括根据经过训练的神经网络确定所述语义解读。
2.如权利要求1所述的图像识别方法,其特征在于,所述确定待测图像中的多个目标的类别,以及各所述目标所在的目标区域,具体包括:
通过神经网络确定出待测图像中的多个目标的类别,以及各所述目标所在的目标区域。
3.如权利要求2所述的图像识别方法,其特征在于,所述神经网络包括区域卷积神经网络;在区域卷积神经网络中,候选区域设置为不低于200个。
4.如权利要求3所述的图像识别方法,其特征在于,所述候选区域的重叠度阈值大于或等于0.5。
5.如权利要求4所述的图像识别方法,其特征在于,所述候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。
6.一种图像识别装置,其特征在于,包括:
目标识别单元,被配置为确定待测图像中的多个目标的类别,以及各所述目标所在的目标区域;
目标位置确定单元,被配置为获得各所述目标区域在所述待测图像中的位置,以及各所述目标区域的大小;
目标关系识别单元,被配置为根据各所述目标区域的位置和大小通确定各所述目标之间的相对位置关系;
语义解读单元,被配置为根据所述目标的类别和所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读;
其中,所述目标关系识别单元具体被配置为:选择距离在预设范围内的任意两个所述目标区域为具有关联的两个所述目标区域;通过双重空间掩码方法,根据具有关联的两个所述目标区域的位置和大小确定具有关联的两个所述目标区域所对应的目标之间的相对位置关系;
所述图像为医学影像图像,所述多个目标分别为病灶和生理器官,所述目标识别单元,具体被配置为确定所述医学影像图像中的病灶和生理器官,以及所述病灶和生理器官所在的目标区域;
所述目标位置确定单元,具体被配置为获得所述病灶和生理器官所在的目标区域在所述医学影像图像中的位置和大小;
所述目标关系识别单元,具体被配置为根据所述位置和大小确定病灶和生理器官之间的相对位置关系;
所述语义解读单元包括概率知识网络,所述语义解读单元具体被配置为将所述病灶和生理器官的类别和相对位置关系输入到概率知识网络获得病灶和生理器官之间的相对位置关系的语义解读,其中,
所述概率知识网络包括知识库,根据知识库中出现所述病灶和生理器官二者相对关系的词汇及对应的位置关系的概率确定所述语义解读;
或者,所述概率知识网络包括根据经过训练的神经网络确定所述语义解读。
7.根据权利要求6所述的图像识别装置,其特征在于,所述目标识别单元包括区域卷积神经网络。
8.如权利要求7所述的图像识别装置,其特征在于,在所述区域卷积神经网络中,候选区域设置为不低于200个。
9.如权利要求8所述的图像识别装置,其特征在于,在所述区域卷积神经网络中,候选区域的重叠度阈值大于或等于0.5。
10.一种计算机产品,包括一个或多个处理器,所述处理器被配置为执行计算机指令以执行权利要求1-5任一所述方法中的一个或多个步骤。
11.一种可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行权利要求1-5任一所述方法中的一个或多个步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810219787.9A CN108416776B (zh) | 2018-03-16 | 2018-03-16 | 图像识别方法、图像识别装置、计算机产品和可读存储介质 |
US16/161,970 US10789499B2 (en) | 2018-03-16 | 2018-10-16 | Method for recognizing image, computer product and readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810219787.9A CN108416776B (zh) | 2018-03-16 | 2018-03-16 | 图像识别方法、图像识别装置、计算机产品和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416776A CN108416776A (zh) | 2018-08-17 |
CN108416776B true CN108416776B (zh) | 2021-04-30 |
Family
ID=63131888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810219787.9A Active CN108416776B (zh) | 2018-03-16 | 2018-03-16 | 图像识别方法、图像识别装置、计算机产品和可读存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10789499B2 (zh) |
CN (1) | CN108416776B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108810616B (zh) * | 2018-05-31 | 2019-06-14 | 广州虎牙信息科技有限公司 | 目标定位方法、视频显示方法、装置、设备和存储介质 |
CN109447943B (zh) * | 2018-09-21 | 2020-08-14 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、系统及终端设备 |
JP7096361B2 (ja) * | 2018-12-14 | 2022-07-05 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置 |
CN109800802A (zh) * | 2019-01-10 | 2019-05-24 | 深圳绿米联创科技有限公司 | 视觉传感器及应用于视觉传感器的物体检测方法和装置 |
CN111476838A (zh) | 2019-01-23 | 2020-07-31 | 华为技术有限公司 | 图像分析方法以及系统 |
CN109961847A (zh) * | 2019-03-20 | 2019-07-02 | 武汉千屏影像技术有限责任公司 | 一种图片、文字和语音结合的病理智能诊断系统 |
FR3094115B1 (fr) * | 2019-03-22 | 2021-02-26 | Idemia Identity & Security France | Procede d’identification de bagages |
CN112232357A (zh) * | 2019-07-15 | 2021-01-15 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、计算机可读存储介质及电子设备 |
CN110647841B (zh) * | 2019-09-20 | 2022-06-28 | Oppo广东移动通信有限公司 | 图像识别结果过滤方法、装置、计算机设备及存储介质 |
CN110852243B (zh) * | 2019-11-06 | 2022-06-28 | 中国人民解放军战略支援部队信息工程大学 | 一种基于改进YOLOv3的道路交叉口检测方法及装置 |
FR3107349B1 (fr) * | 2020-02-14 | 2022-01-14 | Amadeus Sas | Procédé et système de carte et de navigation assistées par caméra |
CN112417967B (zh) * | 2020-10-22 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 障碍物检测方法、装置、计算机设备和存储介质 |
CN112529857B (zh) * | 2020-12-03 | 2022-08-23 | 重庆邮电大学 | 基于目标检测与策略梯度的超声图像诊断报告生成方法 |
CN112651393B (zh) * | 2020-12-24 | 2024-02-06 | 北京百度网讯科技有限公司 | 兴趣点数据处理方法、装置、设备及存储介质 |
CN112668573B (zh) * | 2020-12-25 | 2022-05-10 | 平安科技(深圳)有限公司 | 目标检测定位置信度确定方法、装置、电子设备及存储介质 |
CN112734847A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学技术大学 | 一种多目标光纤位置精确检测定位系统及方法 |
CN112837454A (zh) * | 2021-01-28 | 2021-05-25 | 深圳市商汤科技有限公司 | 通行检测方法及装置、电子设备和存储介质 |
CN113076927B (zh) * | 2021-04-25 | 2023-02-14 | 华南理工大学 | 基于多源域迁移的指静脉识别方法及系统 |
WO2023194826A1 (en) * | 2022-04-04 | 2023-10-12 | 3M Innovative Properties Company | Thermal imaging with ai image identification |
CN116612087B (zh) * | 2023-05-22 | 2024-02-23 | 山东省人工智能研究院 | 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123726A (zh) * | 2012-09-07 | 2013-05-29 | 佳都新太科技股份有限公司 | 一种基于运动行为分析的目标跟踪算法 |
CN103914854A (zh) * | 2014-03-24 | 2014-07-09 | 河海大学 | 一种图像序列目标关联及轨迹生成方法 |
CN104346801A (zh) * | 2013-08-02 | 2015-02-11 | 佳能株式会社 | 图像构图评估装置、信息处理装置及其方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7640267B2 (en) * | 2002-11-20 | 2009-12-29 | Radar Networks, Inc. | Methods and systems for managing entities in a computing device using semantic objects |
CN108596875B (zh) * | 2018-03-21 | 2020-09-01 | 浙江大学 | 一种基于图像分割算法的半导体芯片溢料快速检测方法 |
-
2018
- 2018-03-16 CN CN201810219787.9A patent/CN108416776B/zh active Active
- 2018-10-16 US US16/161,970 patent/US10789499B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123726A (zh) * | 2012-09-07 | 2013-05-29 | 佳都新太科技股份有限公司 | 一种基于运动行为分析的目标跟踪算法 |
CN104346801A (zh) * | 2013-08-02 | 2015-02-11 | 佳能株式会社 | 图像构图评估装置、信息处理装置及其方法 |
CN103914854A (zh) * | 2014-03-24 | 2014-07-09 | 河海大学 | 一种图像序列目标关联及轨迹生成方法 |
Non-Patent Citations (3)
Title |
---|
Visual Relationship Detection with Language Priors;Cewu Lu et al;《European Conference on Computer Vision》;20160917;852-869 * |
Visual relationship detection with object spatial distribution;Yaohui Zhu et al;《2017 IEEE International Conference on Multimedia and Expo》;20170714;379-384 * |
Yaohui Zhu et al.Visual relationship detection with object spatial distribution.《2017 IEEE International Conference on Multimedia and Expo》.2017,379-384. * |
Also Published As
Publication number | Publication date |
---|---|
CN108416776A (zh) | 2018-08-17 |
US20190286930A1 (en) | 2019-09-19 |
US10789499B2 (en) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416776B (zh) | 图像识别方法、图像识别装置、计算机产品和可读存储介质 | |
Al-Antari et al. | Deep learning computer-aided diagnosis for breast lesion in digital mammogram | |
CN110111313B (zh) | 基于深度学习的医学图像检测方法及相关设备 | |
Wang et al. | Stereoscopic thumbnail creation via efficient stereo saliency detection | |
Li et al. | Dilated-inception net: multi-scale feature aggregation for cardiac right ventricle segmentation | |
WO2021244661A1 (zh) | 确定图像中血管信息的方法和系统 | |
US11972571B2 (en) | Method for image segmentation, method for training image segmentation model | |
US11967181B2 (en) | Method and device for retinal image recognition, electronic equipment, and storage medium | |
WO2018107371A1 (zh) | 图像搜索系统及方法 | |
CN105378793A (zh) | 用于在对象可能受医学状况影响时进行鉴别的系统、方法和计算机可读介质 | |
Pan et al. | Cell detection in pathology and microscopy images with multi-scale fully convolutional neural networks | |
WO2022156525A1 (zh) | 对象匹配方法、装置及设备 | |
Singh et al. | A two-stage framework for road extraction from high-resolution satellite images by using prominent features of impervious surfaces | |
US20230052133A1 (en) | Medical image processing method and apparatus, device, storage medium, and product | |
CN109785311B (zh) | 一种疾病诊断装置、电子设备及存储介质 | |
Konstantakopoulos et al. | A review of image-based food recognition and volume estimation artificial intelligence systems | |
CN111798424B (zh) | 一种基于医学图像的结节检测方法、装置及电子设备 | |
Lu et al. | Computer aided diagnosis using multilevel image features on large-scale evaluation | |
George et al. | Automatic psoriasis lesion segmentation in two-dimensional skin images using multiscale superpixel clustering | |
Cerrolaza et al. | Fetal skull segmentation in 3D ultrasound via structured geodesic random forest | |
CN112215285B (zh) | 一种基于跨媒体特征的眼底图像自动标注方法 | |
Wang et al. | Optic disc detection based on fully convolutional neural network and structured matrix decomposition | |
US11386991B2 (en) | Methods and apparatus for artificial intelligence informed radiological reporting and model refinement | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN113408595B (zh) | 病理图像处理的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |