CN111739024A - 图像识别方法、电子设备及可读存储介质 - Google Patents

图像识别方法、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111739024A
CN111739024A CN202010881849.XA CN202010881849A CN111739024A CN 111739024 A CN111739024 A CN 111739024A CN 202010881849 A CN202010881849 A CN 202010881849A CN 111739024 A CN111739024 A CN 111739024A
Authority
CN
China
Prior art keywords
image
marker
detection
frames
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010881849.XA
Other languages
English (en)
Other versions
CN111739024B (zh
Inventor
王廷旗
高飞
段晓东
候晓华
谢小平
向雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ankon Technologies Co Ltd
Original Assignee
Ankon Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ankon Technologies Co Ltd filed Critical Ankon Technologies Co Ltd
Priority to CN202010881849.XA priority Critical patent/CN111739024B/zh
Publication of CN111739024A publication Critical patent/CN111739024A/zh
Application granted granted Critical
Publication of CN111739024B publication Critical patent/CN111739024B/zh
Priority to PCT/CN2021/112777 priority patent/WO2022042352A1/zh
Priority to EP21860190.4A priority patent/EP4207058A4/en
Priority to US18/023,973 priority patent/US20240029387A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像识别方法、电子设备及可读存储介质,所述方法包括:将原始图像分割为具有相同预定尺寸的多个单元图像;将所述单元图像输入预建立的神经网络模型进行处理,以对应每一单元图像中的标记物对应添加检测框,形成预检单元图像;按照每一单元图像在原始图像中的分割位置将多个预检单元图像拼接为一幅预输出图像;判断预输出图像是否存在相邻的两个检测框中框选的标记物为同一标记物:若是,将两个检测框进行合并;若否,保留对应不同标记物的不同检测框;直至确认为同一标记物的检测框均合并完成后,将带有检测框的图像进行输出。本发明可以有效识别标记物在图像中的种类及位置。

Description

图像识别方法、电子设备及可读存储介质
技术领域
本发明涉及医疗设备图像识别领域,尤其涉及一种图像识别方法、电子设备及可读存储介质。
背景技术
胃肠动力是指正常的胃肠蠕动以帮助完成食物消化和吸收的能力;当胃肠动力弱时,就可能引起消化不良。
现有技术中,通常通过胃肠标记物识别的方法判断胃肠动力的强弱,具体的,用户分次吞咽下不同形状标记物后,通过X射线拍摄获取的图像确定标记物的位置,进而判断胃肠动力强弱。
现有技术中,对于X光图像中标记物的位置和种类,通常通过人为辅助观察图像进行确定;然而,对于分次吞咽的不同形状的标记物,其显示在X光图像上的尺寸小,种类多,人为辅助观察的方式难以准确统计各种标记物的位置及数量,从而无法判断被检者的胃肠动力。
发明内容
为解决上述技术问题,本发明的目的在于提供一种图像识别方法、电子设备及可读存储介质。
为了实现上述发明目的之一,本发明一实施方式提供一种图像识别方法,所述方法包括:将原始图像分割为具有相同预定尺寸的多个单元图像,所述原始图像中分布若干标记物;
将所述单元图像输入预建立的神经网络模型进行处理,以对应每一单元图像中的标记物对应添加检测框,形成预检单元图像;所述检测框为围合所述标记物的最小矩形框;
按照每一单元图像在原始图像中的分割位置将多个预检单元图像拼接为一幅预输出图像;
判断预输出图像是否存在相邻的两个检测框中框选的标记物为同一标记物:
若是,将两个检测框进行合并;
若否,保留对应不同标记物的不同检测框;
直至确认为同一标记物的检测框均合并完成后,将带有检测框的图像进行输出;
其中,判断预输出图像是否存在相邻的两个检测框中框选的标记物为同一标记物具体包括:根据标记物种类的概率确认每个检测框中标记物的种类,若相邻的两个检测框中框选的标记物为同一种类,则根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物。
作为本发明一实施方式的进一步改进,将原始图像分割为具有相同预定尺寸的多个单元图像过程时,所述方法还包括:
若分割过程中存在任一单元图像小于预定尺寸,则在单元图像形成之前对原始图像进行边缘像素值补充,或在单元图像形成之后,对尺寸小于预定尺寸的单元图像进行边缘像素值补充。
作为本发明一实施方式的进一步改进,所述神经网络模型的构建方法包括:对应每一单元图像采用卷积神经网络提取至少一个特征层;
提取特征层过程中,使用p个m*m的卷积核作为锚框的卷积预测器处理所述单元图像,p=(c1+c2)*k,其中,锚框为预设的长宽比不同的矩形框,m为奇数正整数,c1表示标记物种类的数量, k表示锚框的数量,c2为调整锚框的偏移参数的数量;所述检测框通过锚框进行大小变化获得。
作为本发明一实施方式的进一步改进,所述方法还包括:
根据标记物的种类及尺寸多次对单元图像做池化层处理得到对应的特征层。
作为本发明一实施方式的进一步改进,在根据标记物的种类及尺寸多次对单元图像做池化层处理得到对应的特征层过程中,所述方法包括:
在每次对单元图像进行池化层处理之前,均至少1次对所述单元图像做卷积层处理,且其卷积核大小相同。
作为本发明一实施方式的进一步改进,所述方法还包括:配置c2=4,调整锚框的偏移参数具体包括:左上角的横向偏移值和纵向偏移值,宽度的缩放倍数以及高度的缩放倍数。
作为本发明一实施方式的进一步改进,根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物包括:
以原始图像的左上角为坐标原点建立直角坐标系,比较横向相邻的两个检测框的特征值的差值是否在阈值范围内,若是,则确认当前计算使用的两个检测框中框选的标记物为同一标记物;所述特征值为每一检测框的左上角坐标值和右下角坐标值。
作为本发明一实施方式的进一步改进,根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物包括:
以原始图像的左上角为坐标原点建立直角坐标系,比较纵向相邻的两个检测框的特征值的差值是否在阈值范围内,若是,则确认当前计算使用的两个检测框中框选的标记物为同一标记物;所述特征值为每一检测框的左上角坐标值和右下角坐标值。
作为本发明一实施方式的进一步改进,将所述两个检测框进行合并,包括:
比较当前用于计算的两个检测框的左上角的坐标值,分别取其横坐标和纵坐标的最小值作为合并后的检测框的左上角坐标值;
比较所述两个检测框的右下角的坐标值,分别取其横坐标和纵坐标的最大值作为合并后的检测框的右下角坐标值。
为了解决上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述图像识别方法中的步骤。
为了解决上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述图像识别方法中的步骤。
与现有技术相比,本发明的有益效果是:本发明的图像识别方法、电子设备及可读存储介质,原始图像通过神经网络模型自动处理添加检测框;进一步的,通过合并重复标识的检测框提高图像标识精确性,进而有效识别标记物在图像中的种类及位置,从而准确判断被检者的胃肠动力。
附图说明
图1是本发明一实施方式提供的图像识别方法的流程示意图;
图2是本发明一较佳实施方式的神经网络的结构示意图;
图3是对原始图像进行图1所示步骤S1至S3处理后的结果示意图;
图4是在图3的基础上进行图1所示步骤S4处理后的结果示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明第一实施方式中提供一种图像识别方法,所述方法包括:
S1、将原始图像分割为具有相同预定尺寸的多个单元图像,所述原始图像中分布若干标记物;
S2、将所述单元图像输入预建立的神经网络模型进行处理,以对应每一单元图像中的标记物对应添加检测框,形成预检单元图像;所述检测框为围合所述标记物的最小矩形框;
S3、按照每一单元图像在原始图像中的分割位置将多个预检单元图像拼接为一幅预输出图像;
S4、判断预输出图像是否存在相邻的两个检测框中框选的标记物为同一标记物:
若是,执行S5:将两个检测框进行合并;
若否,执行S6:保留对应不同标记物的不同检测框;
S7、直至确认为同一标记物的检测框均合并完成后,将带有检测框的图像进行输出。
本发明具体实施方式中,获取的原始图像通常很大,为了提高标识的精确度,需要在对图像进行标识之前,将图像进行分割,在对图像标识之后,再按照分割顺序复原图像。
对于步骤S1,在将原始图像分割为具有相同预定尺寸的多个单元图像过程中,可以以原始图像的边角开始按序分割图像,也可以在原始图像中任选一点后,以该点为基础按需分割图像。相应的,所述方法还包括:若分割过程中存在任一单元图像小于预定尺寸,则在单元图像形成之前对原始图像进行边缘像素值补充,或在单元图像形成之后,对尺寸小于预定尺寸的单元图像进行边缘像素值补充,以使得每一单元图像的尺寸均与所述预定尺寸相同。
需要说明的是,在具体应用过程中,可以先对原始图像进行分割,若最后形成的单元图像尺寸小于预定尺寸时,则仅对最后形成的单元图像进行边缘像素值的补充。也可以在图像分割之前,先行计算当前的原始图像按照预定尺寸进行分割时,是否可以被完整分割,若不能被完整分割,则在分割之前,在原始图像的边缘进行边缘像素值的补充。通常情况下,补充位置的像素值可以根据需要具体设定,例如:设置为0,在此不做进一步的赘述。
较佳的,分割后的所述单元图像为正方形,本发明一具体示例中,分割后的单元图像的尺寸为320*320,单位为像素。
对于步骤S2,所述神经网络模型的构建方法包括:对应每一单元图像采用卷积神经网络(Convolutional Neural Networks,CNN)提取至少一个特征层。
本发明可实现方式中,提取特征层过程中,使用p个m*m的卷积核作为锚框的卷积预测器处理所述单元图像,以预测标记物的种类和位置。其中,m为奇数正整数。所述锚框为预设的长宽比不同的矩形框。p=(c1+c2)*k,其中,c1表示标记物种类的数量, k表示锚框的数量,c2为调整锚框的偏移参数的数量;所述检测框通过锚框进行大小变化获得。
进一步的,根据标记物的种类及尺寸多次对单元图像做池化层处理得到对应的特征层;即标记物的种类及尺寸决定特征层数量及尺寸。具体的,将原始图像上的标记物尺寸进行预划分,以确定特征层的数量及尺寸。
较佳的,在根据标记物的种类及尺寸多次对单元图像做池化层处理得到对应的特征层过程中,所述方法具体包括:在每次对单元图像进行池化层处理之前,均至少1次对所述单元图像做卷积层处理,且其卷积核大小相同。
所述卷积层处理是通过卷积操作对输入图像进行降维和特征抽取;所述池化层处理用以减少图像的空间大小。
为了便于理解,以下描述一具体示例供参考:
如图2至图4所示,本发明一具体示例中,需要标识的标记物种类为三种,参阅图3所示,标记物的形状分别为:圆点型、“O”环型和三室型。由于X射线拍摄可能拍摄到不完整的标记物,或重叠的标记物,因此,即使同一种标记物在X光图像上显示的尺寸也可能不同。从而,需要对X光图像上显示的标记物的尺寸做预划分,以确定需要配置的特征层的数量。
参阅图2所示,建立本示例中特征提取的神经网络模型,配置有3个特征层。原始图像按序分割形成多个320*320的单元图像,通过建立卷积神经网络对每一单元图像进行特征提取。具体的,输入的单元图像的尺寸为320*320,依序对输入的图像进行卷积层处理和池化层处理分别得到所需的特征层。对单元图像(320*320)依次进行2次卷积层处理、1次池化层处理,2次卷积层处理、1次池化层处理,3次卷积层处理、1次池化层处理,3次卷积层处理后,提取特征层1。由于总共进行了3次池化层处理,而每一次池化层处理都会将图像尺寸相较于前一次的图像尺寸缩小一倍,因此,特征层1的图像尺寸缩小为40*40,能够检测尺寸范围为8*8至24*24的标记物。对特征层1图像(40*40)依次进行1次池化层处理和3次卷积层处理后,提取特征层2。此时,特征层2的图像尺寸相较于特征层1又缩小了一倍,为20*20,能够检测尺寸范围为16*16至48*48的标记物。对特征层2图像(20*20)依次进行1次池化层处理和3次卷积层处理后,提取特征层3。此时,特征层3的图像尺寸为10*10,能够检测尺寸范围为32*32至96*96的标记物。其中,每次卷积层处理使用的卷积核大小及卷积核个数,可以根据实际需求设定,例如:卷积核个数为图2中的64、128、256、512等数量。当然,在其他实施例中,可以根据实际需求建立神经网络,配置特征层数量。
较佳的,本发明具体示例中,使用3*3的卷积处理图像,即配置m=3;需要标识的标记物种类为3种,即配置c1=3,其分别为圆点型,“O”环型,三室型;锚框为以任一个像素点为中心生成的多个大小和宽高比不同的边界框;调整锚框的偏移参数具体包括:左上角横向偏移值和纵向偏移值,宽度的缩放倍数以及高度的缩放倍数,即配置c2=4。
具体的,c1的输出是一个一维数组,用result_c1[3]表示。其中,result_c1[0]、result_c1[1]和result_c1[2]是这个数组的三个元素,分别表示锚框中的标记物种类的概率。一具体示例中,result_c1[0]表示锚框中的标记物为圆点型的概率,result_c1[1]表示锚框中的标记物为“O”环形的概率,result_c1[2]表示锚框中的标记物为三室型的概率,这三个元素的取值范围都为0到1。判断锚框中标记物的种类,由这三个元素的最大值决定,例如,当result_c1[0]的值在这三个元素中最大时,此时对应锚框中的标记物为圆点型。
c2的输出是一个一维数组,用result_c2[4]表示。其中,result_c2[0]、result_c2[1]、result_c2[2]和result_c2[3]是这个数组的四个元素,分别表示锚框左上角的横向偏移值、锚框左上角的纵向偏移值、锚框宽度的缩放倍数及锚框高度的缩放倍数,其取值范围都为0到1。通过c2的输出,调整锚框的大小从而形成检测框。
通过上述步骤,初步确认标记物的种类和位置。
另外,需要说明的是,神经网络模型初建立时,首先将用于训练的单元图像进行人工辅助标注,其标注内容为标记物的类别信息,包括:围合每一标记物的检测框,以及检测框对应的左上角坐标值和右下角坐标值。之后,将未标注的单元图像输入到初建的神经网络模型进行预测,预测的结果越接近人工辅助标注的结果,说明神经网络模型检测准确度越高,当预测的结果与人工辅助标注的结果的比值大于预设的比值,表示神经网络模型可以正常应用。在此过程中,预测的结果与人工辅助标注的结果的比值不大于预设的比值时,则需要调整神经网络模型,直至满足需求。如此,通过以上内容训练神经网络模型,使其预测结果更加准确。在此过程中,预测的结果与人工辅助标注的结果的比值不大于预设的比值时,则需要调整神经网络模型,直至满足需求。如此,通过以上内容训练神经网络模型,使其预测结果更加准确。在神经网络建立过程中,可以采用交并比(Intersection overUnion,IOU)评价该神经网络模型的检测准确度,在此不做进一步的赘述。
对于步骤S3,结合图3所示,采用神经网络模型对单元图像中的标记物对应添加检测框后形成如图3所示的,由多幅预检单元图像按照原始图像的分割位置拼接形成的预输出图像。在该具体示例中,处于多个预检单元图像拼接位置的标记物被分解为多个部分,且处于不同预检图像中的同一标记物的多个部分被多个检测框同时标识。如此,导致最终形成的输出图像中,该标记物被多次标识。该具体示例中,图像由4个预检单元图像构成,需要标识的标记物具有三种,分别为标号为1的圆点型,标号为2的“O”环型,以及标号为3的三室型。其中,处于4个预检单元图像交界位置的同一个三室型标记物A,由3个检测框重复标注。若以当前图像进行输出,则对于标记物A会被统计3次,相应的,也会对应给出3个标识位置,不利于标记物的统计及位置确定,从而影响判断被检者胃肠动力的准确性。
相应的,为了解决该问题,本发明较佳实施方式中,需要对同一标记物的多个检测框进行合并,使得最终输出的图像中对应于每一标记物仅唯一标识一个相应的检测框,以利于标记物的统计及位置判定,从而准确判断被检者的胃肠动力。
具体的,对于步骤S4,其具体包括:根据标记物种类的概率确认每个检测框中标记物的种类,若相邻的两个检测框中框选的标记物为同一种类,则根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物。
进一步的,根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物包括:
判断横向拼接的预检单元图像中是否存在相邻的两个检测框中框选的标记物为同一标记物;
以原始图像的左上角为坐标原点建立XY直角坐标系,以坐标原点向右延伸为X轴正向,以坐标原点向下延伸为Y轴正向;其中,x轴为横轴,y轴为纵轴。比较横向相邻的两个检测框的特征值的差值是否在阈值范围内,若是,则确认当前计算使用的两个检测框中框选的标记物为同一标记物;所述特征值为每一检测框的左上角坐标值和右下角坐标值;
即同时满足abs(rectangles[i+1][xL]-rectangles[i][xL])<n1,
和(rectangles[i+1][yL] - rectangles[i][yL])<n2;
其中,abs()表示取绝对值,rectangles[i][]表示横向第i个检测框的坐标值,xL、yL分别表示检测框的左上角的横坐标值和纵坐标值;i取整数,n1∈(1,2,3),n2∈(5,10,15)。
另外,根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物还包括:判断纵向拼接的预检单元图像中是否存在相邻的两个检测框中框选的标记物为同一标记物;
以原始图像的左上角为坐标原点建立XY直角坐标系,以坐标原点向右延伸为X轴正向,以坐标原点向下延伸为Y轴正向;其中,x轴为横轴,y轴为纵轴。比较纵向相邻的两个检测框的特征值的差值是否在阈值范围内,若是,则确认当前计算使用的两个检测框中框选的标记物为同一标记物;所述特征值为每一检测框的左上角坐标值和右下角坐标值;
即同时满足abs(rectangles[j+1][xL]-rectangles[j][xL])<n3,
和abs(rectangles[j+1][yL] - rectangles[j][yL])<n4;
其中,abs()表示取绝对值,rectangles[j][]表示纵向第j个检测框的坐标值,xL、yL分别表示检测框的左上角的横坐标值和纵坐标值;j取整数,n3∈(40,50,60),n4∈(1,2,3)。
进一步的,确认当前计算使用的两个检测框中框选的标记物为同一标记物后,将两个检测框进行合并,其合并方法具体包括:
比较当前用于计算的两个检测框的左上角的坐标值,分别取其横坐标和纵坐标的最小值作为合并后的检测框的左上角坐标值;
比较所述两个检测框的右下角的坐标值,分别取其横坐标和纵坐标的最大值作为合并后的检测框的右下角坐标值。
相应的,横向合并后的检测框的左上角坐标(xaL,yaL)和右下角坐标(xaR,yaR)分别为:
xaL=min(rectangles[i+1][xL],rectangles[i][xL]),
yaL=min(rectangles[i+1][yL],rectangles[i][yL]),
xaR=max(rectangles[i+1][xR],rectangles[i][xR]),
yaR=max(rectangles[i+1][yR],rectangles[i][yR]),
其中,min()表示取最小值,max()表示取最大值;xR、yR分别表示检测框的右下角的横坐标值和纵坐标值。
相应的,纵向合并后的检测框的左上角坐标(xbL,ybL)和右下角坐标(xbR,ybR)分别为:
xbL=min(rectangles[j+1][xL],rectangles[j][xL]),
ybL=min(rectangles[j+1][yL],rectangles[j][yL]),
xbR=max(rectangles[j+1][xR],rectangles[j][xR]),
ybR=max(rectangles[j+1][yR],rectangles[j][yR])。
需要说明的是,对于每幅预输出图像,均需要依次先后在横向、纵向方向上分别判断是否存在相邻的两个检测框中的标记物为同一标记物。横向和纵向的合并顺序不做限定,其可以先横向合并再纵向合并,也可以先纵向合并再横向合并,横向和纵向的先后顺序不会影响最终的输出结果。另外,以上示例中,均以所述特征值为每一检测框的左上角坐标值和右下角坐标值进行描述。实际应用中,所述特征值可以选定为每个检测框上具有相同位置的同一坐标值,例如:其特征值为左下角坐标值和右上角坐标值,所述特征值的变换,不会影响最终的输出结果;在检测框中不同位置选定特征值的方案均包括在本申请的保护范围内,在此不做进一步的赘述。
结合图4所示,经过合并后,处于4个单元图像交汇位置的三室型标记物A在最终的输出图像中,将图3中的3个检测框合并为一个检测框进行输出。
进一步的,经过检测框的标识、合并,再进行图像输出,输出的图像中对应于每一标记物均唯一具有一个检测框。此时,通过图像中检测框的标号及位置可确认标记物的种类及位置,进而确认不同种类的标记物在消化道中的部位,从而确认被检测者的胃肠动力。
进一步的,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述图像识别方法中的步骤。
进一步的,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述图像识别方法中的步骤。
综上所述,本发明的图像识别方法、电子设备及可读存储介质,原始图像通过神经网络模型自动处理添加检测框;进一步的,通过合并重复标识的检测框提高图像标识精确性,进而有效识别标记物在图像中的种类及位置,确认标记物在消化道的分布情况,从而准确判断被检者的胃肠动力。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (11)

1.一种图像识别方法,其特征在于,所述方法包括:
将原始图像分割为具有相同预定尺寸的多个单元图像,所述原始图像中分布若干标记物;
将所述单元图像输入预建立的神经网络模型进行处理,以对应每一单元图像中的标记物对应添加检测框,形成预检单元图像;所述检测框为围合所述标记物的最小矩形框;
按照每一单元图像在原始图像中的分割位置将多个预检单元图像拼接为一幅预输出图像;
判断预输出图像是否存在相邻的两个检测框中框选的标记物为同一标记物:
若是,将两个检测框进行合并;
若否,保留对应不同标记物的不同检测框;
直至确认为同一标记物的检测框均合并完成后,将带有检测框的图像进行输出;
其中,判断预输出图像是否存在相邻的两个检测框中框选的标记物为同一标记物具体包括:根据标记物种类的概率确认每个检测框中标记物的种类,若相邻的两个检测框中框选的标记物为同一种类,则根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物。
2.根据权利要求1所述的图像识别方法,其特征在于,将原始图像分割为具有相同预定尺寸的多个单元图像过程时,所述方法还包括:
若分割过程中存在任一单元图像小于预定尺寸,则在单元图像形成之前对原始图像进行边缘像素值补充,或在单元图像形成之后,对尺寸小于预定尺寸的单元图像进行边缘像素值补充。
3.根据权利要求1所述的图像识别方法,其特征在于,所述神经网络模型的构建方法包括:对应每一单元图像采用卷积神经网络提取至少一个特征层;
提取特征层过程中,使用p个m*m的卷积核作为锚框的卷积预测器处理所述单元图像,p=(c1+c2)*k,其中,锚框为预设的长宽比不同的矩形框,m为奇数正整数,c1表示标记物种类的数量, k表示锚框的数量,c2为调整锚框的偏移参数的数量;所述检测框通过锚框进行大小变化获得。
4.根据权利要求3所述的图像识别方法,其特征在于,所述方法还包括:
根据标记物的种类及尺寸多次对单元图像做池化层处理得到对应的特征层。
5.根据权利要求4所述的图像识别方法,其特征在于,在根据标记物的种类及尺寸多次对单元图像做池化层处理得到对应的特征层过程中,所述方法包括:
在每次对单元图像进行池化层处理之前,均至少1次对所述单元图像做卷积层处理,且其卷积核大小相同。
6.根据权利要求3所述的图像识别方法,其特征在于,所述方法还包括:配置c2=4,调整锚框的偏移参数具体包括:左上角的横向偏移值和纵向偏移值,宽度的缩放倍数以及高度的缩放倍数。
7.根据权利要求1所述的图像识别方法,其特征在于,根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物包括:
以原始图像的左上角为坐标原点建立直角坐标系,比较横向相邻的两个检测框的特征值的差值是否在阈值范围内,若是,则确认当前计算使用的两个检测框中框选的标记物为同一标记物;所述特征值为每一检测框的左上角坐标值和右下角坐标值。
8.根据权利要求1所述的图像识别方法,其特征在于,根据相邻的两个检测框的坐标值确认框选的标记物是否为同一标记物包括:
以原始图像的左上角为坐标原点建立直角坐标系,比较纵向相邻的两个检测框的特征值的差值是否在阈值范围内,若是,则确认当前计算使用的两个检测框中框选的标记物为同一标记物;所述特征值为每一检测框的左上角坐标值和右下角坐标值。
9.根据权利要求7或8任一项所述的图像识别方法,其特征在于,将所述两个检测框进行合并,包括:
比较当前用于计算的两个检测框的左上角的坐标值,分别取其横坐标和纵坐标的最小值作为合并后的检测框的左上角坐标值;
比较所述两个检测框的右下角的坐标值,分别取其横坐标和纵坐标的最大值作为合并后的检测框的右下角坐标值。
10.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任意一项所述图像识别方法中的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任意一项所述图像识别方法中的步骤。
CN202010881849.XA 2020-08-28 2020-08-28 图像识别方法、电子设备及可读存储介质 Active CN111739024B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010881849.XA CN111739024B (zh) 2020-08-28 2020-08-28 图像识别方法、电子设备及可读存储介质
PCT/CN2021/112777 WO2022042352A1 (zh) 2020-08-28 2021-08-16 图像识别方法、电子设备及可读存储介质
EP21860190.4A EP4207058A4 (en) 2020-08-28 2021-08-16 IMAGE RECOGNITION METHOD, ELECTRONIC DEVICE AND READABLE STORAGE MEDIUM
US18/023,973 US20240029387A1 (en) 2020-08-28 2021-08-16 Image recognition method, electronic device and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010881849.XA CN111739024B (zh) 2020-08-28 2020-08-28 图像识别方法、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111739024A true CN111739024A (zh) 2020-10-02
CN111739024B CN111739024B (zh) 2020-11-24

Family

ID=72658900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010881849.XA Active CN111739024B (zh) 2020-08-28 2020-08-28 图像识别方法、电子设备及可读存储介质

Country Status (4)

Country Link
US (1) US20240029387A1 (zh)
EP (1) EP4207058A4 (zh)
CN (1) CN111739024B (zh)
WO (1) WO2022042352A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392857A (zh) * 2021-08-17 2021-09-14 深圳市爱深盈通信息技术有限公司 基于yolo网络的目标检测方法、装置和设备终端
WO2022042352A1 (zh) * 2020-08-28 2022-03-03 安翰科技(武汉)股份有限公司 图像识别方法、电子设备及可读存储介质
WO2022111549A1 (zh) * 2020-11-25 2022-06-02 杭州睿胜软件有限公司 票据识别方法、装置及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573706A (zh) * 2013-10-25 2015-04-29 Tcl集团股份有限公司 一种物体图像识别方法及其系统
US20150257738A1 (en) * 2014-03-13 2015-09-17 Samsung Medison Co., Ltd. Ultrasound diagnosis apparatus and method of displaying ultrasound image
CN106097335A (zh) * 2016-06-08 2016-11-09 安翰光电技术(武汉)有限公司 消化道病灶图像识别系统及识别方法
CN107993228A (zh) * 2017-12-15 2018-05-04 中国人民解放军总医院 一种基于心血管oct影像的易损斑块自动检测方法和装置
EP3506165A1 (en) * 2017-12-31 2019-07-03 Definiens AG Using a first stain to train a model to predict the region stained by a second stain
CN110176295A (zh) * 2019-06-13 2019-08-27 上海孚慈医疗科技有限公司 一种胃肠镜下部位和病灶的实时探测方法及其探测装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542289B (zh) * 2011-12-16 2014-06-04 重庆邮电大学 一种基于多高斯计数模型的人流量统计方法
CN102999918B (zh) * 2012-04-19 2015-04-22 浙江工业大学 全景视频序列图像的多目标对象跟踪系统
CN106408594B (zh) * 2016-09-28 2018-10-02 江南大学 基于多伯努利特征协方差的视频多目标跟踪方法
US10395385B2 (en) * 2017-06-27 2019-08-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN110427800A (zh) * 2019-06-17 2019-11-08 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质
CN110276305B (zh) * 2019-06-25 2021-06-15 广州众聚智能科技有限公司 一种动态商品识别方法
CN110443142B (zh) * 2019-07-08 2022-09-27 长安大学 一种基于路面提取与分割的深度学习车辆计数方法
CN111275082A (zh) * 2020-01-14 2020-06-12 中国地质大学(武汉) 一种基于改进端到端神经网络的室内物体目标检测方法
CN111739024B (zh) * 2020-08-28 2020-11-24 安翰科技(武汉)股份有限公司 图像识别方法、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573706A (zh) * 2013-10-25 2015-04-29 Tcl集团股份有限公司 一种物体图像识别方法及其系统
US20150257738A1 (en) * 2014-03-13 2015-09-17 Samsung Medison Co., Ltd. Ultrasound diagnosis apparatus and method of displaying ultrasound image
CN106097335A (zh) * 2016-06-08 2016-11-09 安翰光电技术(武汉)有限公司 消化道病灶图像识别系统及识别方法
CN107993228A (zh) * 2017-12-15 2018-05-04 中国人民解放军总医院 一种基于心血管oct影像的易损斑块自动检测方法和装置
EP3506165A1 (en) * 2017-12-31 2019-07-03 Definiens AG Using a first stain to train a model to predict the region stained by a second stain
CN110176295A (zh) * 2019-06-13 2019-08-27 上海孚慈医疗科技有限公司 一种胃肠镜下部位和病灶的实时探测方法及其探测装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022042352A1 (zh) * 2020-08-28 2022-03-03 安翰科技(武汉)股份有限公司 图像识别方法、电子设备及可读存储介质
WO2022111549A1 (zh) * 2020-11-25 2022-06-02 杭州睿胜软件有限公司 票据识别方法、装置及可读存储介质
CN113392857A (zh) * 2021-08-17 2021-09-14 深圳市爱深盈通信息技术有限公司 基于yolo网络的目标检测方法、装置和设备终端

Also Published As

Publication number Publication date
WO2022042352A1 (zh) 2022-03-03
CN111739024B (zh) 2020-11-24
US20240029387A1 (en) 2024-01-25
EP4207058A4 (en) 2024-02-21
EP4207058A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
CN111739024B (zh) 图像识别方法、电子设备及可读存储介质
CN110751134B (zh) 目标检测方法、装置、存储介质及计算机设备
CN108009543B (zh) 一种车牌识别方法及装置
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
CN110674804A (zh) 文本图像的检测方法、装置、计算机设备和存储介质
TWI651697B (zh) 停車場空位偵測方法及其偵測模型建立方法
CN109829445B (zh) 一种视频流中的车辆检测方法
CN114092833B (zh) 遥感图像分类方法、装置、计算机设备和存储介质
CN114155365B (zh) 模型训练方法、图像处理方法及相关装置
CN112580434B (zh) 一种基于深度相机的人脸误检优化方法、系统及人脸检测设备
CN111461070B (zh) 文本识别方法、装置、电子设备及存储介质
CN114926722A (zh) 基于YOLOv5的尺度自适应目标检测的方法及存储介质
CN115482523A (zh) 轻量级多尺度注意力机制的小物体目标检测方法及系统
CN111626241A (zh) 一种人脸检测方法及装置
CN113177941B (zh) 一种钢卷边裂识别方法、系统、介质和终端
CN115272691A (zh) 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备
CN111242066B (zh) 大尺寸图像目标检测方法、装置及计算机可读存储介质
US11790640B1 (en) Method for detecting densely occluded fish based on YOLOv5 network
CN112967331B (zh) 一种图像处理的方法、电子设备及存储介质
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN114972335A (zh) 一种用于工业检测的图像分类方法、装置及计算机设备
CN113673478A (zh) 基于深度全景拼接的港口大型设备检测与识别方法
CN112733741A (zh) 交通标识牌识别方法、装置和电子设备
CN111028283A (zh) 图像检测方法、装置、设备及可读存储介质
CN114724175A (zh) 行人图像的检测网络、检测方法、训练方法、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Tingqi

Inventor after: Gao Fei

Inventor after: Duan Xiaodong

Inventor after: Hou Xiaohua

Inventor after: Xie Xiaoping

Inventor after: Xiang Xuelian

Inventor before: Wang Tingqi

Inventor before: Gao Fei

Inventor before: Duan Xiaodong

Inventor before: Hou Xiaohua

Inventor before: Xie Xiaoping

Inventor before: Xiang Xuelian

CB03 Change of inventor or designer information