CN113420694A - 快递流水线的堵塞识别方法、系统、电子设备及可读存储介质 - Google Patents

快递流水线的堵塞识别方法、系统、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113420694A
CN113420694A CN202110740579.5A CN202110740579A CN113420694A CN 113420694 A CN113420694 A CN 113420694A CN 202110740579 A CN202110740579 A CN 202110740579A CN 113420694 A CN113420694 A CN 113420694A
Authority
CN
China
Prior art keywords
blockage
recognition
image
training
monitoring image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110740579.5A
Other languages
English (en)
Inventor
徐梦佳
李斯
杨周龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongpu Software Co Ltd
Original Assignee
Dongpu Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongpu Software Co Ltd filed Critical Dongpu Software Co Ltd
Priority to CN202110740579.5A priority Critical patent/CN113420694A/zh
Publication of CN113420694A publication Critical patent/CN113420694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种快递流水线的堵塞识别方法、系统、电子设备及可读存储介质。其中堵塞识别方法具体包括:先获取快递流水线的监测图像;再根据预先训练的识别模型,对监测图像中是否存在堵塞情况进行识别,生成相应的识别结果;最后根据识别结果,在监测图像中存在堵塞情况时,对堵塞情况发生区域进行标注并生成相应的提示信息。其中,识别模型通过以下步骤训练得到;获取多个存在堵塞情况的监测图像;对存在所述堵塞情况的监测图像进行预处理,以得到标注有堵塞情况发生区域的训练样本;根据训练样本,采用基于SpinalNet架构的Retinanet目标检测模型对堵塞情况进行识别训练,以生成相应的识别模型。通过该种堵塞识别方法能够实现对快递流水线的及时堵塞提醒。

Description

快递流水线的堵塞识别方法、系统、电子设备及可读存储介质
技术领域
本发明涉及快递运输管理的技术领域,具体地,公开了一种快递流水线的堵塞识别方法、系统、电子设备及可读存储介质。
背景技术
随着电商行业的蓬勃发展,人们可以足不出户对自己心仪的商品进行选购,并能够享受到商品送货上门的人性化服务。显而易见的是,高速发展的电商行业对快递物流行业产生了极大的利好影响,快递物流网点日常揽收件量随着人们购买需求的增长而与日俱增。
但是,随着业务数量的增加,对于快递物流行业的物流运输时效要求也随之提高。目前,在快递运输环节中,自动化分拣中心的快递流水线经常会产生快件拥堵的情况,这些快件拥堵情况目前只有通过分拣工作人员对于自动化分拣中心进行巡视和现场检查才能够发现和解决。这导致对于规模较大的自动化分拣中心,存在现场巡视的人力成本较高,且存在无法及时发现快件堵塞的情况,进而容易造成快件包裹以及快递流水线的损坏,进一步影响自动化分拣中心的分拣效率。
发明内容
针对现有技术中存在的上述缺陷,本发明提供一种快递流水线的堵塞识别方法、系统、电子设备及可读存储介质。
在本申请的第一方面提供了一种快递流水线的堵塞识别方法,其特征在于,所述堵塞识别方法包括:
获取快递流水线的监测图像;
根据预先训练的识别模型,对监测图像中是否存在堵塞情况进行识别,生成相应的识别结果;
根据识别结果,在监测图像中存在堵塞情况时,生成相应的提示信息;
其中,识别模型通过以下步骤训练得到;
获取多个存在堵塞情况的监测图像;
对存在堵塞情况的监测图像进行预处理,以得到标注有堵塞情况发生区域的训练样本;
根据训练样本,采用基于SpinalNet架构的Retinanet目标检测模型对堵塞情况进行识别训练,以生成识别模型。
在上述第一方面的一种可能的实现中,对存在堵塞情况的监测图像的预处理具体包括:
对监测图像中的堵塞情况发生区域进行标注划分,生成相应的.xml格式的标注文件;
将.xml格式的标注文件转化为.csv格式的训练集,.csv格式的训练集包括监测图像的图像信息和堵塞情况发生区域于监测图像中的分布信息。
在上述第一方面的一种可能的实现中,前述基于SpinalNet架构的Retinanet目标检测模型包括:
基于SpinalNet架构的主干网络,用于对监测图像的图像特征进行提取;
第一子网,用于对堵塞情况发生区域和监测图像中的其他区域进行区分;
第二子网,用于对堵塞情况发生区域的边缘进行回归确定。
在上述第一方面的一种可能的实现中,对监测图像中是否存在堵塞情况进行识别的具体步骤包括:
主干网络对所述监测图像进行图像特征提取和图像金字塔的处理,以获取多个有效特征层;
将每个有效特征层分别经过第一子网和第二子网,以获取监测图像中是否存在堵塞情况的预测结果;
根据预测结果,在监测图像中存在堵塞情况时,对监测图像中的堵塞情况发生区域进行标注。
在上述第一方面的一种可能的实现中,前述主干网络包括依次序设置的多个输入行、依次序设置的多个中间行和输出行,输入行和中间行一一对应设置。其中,中间行接收对应的输入行的输入内容,并将输出内容输出至输出行和依次序的下一个中间行。
在上述第一方面的一种可能的实现中,采用RAdam优化器对基于SpinalNet架构的Retinanet目标检测模型中的优化器进行替换。其中,RAdam优化器用于加快基于SpinalNet架构的Retinanet目标检测模型的识别训练速度。
在上述第一方面的一种可能的实现中,训练样本包括第一预设比例的训练集、第二预设比例的验证集和第三预设比例的测试集。
本申请的第二方面提供了一种快递流水线的堵塞识别系统,应用于前述第一方面所提供的堵塞识别方法中,该种堵塞识别系统具体包括:
监测模块,用于获取快递流水线的监测图像;
识别模块,连接监测模块,用于根据预先训练的识别模型,对监测图像中是否存在堵塞情况进行识别,生成相应的识别结果;
提示模块,连接识别模块,用于根据识别结果,在监测图像存在堵塞情况时,生成相应的提示信息。
本申请的第三方面提供了一种电子设备,包括:存储器,存储器用于存储处理程序;处理器,处理器执行处理程序时实现前述第一方面所提供的堵塞识别方法。
本申请的第四方面提供了一种可读存储介质,该种可读存储介质上存储有处理程序,处理程序被处理器执行时实现前述第一方面所提供的堵塞识别方法。
与现有技术相比,本申请具有如下的有益效果:
通过本申请提出的技术方案,使用基于SpinalNet架构的Retinanet目标检测模型,对其采用大量的训练样本进行训练以得到能够对快递流水线的堵塞情况进行识别的识别模型。使用该种识别模型能够根据针对快递流水线的监测画面,自动识别是否存在堵塞情况,并当堵塞情况发生时在监测画面中对堵塞情况发生区域进行主动标识,能够代替自动化快递分拣中心的人工巡检,降低人力成本,同时能够在堵塞情况发生时及时定位堵塞情况发生区域并发出预警,有效保障了快递分拣的安全性和整体的分拣效率。
针对上述堵塞识别方法中运用到的识别模型,考虑到对其进行训练过程需要用到大量的训练样本,进一步使用RAdam作为Retinanet目标检测模型中的优化器,能够大大提升Retinanet目标检测模型的训练速度。同时,对于该识别模型中的主干网络,进一步选择SpinalNet架构进行逐层输入和逐层输出,能够克服Retinanet目标检测模型中深度神经网络的计算量大、梯度消失、连接层数量过高等实际应用问题,进一步提升了本技术方案的可适用性和可推广价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1根据本申请实施例,示出了一种快递流水线的堵塞识别方法的流程示意图;
图2根据本申请实施例,示出了一种识别模块训练方法的流程示意图;
图3根据本申请实施例,示出了一种对存在堵塞情况的监测图像进行预处理的流程示意图;
图4根据本申请实施例,示出了一种RAdam优化器具体实施步骤的流程示意图;
图5根据本申请实施例,示出了一种对监测图像中是否存在堵塞情况进行识别的流程示意图;
图6根据本申请实施例,示出了一种Spinalnet架构的结构示意图;
图7根据本申请实施例,示出了一种快递流水线的堵塞识别系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
为了解决现有技术中存在的人力成本高以及无法对快递流水线堵塞情况进行及时响应的问题,本申请提出了一种快递流水线的堵塞识别方法、系统、电子设备及可读存储介质。通过该种堵塞识别方法,能够根据针对快递流水线的监测画面,自动识别是否存在堵塞情况,并当堵塞情况发生时在监测画面中对堵塞情况发生区域进行主动标识,从而代替自动化快递分拣中心的人工巡检,降低人力成本。该种堵塞识别方法同时能够在堵塞情况发生时及时定位堵塞情况发生区域并发出预警,有效保障了快递分拣的安全性和整体的分拣效率。
具体地,图1根据本申请的一些实施例,示出了一种堵塞识别方法的流程示意图,具体包括:
步骤101:获取快递流水线的监测图像。可以理解的是,快递流水线的监测图像可以是实时监测图像,也可以是间隔一定周期获取的监测图像,用户可以根据自动化分拣中心配备的视频监测系统进行灵活设置,在此不做限定。
步骤102:根据预先训练的识别模型,对监测图像中是否存在堵塞情况进行识别,生成相应的识别结果。其中,有关识别模型的训练过程以及如何对堵塞情况进行识别将于后文中进行具体描述。
步骤103:根据识别结果,在监测图像中存在堵塞情况时,生成相应的提示信息。
可以理解的是,当根据识别结果,判断出对于快递流水线中某一幅或某几幅监测图像存在堵塞情况时,可以通过上述堵塞识别方法生成相应的提示信息,提示当前自动化分拣中心的某一条或几条流水线出现了快递堵塞的情况,要求运维人员及时进行现场查看和堵塞排除。为了帮助运维人员快速定位堵塞情况的发生位置,也可以通过上述堵塞识别方法在监测图像上对于堵塞情况发生区域进行标注,考虑到上述堵塞识别方法中运用到的堵塞情况识别模型存在误报的可能性,运维人员也能够通过监测图像上的标记信息和实际图像画面判断是否属于识别模型的误报情况。通过本实施例中的堵塞识别方法能够对快递流水线中可能出现的堵塞情况进行及时识别和响应,从而保障了整体的分拣效率。
于前述实施例中,该种堵塞识别方法的实现需要依托识别模型对于监测图像的识别结果,考虑到快递流水线中出现堵塞情况较为复杂,对于监测图像进行堵塞情况识别的难度较大,较难人为设定一系列的识别判断规则。在此情况下,可以基于神经网络深度学习的方式,采用大量的包含堵塞情况的监测图像样本对预设的识别模型进行训练,以得到前述堵塞识别方法所需的识别模型。
具体地,图2根据本申请的一些实施例,示出了一种识别模型训练方法的流程示意图,具体包括:
步骤201:获取多个存在堵塞情况的监测图像。可以理解的是,为了保证训练效果符合预期,可以通过调用自动化分拣中心的视频监控系统等方式获取大量的存在快件堵塞情况的监测图像作为训练素材,使得训练得到的识别模型能够有效对各类堵塞情况进行准确识别。
步骤202:对存在堵塞情况的监测图像进行预处理,以得到标注有堵塞情况发生区域的训练样本。可以理解的是,对于存在堵塞情况的监测图像而言,堵塞情况发生区域可能只占据监测图像整体区域中的一部分。例如当快递流水线的末端出现快件堵塞的情况时,针对该条快递流水线的监测图像需要覆盖该条快递流水线的全部区域,导致发生堵塞情况的末端在监测图像对应的画面中仅占据很小的区域。因此,需要对存在堵塞情况的监测图像进行预处理以标记出堵塞情况的发生区域,从而将堵塞情发生区域和其他背景区域进行区分,帮助识别模型对堵塞区域进行更好地识别。有关预处理的具体流程实现将于后文中进行具体描述。
步骤203:根据训练样本,采用基于SpinalNet架构的Retinanet目标检测模型对堵塞情况进行识别训练,以生成识别模型。其中,有关基于SpinalNet架构的Retinanet目标检测模型将于后文中进行详细描述。
进一步地,图3根据本申请的一些实施例,示出了对存在堵塞情况的监测图像的预处理具体流程示意,包括:
步骤202a:对监测图像中的堵塞情况发生区域进行标注划分,生成相应的.xml格式的标注文件。可以理解的是,.xml格式文件由一个个标签对象所组成,且标签之间存在层级关系。于上述实施例中,可以采用labeling软件对监测图像中出现快件堵塞的区域进行圈出,并对圈出的区域标注其属于“堵塞情况发生区域”。本领域技术人员也可以根据实际需要采用其他软件以实现上述标注划分动作,在此不做限定。
步骤202b:将.xml格式的标注文件转化为.csv格式的训练集,.csv格式的训练集包括监测图像的图像信息和堵塞情况发生区域于监测图像中的分布信息。可以理解的是,.xml格式文件中每一个底层的标签对象可以表示一个标注框,标注框中可以是堵塞情况发生区域。在将.xml格式的标注文件转化为.csv格式的训练集的过程中,每个标注框都会在.csv文件中生成一条数据,每条数据的属性值可以包括:监测图像对应的文件名、监测图像对应的长度与宽度、标注框对应的长度与宽度、标注框中对应的画面类别(包括画面类别为堵塞情况发生区域和画面类别为背景区域)以及标注框在监测图像中的所处位置,其中标注框在监测图像中的所处位置可以通过对监测图像建立平面坐标系来确定,通过确定标注框中任意两个顶角的坐标,例如左上角和右上角,对标注框的所在位置进行确定。
具体地,每条数据的属性值可以按照以下数据集格式进行表示:
path/to/image.jpg,x1,y1,x2,y2,class_name
其中path为具体存放路径,image,jpg为监测图像对应的文件名,x1和y1为标注框的左上角的横纵坐标,x2和y2为标注框的右上角的横纵坐标,class_name为对应的画面类别。例如,在快递流水线堵塞识别中的一个完整训练样本示例可以表示为:
data/pics/img00001.jpg,417,342,781,436,vio
又例如,若一张图片中没有包含任何需要进行检测或是识别的目标,则可以按照以下数据集格式进行表示:
path/to/image.jpg,,,,,
进一步地,于上述实施例中,训练样本中可以包括第一预设比例的训练集、第二预设比例的验证集和第三预设比例的测试集。具体地,可以对训练样本按照“50%:30%:20%”的比例对训练集、验证集和测试集进行划分,训练集占比为50%,验证集占比为30%,测试集占比为20%。其中,训练集用于对识别模型进行训练;验证集用于对识别模型的训练成果进行验证,在通过验证的情况下完成对识别模型的训练;在训练过程完成后,还可以从测试集中选取一项或多项训练样本对识别模型进行识别结果的对比校验,便于进一步对识别模型的识别准确度进行考量。
例如,于上述实施例的一种具体实施场景中,对于训练样本的存放形式可以包括以下的数据文件夹格式:train_annotations.csv,用于对训练集进行存放;val_annotations,用于对验证集进行存放;以及classes.csv,用于对类别文件进行存放。于上述具体实施场景中,用户也可以根据具体情况新建数据文件夹,用于存放.jpg等图片格式的监测图像原图。
可以理解的是,于前述实施例中,对于识别模型的训练方式进行了相应的阐释和说明。而为了进一步对训练方式进行优化和改进,还可以对前述步骤003中的训练过程进行优化,来克服大量训练样本所导致的训练用时过长或是出现局部最优解导致训练过程无法收敛等实际应用过程中出现的问题。
具体地,在本申请的一些实施例中,可以采用RAdam优化器对基于SpinalNet架构的Retinanet目标检测模型中的优化器进行替换。其中,RAdam优化器用于加快基于SpinalNet架构的Retinanet目标检测模型的识别训练速度。
可以理解的是,在现有的神经网络模型训练过程中,通常采用Adam优化器进行训练优化,相较于传统的SDG优化器,Adam优化器能够对学习速率进行自适应调整,具有快速收敛的优势,从而起到较佳的训练优化效果。但是,Adam这类自适应学习速率的优化器在早期的训练中,容易因缺乏采样的样本数量而导致的自适应学习率方差过大,从而陷入收敛到较差的局部最优的风险。由于Adam优化器容易在训练的开始阶段即陷入糟糕的局部最优状态,将会导致训练的周期曲线更长、收敛更加困难。
现有技术中,针对Adam优化器出现的前述问题,往往采用热身(warmup)启发式方式来进行解决,即在训练早期阶段先使用较小的学习率开始训练,然后逐渐增大学习率到正式训练使用的学习率,剩下的训练过程使用正式训练中的学习率调整策略。这样虽然可以克服训练初期由于缺乏采样的样本数量而导致的自适应学习率方差过大的问题。但由于一般研究者都是通过反复试错的方式找到合适的warmup超参数设置,对目标检测模型的识别训练速度会造成不小的影响,同时还可能需要重复对超参数进行必要的调整和修改,步骤较为复杂繁琐。
而在本申请的上述实施例中,采用RAdam优化器对Adam优化器进行替代。考虑到热身启发式方式的本质是一种方差减速器,但所需的各项超参数调整均是未知的,且针对各个不同训练集需要进行针对化的超参数调整,因此,在Radam优化器中提出了一种动态方差减速器——即整流器(rectifier)项,这将允许自适应动量缓慢但稳定地得到充分表达。作为一个基础方差的函数,RAdam优化器的实现方式可以如下所示:
具体地,RAdam优化器的输入包括深度神经网络中第t步的步长αt、衰减率β1和衰减率β2,其中衰减率β1用于计算指数加权平均长度ρ,衰减率β2用于计算指数加权平均长度的二阶矩。RAdam优化器的输出为超参数θt,超参数θt与迭代步数t相关。
于上述实施例中,图4示出了RAdam优化器的具体实施步骤,包括:
步骤401:对一次动量项和二次动量项进行初始化。其中,初始化的一次动量项记为m0,初始化的二次动量项记为v0,初始化的依次动量项和二次动量项的值均为零。
步骤402:计算最大的指数加权平均长度。可以理解的是,该值是根据一系列的计算公式推导而得出的收敛值。具体地,指数加权平均长度的计算方式为:
Figure BDA0003141252230000081
其中,ρ∞为指数加权平均长度的最大值。
步骤403:于t次迭代过程中,执行指数加权平均操作,以获得第t次迭代过程中的梯度、第t次迭代过程中的一次动量项和第t次迭代过程中的二次动量项。其中,第t次迭代过程中的梯度记为gt,第t次迭代过程中的一次动量项记为mt,第t次迭代过程中的二次动量项记为vt。具体地,第t次迭代过程中的梯度、第t次迭代过程中的一次动量项和第t次迭代过程中的二次动量项的计算方式为:
gt←Δθ*ftt-1)
vt←β2*vt-1+(1-β2)*gt2
mt←β1*mt-1+(1-β1)*gt
其中,ft(θ)为与超参数θt相关的随机目标函数。
步骤404:计算第t次迭代过程中的修正指数加权移动平均值。其中,第t次迭代过程中的修正指数加权移动平均值记为
Figure BDA0003141252230000082
其计算方式可以为:
Figure BDA0003141252230000083
步骤405:计算第t次迭代过程中的近似指数加权平均长度。其中,第t次迭代过程中的近似指数加权平均长度记为ρt,其计算方式可以为:
ρt←ρ∞-2t*β2t/(1-β2t)
步骤406:判断最大的指数加权平均长度是否大于4,若是则转向步骤407,若都则转向步骤408。可以理解的是,由于在推导过程中,需要每次迭代过程中ρt的长度至少为5才能够成立,故而当最大的指数加权平均长度大于4时,可以转向步骤407执行后续操作;而当最大的指数加权平均长度不大于4时,则需要转向步骤408使用非自适应动量对超参数θt进行更新。
步骤407:对二次动量项进行修正,同时计算方差修正项以及更新超参数θt,而后返回步骤403执行第(t+1)次迭代过程。其中修正二次动量项记为
Figure BDA0003141252230000091
方差修正项记为rt,其计算方式可以为:
Figure BDA0003141252230000092
Figure BDA0003141252230000093
Figure BDA0003141252230000094
步骤408:使用非自适应动量对超参数θt进行更新,而后返回步骤403执行第(t+1)次迭代过程。其中,超参数θt的更新方式可以为:
Figure BDA0003141252230000095
可以理解的是,基于前述对RAdam优化器的说明,由于衰减率和基本方差的存在,RAdam可以在动量等效的情况下退化为SGD优化器,即可以训练初期使用带动量的SGD更新,从而避免落入局部最优值的错误收敛方向。相较于Adam优化器,RAdam优化器具有更好的性能和更佳的稳定性,能够在范围更广的学习率下得到所需的收敛效果;同时无需进行热身启发,能够进一步加快对识别模型的训练速度。
值得注意的是,于本申请技术方案中,特别采用基于SpinalNet架构的Retinanet目标检测模型作为识别模型进行训练,以下将对识别模型的整体结构以及如何实现对监测图像的进行堵塞情况识别进行相应说明。
在本申请的一些实施例中,所采用的基于SpinalNet架构的Retinanet目标检测模型可以包括:
基于SpinalNet架构的主干网络,用于对监测图像的图像特征进行提取。
第一子网,用于对堵塞情况发生区域和监测图像中的其他区域进行区分。
第二子网,用于对堵塞情况发生区域的边缘进行回归确定。
可以理解的是,Retinanet目标检测模型是一种应用One-Stage目标检测方法的模型,使用先验框对于预测性能进行提升,并使用Focal Loss训练对先验框的正负样本进行平衡。
于上述实施例中,Retinanet目标检测模型采用的主干网络可以是Resnet网络。具体地,Resnet有两个基本的块,分别名为卷积残差块(Conv Block)和恒等残差块(IdentityBlock),其中卷积残差块的输入和输出属于不同维度,不能连续串联,用于改变Resnet网络的维度;恒等残差块的输入维度和输出维度相同,可以串联,用于加深Resnet网络的深度。
可以理解的是,于上述实施例中,主干网络用于对检测图像的图像特征进行提取,提取过程将于后文中进行详细描述,其中图像特征具体可以用先验框进行表示。对于已提取得到的图像特征,将其分别经过第一子网和第二子网进行预测处理,其中,第一子网根据先验框是否属于堵塞情况发生区域的分类对是否存在堵塞情况进行预测,第二子网根据属于堵塞情况发生区域的先验框的分布情况对堵塞情况发生区域进行预测。
具体地,于上述实施例中,如图5所示,对监测图像中是否存在堵塞情况进行识别的具体步骤包括:
步骤501:主干网络对监测图像进行图像特征提取和图像金字塔的处理,以获取多个有效特征层。
可以理解的是,考虑到检测不同尺度的目标很有挑战性,尤其是针对监测图像中快递堵塞情况这样的小目标检测,于上述步骤501中在图像特征提取环节引入了图像金字塔网络。图像金字塔网络作为一种旨在提高准确率和速度的特征提取器,由自下而上和自上而下路径组成,其中:自下而上的路径是用于特征提取的常用卷积网络,空间分辨率自下而上地下降;当检测到更高层的结构,每层的语义值增加。自上而下的路径是根据紫霞二行的路径重构获得的,从语义丰富的层构建高分辨率的层。考虑到经过所有的上采样和下采样之后容易出现目标位置不精确的问题,可以在重建层和相应的特征图之间添加横向连接可以使位置侦测更加准确。
步骤502:将每个有效特征层分别经过第一子网和第二子网,以获取监测图像中是否存在堵塞情况的预测结果。
具体地,于上述步骤502中,第一子网可以对每个有效特征层采用4次256通道的卷积和1次(num_priors)*(num_classes)的卷积。其中,num_priors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测,(num_priors)*(num_classes)的卷积用于预测有效特征层上每一个预测框对应的种类。
具体地,于上述步骤502中,第二子网可以对每个有效特征层采用4次256通道的卷积和1次(num_priors)*4的卷积。其中,num_priors指的是该特征层所拥有的先验框数量,4指的是先验框的调整情况,(num_priors)*4的卷积用于预测有效特征层上每一个先验框的变化情况。
可以理解的是,结合第一子网和第二子网的预测结果并执行对应的解码操作后,可以获得监测图像中是否存在堵塞情况的预测结果,并可在监测图像中存在堵塞情况的情况下,生成对堵塞情况发生区域进行标记的预测框。
步骤503:根据预测结果,在监测图像中存在堵塞情况时,对监测图像中的堵塞情况发生区域进行标注。可以理解的是,为了帮助运维人员快速定位堵塞情况的发生位置,可以在监测图像上对于堵塞情况发生区域进行标注,考虑到上述堵塞识别方法中运用到的堵塞情况识别模型存在误报的可能性,运维人员也能够通过监测图像上的标记信息和实际图像画面判断是否属于识别模型的误报情况。
进一步地,于前述实施例中,主干网络可以基于SpinalNet架构进行设置。具体地,如图6所示,该种架构包括依次序设置的多个输入行601、依次序设置的多个中间行602和输出行603,输入行601和中间行602一一对应设置。其中,中间行602接收对应的输入行601的输入内容,并将输出内容输出至输出行603和依次序的下一个中间行602。即,中间行的输出不仅指向输出行,还在存在下一个中间行的情况下指向下一个中间行。
可以理解的是,Retinanet目标检测模型是典型的深度神经网络模型。对于深度神经网络模型而言,考虑到更多的识别参数通常会提高预测的准确性,深度神经网络在应用过程中通常存有大量的输入特征,这就对深度神经网络的第一个隐藏层的大小提出了较高的要求:较小的第一隐层不能正确地传播所有的输入特征,而较大的第一隐层则会急剧增加权值的数量。此外,现有的深度神经网络还面临着梯度消失的问题:当层数较多时,输出附近神经元的梯度较高,而输入附近神经元的梯度则可以忽略不计,这将会使得深度神经网络的训练变得困难。
为了克服传统深度神经网络模型中存在的上述问题,针对本申请实施例中提出的Retinanet目标检测模型,可以采用Spinalnet架构对Retinanet目标检测模型的主干网络进行优化,将主干网络的全连接输出修改为逐层输出。具体地,如图6所示,Spinalnet架构包括输入行601、中间行602及输出行603,其中中间行602由不同的多个隐藏层组成所组成。
在本申请如图6所示的实施例中,每个中间行602隐含层由两个神经元组成。相应地,输出行603隐含层也同样由两个神经元组成。可以理解的是,为了减少乘法运算的数目,中间行602的神经元的数目以及每个输入层601输入的数目通常保持较小。
在本申请如图6所示的实施例中,由于每层输入的数量和中间行神经元的数量通常较低,导致主干网络可能存在拟合不足的问题。为了克服上述问题,中间行602需要在将输出内容输出至输出行603的同时,将输出内容同步输出至依次序的下一个中间行602中。可以理解的是,由于重复输入以及输出内容的繁复迭代,如果一个重要的特征不影响一个隐藏层的输出,它可能会影响以后隐藏层的输出。此外,于上述基于SpinalNet架构的主干网络中,中间行602隐含层可以具有非线性激活函数,输出行603隐含层可以具有线性激活函数。
在本申请的一些实施例中,还提供了一种快递流水线的堵塞识别系统。具体地,如图7所示,该种堵塞识别系统可以包括:
监测模块1,用于获取快递流水线的监测图像;
识别模块2,连接监测模块1,用于根据预先训练的识别模型,对监测图像中是否存在堵塞情况进行识别,生成相应的识别结果;
提示模块3,连接识别模块2,用于根据识别结果,在监测图像存在堵塞情况时,生成相应的提示信息。
可以理解的是,上述堵塞识别系统中各个功能模块执行与前述堵塞识别方法中相同的步骤流程,在此不做赘述。
在本申请的一些实施例中,还提供了一种电子设备。该种电子设备中包含存储器和处理器,其中存储器用于对处理程序进行存储,处理器则根据指令对处理程序进行执行。当处理器对处理程序进行执行时,使得前述实施例中的堵塞识别方法得以实现。
在本申请的一些实施例中,还提供了一种可读存储介质,该可读存储介质可以为非易失性可读存储介质,也可以为易失性可读存储介质。该可读存储介质中存储有指令,当该指令在计算机上运行时,使得包含该种可读存储介质的电子设备执行前述的堵塞识别方法。
可以理解的是,对于前述堵塞识别系统中的各个功能模块,如果均以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-only memory,ROM)、随机存取存储器(Random accessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,基于前述实施例的描述可以看出,本申请提出的技术方案,使用基于SpinalNet架构的Retinanet目标检测模型,对其采用大量的训练样本进行训练以得到能够对快递流水线的堵塞情况进行识别的识别模型。使用该种识别模型能够根据针对快递流水线的监测画面,自动识别是否存在堵塞情况,并当堵塞情况发生时在监测画面中对堵塞情况发生区域进行主动标识,能够代替自动化快递分拣中心的人工巡检,降低人力成本,同时能够在堵塞情况发生时及时定位堵塞情况发生区域并发出预警,有效保障了快递分拣的安全性和整体的分拣效率。同时,针对上述堵塞识别方法中运用到的识别模型,对其的训练过程和识别预测过程做出了进一步的优化,不仅能够大大该种提升Retinanet目标检测模型的训练速度和稳定性,还能够克服深度神经网络的计算量大、梯度消失、连接层数量过高等实际应用问题,进一步提升了本技术方案的可适用性和可推广价值。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种快递流水线的堵塞识别方法,其特征在于,所述堵塞识别方法包括:
获取所述快递流水线的监测图像;
根据预先训练的识别模型,对所述监测图像中是否存在堵塞情况进行识别,生成相应的识别结果;
根据所述识别结果,在所述监测图像中存在所述堵塞情况时,生成相应的提示信息;
其中,所述识别模型通过以下步骤训练得到;
获取多个存在所述堵塞情况的监测图像;
对存在所述堵塞情况的监测图像进行预处理,以得到标注有堵塞情况发生区域的训练样本;
根据所述训练样本,采用基于SpinalNet架构的Retinanet目标检测模型对所述堵塞情况进行识别训练,以生成所述识别模型。
2.如权利要求1所述的堵塞识别方法,其特征在于,对存在所述堵塞情况的监测图像的所述预处理具体包括:
对所述监测图像中的所述堵塞情况发生区域进行标注划分,生成相应的.xml格式的标注文件;
将所述.xml格式的标注文件转化为.csv格式的训练集,所述.csv格式的训练集包括所述监测图像的图像信息和所述堵塞情况发生区域于所述监测图像中的分布信息。
3.如权利要求1所述的堵塞识别方法,其特征在于,所述基于SpinalNet架构的Retinanet目标检测模型包括:
基于SpinalNet架构的主干网络,用于对所述监测图像的图像特征进行提取;
第一子网,用于对所述堵塞情况发生区域和其他区域进行区分;
第二子网,用于对所述堵塞情况发生区域的边缘进行回归确定。
4.如权利要求3所述的堵塞识别方法,其特征在于,对所述监测图像中是否存在堵塞情况进行识别的具体步骤包括:
所述主干网络对所述监测图像进行图像特征提取和图像金字塔的处理,以获取多个有效特征层;
将每个所述有效特征层分别经过所述第一子网和所述第二子网,以获取所述监测图像中是否存在所述堵塞情况的预测结果;
根据所述预测结果,在所述监测图像中存在所述堵塞情况时,对所述监测图像中的所述堵塞情况发生区域进行标注。
5.如权利要求3所述的堵塞识别方法,其特征在于,所述主干网络包括依次序设置的多个输入行、依次序设置的多个中间行和输出行,所述输入行和所述中间行一一对应;
所述中间行接收对应的所述输入行的输入内容,并将输出内容输出至所述输出行和依次序的下一个所述中间行。
6.如权利要求1所述的堵塞识别方法,其特征在于,采用RAdam优化器对所述基于SpinalNet架构的Retinanet目标检测模型中的优化器进行替换;
所述RAdam优化器用于加快所述基于SpinalNet架构的Retinanet目标检测模型的识别训练速度。
7.如权利要求1所述的堵塞识别方法,其特征在于,所述训练样本包括第一预设比例的训练集、第二预设比例的验证集和第三预设比例的测试集。
8.一种快递流水线的堵塞识别系统,其特征在于,应用于如权利要求1至7中任意一项所述的堵塞识别方法中,所述堵塞识别系统具体包括:
监测模块,用于获取所述快递流水线的监测图像;
识别模块,连接所述监测模块,用于根据预先训练的识别模型,对所述监测图像中是否存在堵塞情况进行识别,生成相应的识别结果;
提示模块,连接所述识别模块,用于根据所述识别结果,在所述监测图像存在所述堵塞情况时,生成相应的提示信息。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器用于存储处理程序;
处理器,所述处理器执行所述处理程序时实现如权利要求1至7中任意一项所述的堵塞识别方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有处理程序,所述处理程序被处理器执行时实现如权利要求1至7中任意一项所述的堵塞识别方法。
CN202110740579.5A 2021-06-30 2021-06-30 快递流水线的堵塞识别方法、系统、电子设备及可读存储介质 Pending CN113420694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110740579.5A CN113420694A (zh) 2021-06-30 2021-06-30 快递流水线的堵塞识别方法、系统、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110740579.5A CN113420694A (zh) 2021-06-30 2021-06-30 快递流水线的堵塞识别方法、系统、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113420694A true CN113420694A (zh) 2021-09-21

Family

ID=77717511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110740579.5A Pending CN113420694A (zh) 2021-06-30 2021-06-30 快递流水线的堵塞识别方法、系统、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113420694A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989546A (zh) * 2021-10-11 2022-01-28 中冶南方工程技术有限公司 一种基于神经网络的料场皮带运输监控方法
CN114049300A (zh) * 2021-10-11 2022-02-15 中冶南方工程技术有限公司 一种基于目标检测的料场皮带堵料的检测方法
CN115062945A (zh) * 2022-06-08 2022-09-16 启明信息技术股份有限公司 一种基于离散非刚性产线工位节拍的停工预算方法
CN117745246A (zh) * 2024-02-19 2024-03-22 宜宾丰源盐业有限公司 基于视频图像处理的日化盐生产流程智能化管理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989546A (zh) * 2021-10-11 2022-01-28 中冶南方工程技术有限公司 一种基于神经网络的料场皮带运输监控方法
CN114049300A (zh) * 2021-10-11 2022-02-15 中冶南方工程技术有限公司 一种基于目标检测的料场皮带堵料的检测方法
CN115062945A (zh) * 2022-06-08 2022-09-16 启明信息技术股份有限公司 一种基于离散非刚性产线工位节拍的停工预算方法
CN117745246A (zh) * 2024-02-19 2024-03-22 宜宾丰源盐业有限公司 基于视频图像处理的日化盐生产流程智能化管理方法
CN117745246B (zh) * 2024-02-19 2024-04-19 宜宾丰源盐业有限公司 基于视频图像处理的日化盐生产流程智能化管理方法

Similar Documents

Publication Publication Date Title
CN113420694A (zh) 快递流水线的堵塞识别方法、系统、电子设备及可读存储介质
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
US11816165B2 (en) Identification of fields in documents with neural networks without templates
US10853699B2 (en) Method and apparatus for vehicle damage identification
US11775746B2 (en) Identification of table partitions in documents with neural networks using global document context
RU2723293C1 (ru) Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа
US10380456B2 (en) Classification dictionary learning system, classification dictionary learning method and recording medium
US11023720B1 (en) Document parsing using multistage machine learning
KR102283197B1 (ko) 상품의 유형을 결정하는 방법 및 디바이스
CN111738979A (zh) 证件图像质量自动检查方法及系统
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
CN109726288A (zh) 基于人工智能处理的文本分类方法和装置
CN117095402A (zh) 一种签收单的处理方法、装置、介质及电子设备
CN112508684A (zh) 一种基于联合卷积神经网络的催收风险评级方法及系统
US20200257737A1 (en) Document handling
CN110807523B (zh) 相似目标的检测模型生成方法及设备
Lee A data mining approach using transaction patterns for card fraud detection
CN116563869B (zh) 页面图像文字处理方法、装置、终端设备和可读存储介质
CN111178443B (zh) 模型参数选择、图像分类、信息识别方法及装置、设备
US20240161303A1 (en) Methods and apparatuses for auto segmentation using bounding box
US20230289682A1 (en) A method for controlling a process for handling a conflict and related electronic device
CN116258924A (zh) 基于双工相似性度量的弱监督学习方法及装置
CN116246116A (zh) 强化多尺度特征提取、复用与融合的目标检测方法
Gupta et al. Exploration Study of Ensembled Object Detection Models and Hyperparameter Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination